地球物理的向量空间

最新推荐文章于 2026-06-24 15:19:09 发布

原创最新推荐文章于 2026-06-24 15:19:09 发布 · 594 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

地球物理

本文探讨了反问题的求解方法，包括模型空间和数据空间的概念，以及通过坐标变换来简化问题的策略。文章详细介绍了最小长度解、最小二乘解和约束最小二乘解的推导过程，并讨论了奇异值分解在识别问题空间和求解中的应用。

0 模型空间和数据空间

从向量空间观点来看，将数据和模型参数写为向量 $d⃗\mathbf{\vec{d}}$ 和 $m⃗\mathbf{\vec{m}}$ （以后简写为 $d\mathbf{{d}}$ 和 $m\mathbf{{m}}$ ），那么可将向量空间记为 $S(d)\mathbf{S(d)}$ 和 $S(m)\mathbf{S(m)}$ 。如下图所示，某一 $d\mathbf{{d}}$ 和 $m\mathbf{{m}}$ 均可表示为空间中的一个向量。
在这里插入图片描述
这样的话：
线性方程 $d=Gm\mathbf{d=Gm}$ 可以解释为向量从 $S(m)\mathbf{S(m)}$ 映射到 $S(d)\mathbf{S(d)}$
方程的解 $mest=G−gd\mathbf{m^{est}=G^{-g}d}$ 可以解释为向量从 $S(d)\mathbf{S(d)}$ 映射到 $S(m)\mathbf{S(m)}$

对于向量空间而言（如 $S(m)\mathbf{S(m)}$ ），有一个非常重要的性质就是：它的坐标轴是任意的。任何张成空间的向量序列都可以作为坐标轴。任意M个向量，只要这些向量是线性无关的，那么它们就可以张成一个M维的空间 $S(m)\mathbf{S(m)}$ (如 $m(i)\mathbf{m^{(i)}}$ ，其中 $,Mi=1,2,\cdots,M$ )。那么，位于 $S(m)\mathbf{S(m)}$ 中的一个任意向量（如 $m⋆\mathbf{m^{\star}}$ ），可以用M个基矢量的线性组合方式，即：
$\mathbf{m}^{*}=\sum_{i=1}^{M} \alpha_{i} \mathbf{m}^{(i)}$
式中， $α\alpha$ 为向量 $m∗\mathbf{m^{*}}$ 在新坐标系中的分量。
如果在 $S(m)\mathbf{S(m)}$ 中, $m(i)\mathbf{m}^{(i)}$ 是线性相关的，那么 $m(i)\mathbf{m}^{(i)}$ 位于 $S(m)\mathbf{S(m)}$ 中的一个子空间（或称为超平面（hyperplane)），如下图所示，其中A图为三个向量张成的一个三维空间，而B图三个向量没有张成三维空间，它们位于同一平面，是三维空间中的一个子空间（超平面）

在这里插入图片描述

1 坐标变换

在有了模型空间和数据空间的概念后，我们可以考虑坐标变换，正如在大学数学中经常会用到直角坐标系、极坐标系、球坐标系、柱坐标系之间的变换，做变换的目的就是为了运算的方便，并且不同坐标系下可以发现目标问题中一些特性/特征。对模型空间/数据空间进行坐标变化，亦是如此。

以 $S(m)\mathbf{S(m)}$ 为例， $m\mathbf{m}$ 代表一个坐标系统中的向量，而 $m′\mathbf{m^{\prime}}$ 代表这个向量 $m\mathbf{m}$ 变换到另一个坐标系统中的形式，该变换可以写为：
$\mathbf{m}^{\prime}=\mathbf{T} \mathbf{m} \quad \text { and } \quad \mathbf{m}=\mathbf{T}^{-1} \mathbf{m}^{\prime}$
式中， $T\mathbf{T}$ 为变换矩阵。

以下将推导最小长度解、最小二乘解和约束最小二乘解，通过坐标变换我们能够以一种新的视角来看待这些解。

1.1 纯欠定问题的坐标变换

假设我们想找最小长度解（最小化 $L=mTm\mathbf{L=m^{T}m}$ 的解），可以通过将模型参数变换到另一个新坐标系 $m′=Tm\mathbf{m^{\prime}=Tm}$ 来找到这个解，反问题变为：
$\mathbf{d}=\mathbf{G m}=\mathbf{G} \operatorname{Im}=\left\{\mathbf{G} \mathbf{T}^{-1}\right\}\{\mathbf{T} \mathbf{m}\}=\mathbf{G}^{\prime} \mathbf{m}^{\prime}$
其中：
$G′=GT−1\mathbf{G}^{\prime}=\mathbf{G} \mathbf{T}^{-1}$ 是在新的坐标系下的数据核函数。
同样，解的长度则变为:
$L=\mathbf{m}^{\mathrm{T}} \mathbf{m}=\left\{\mathbf{T}^{-1} \mathbf{m}^{\prime}\right\}^{\mathrm{T}}\left\{\mathbf{T}^{-1} \mathbf{m}^{\prime}\right\}=\mathbf{m}^{\prime \mathrm{T}}\left\{(\mathbf{T}^{-1 })^{\mathrm{T}} \mathbf{T}^{-1}\right\} \mathbf{m}^{\prime}$
假设我们选择的 $T\mathbf{T}$ 能够满足 ${(T−1)TT−1}\left\{(\mathbf{T}^{-1 })^{\mathrm{T}} \mathbf{T}^{-1}\right\}$ ，那么解的长度在两个坐标系中取相同的形式，即向量元素的平方和。最小化 $m′Tm′\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}$ 等价于最小化 $mTm\mathbf{m}^{\mathrm{T}} \mathbf{m}$ 。这种不改变向量元素长度的变换称为酉变换（unitary transformations），可以解释为坐标轴的旋转和反射，酉变换满足 $TT=T−1\mathbf{T}^{\mathrm{T}}=\mathbf{T}^{-1}$

如果能够选择某种坐标变换，从而能把矩阵 $G′\mathbf{G^{\prime}}$ 变成三角阵，那么还可以更加清晰地看到变换坐标的好处。假设我们选择了某种变换，将 $G′\mathbf{G^{\prime}}$ 变成了下三角阵：
$\left[\begin{array}{ccccccccc} G_{11}^{\prime} & 0 & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ G_{21}^{\prime} & G_{22}^{\prime} & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ G_{31}^{\prime} & G_{32}^{\prime} & G_{33}^{\prime} & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots & \cdots & & & & \\ G_{N 1}^{\prime} & G_{N 2}^{\prime} & G_{N 3}^{\prime} & G_{N 4}^{\prime} & \cdots & G_{N N}^{\prime} & 0 & \cdots & 0 \end{array}\right]\left[\begin{array}{c} m_{1}^{\prime} \\ m_{2}^{\prime} \\ m_{3}^{\prime} \\ \vdots \\ m_{M}^{\prime} \end{array}\right]=\left[\begin{array}{c} d_{1} \\ d_{2} \\ d_{3} \\ \vdots \\ d_{N} \end{array}\right]$
对于 $N×MN{\times}M$ 的 $G′\mathbf{G^{\prime}}$ ，从 $N + 1$ 到 $M$ 列均为 $0⃗\mathbf{\vec{0}}$ 向量，这就意味着无论 $,M\mathbf{m_i^{est}}, i=N+1,\cdots,M$ 取什么值，都不会改变 $G′m′\mathbf{G^{\prime}m^{\prime}}$ 的值。同时，通过回代求解，我们可以唯一地求解 $m′est\mathbf{m^{\prime est}}$ 的前 $N$ 个元素，如下所示：
$\begin{array}{l} m_{1}^{\mathrm{est}}=\left[d_{1}\right] / G_{11}^{\prime} \\ m_{2}^{\mathrm{est}}=\left[d_{2}-G_{21}^{\prime} m_{1}^{\mathrm{est}}\right] / G_{22}^{\prime} \\ m_{3}^{\mathrm{est}}=\left[d_{3}-G_{31}^{\prime} m_{1}^{\mathrm{est}}-G_{32}^{\prime} m_{2}^{\mathrm{est}}\right] / G_{33}^{\prime}\\ \vdots \end{array}$
由于 $m′est\mathbf{m^{\prime est}}$ 的前 $N$ 个元素是确定的， $m′Tm′\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}$ 的最小化可以通过让余下的 $miest,i>N\mathbf{m^{est}_i},i>N$ 等于 $0\mathbf{0}$ 来实现。那么原始坐标系下的解 $mest=T−1m′est\mathbf{m}^{\mathrm{est}}=\mathbf{T}^{-1} \mathbf{m}^{\prime \mathrm{est}}$ , $mest\mathbf{m}^{\mathrm{est}}$ 等于最小长度解。

从上面的论述来看，我们引入一个变换过程，它将模型参数的确定和不确定的线性组合分为了两个不同的组，使我们能够分别对它们进行处理。**这种方式下，我们可以方便的确定反问题的零向量。**在变换后的坐标系中，有一系列的零向量，它们的前 $N$ 个元素为 $0$ ，且后 $M - N$ 个元素中仅有一个非零元素。很明显，存在 $M - N$ 个这样的向量，因此我们证明了在一个纯欠定问题中，零向量的个数 $≤M\leq{M}$ 。零向量可以通过左乘 $T−1\mathbf{T^{-1}}$ 变换到原始坐标系中。由于零向量仅有一个非零元素，所以这个操作仅相当于仅选择了 $T−1\mathbf{T^{-1}}$ 的一列（或 $T\mathbf{T}$ 中的一行）。

	注：可以将矩阵三角化的一个变换称为豪斯霍尔德变换（Householder transform）

1.2 超定问题的坐标变换

具有 $N > M$ (数据多于模型参数)的超定反问题 $d=Gm\mathbf{d=Gm}$ ，也可以如上述那样进行变换来求解。这种情况中，我们寻找一个最小化预测误差 $E=eTe\mathbf{E=e^Te}$ 的解。我们寻找一个变换，它具有两个性质：

必须施加在变换后的预测误差 $e′=Te\mathbf{e^{\prime}=Te}$ ，使得最小化 $e′Te′\mathbf{e^{\prime T}e^{\prime}}$ 等价于最小化 $eTe\mathbf{e^Te}$
必须将数据核变换为上三角的形式

变换后的预测误差是:
$\mathbf{e}^{\prime}=\mathbf{T} \mathbf{e}=\mathbf{T}\{\mathbf{d}-\mathbf{G} \mathbf{m}\}=\mathbf{T} \mathbf{d}-\mathbf{T} \mathbf{G} \mathbf{m}=\mathbf{d}^{\prime}-\mathbf{G}^{\prime} \mathbf{m}$
式中， $d′\mathbf{d^{\prime}}$ 为变换后的数据； $G′\mathbf{G^{\prime}}$ 为变换后和三角化后的数据核。
$\left[\begin{array}{c} e_{1}^{\prime} \\ e_{2}^{\prime} \\ e_{3}^{\prime} \\ \vdots \\ e_{M}^{\prime} \\ e_{M+1}^{\prime} \\ \vdots \\ e_{N}^{\prime} \end{array}\right]=-\left[\begin{array}{cccccc} G_{11}^{\prime} & G_{12}^{\prime} & G_{13}^{\prime} & G_{14}^{\prime} & \cdots & G_{1 M}^{\prime} \\ 0 & G_{22}^{\prime} & G_{23}^{\prime} & G_{24}^{\prime} & \cdots & G_{2 M}^{\prime} \\ 0 & 0 & G_{33}^{\prime} & G_{34}^{\prime} & \cdots & G_{3 M}^{\prime} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & G_{M M}^{\prime} \\ 0 & 0 & 0 & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & 0 \end{array}\right]\left[\begin{array}{c} m_{1} \\ m_{2} \\ m_{3} \\ \vdots \\ \vdots \\ \vdots \\ m_{M} \end{array}\right]+\left[\begin{array}{c} d_{1}^{\prime} \\ d_{2}^{\prime} \\ d_{3}^{\prime} \\ \vdots \\ d_{M}^{\prime} \\ d_{M+1}^{\prime} \\ \vdots \\ d_{N}^{\prime} \end{array}\right]$
从该线性方程可以看到，无论 $mest\mathbf{m^{est}}$ 取什么值，都不会对 $e′\mathbf{e^{\prime}}$ 后的 $N - M$ 个元素有影响。然而，我们可以让前 $M$ 个方程 $e′=d′−G′m=0\mathbf{e^{\prime}=d^{\prime}-G^{\prime}m=0}$ 精确满足，从而使 $e′\mathbf{e^{\prime}}$ 的前 $M$ 个元素等于 $0$ 。那么，总误差源于 $e′\mathbf{e^{\prime}}$ 的后 $N - M$ 个元素的长度，写为：
$E=\sum_{i=M+1}^{N} \mathbf{e}_{i}^{\prime 2}$

上述，我们使用豪斯霍尔德变换将问题分解为两部分：

可以精确拟合的数据
根本不能拟合的数据

选择解的过程就是让它最小化预测预测的长度，因此等于最小二乘解。

	再强调一次，我们使用豪斯霍尔德变换将问题分解为两部分：可以精确拟合的数据，
以及根本不能拟合的数据。

带约束的最小二乘问题也可以通过豪斯霍尔德变换求解。如，假设我们想在最小二乘意义下求解 $Gm=d\mathbf{Gm=d}$ ，且想让解遵从 $Hm=h\mathbf{Hm=h}$ 形式的 $p$ 个线性等式约束。
由于存在这些个约束，我们不能完全自由的选择模型参数。因此，引入豪斯霍尔德变换将完全由约束决定的模型参数和完全不由约束决定的模型参数的线性组合区分开来。假设选择的变换 $T\mathbf{T}$ ，该变换将 $Hm=h\mathbf{Hm=h}$ 三角化为：
$\mathbf{h}=\mathbf{H m}=\left\{\mathbf{H T}^{-1}\right\}\{\mathbf{T} \mathbf{m}\}=\mathbf{H}^{\prime} \mathbf{m}^{\prime}$

$m′est\mathbf{m^{\prime est}}$ 的前 $p$ 个元素现在是完全确定的，并且可以通过回代求解。
将同一变换 $T\mathbf{T}$ 应用到 $Gm=d\mathbf{Gm=d}$ 上以产生变换后的反问题：
$\mathbf{d=Gm}=\left\{\mathbf{G T}^{-1}\right\}\{\mathbf{T} \mathbf{m}\}=\mathbf{G}^{\prime} \mathbf{m}^{\prime}$

此处所设计的坐标变换 $T\mathbf{T}$ 是为了三角化 $H\mathbf{H}$ ，而不是 $G′\mathbf{G^{\prime}}$ ，所以 $G′\mathbf{G^{\prime}}$ 不是三角化形式。
由于 $m′est\mathbf{m^{\prime est}}$ 的前 $p$ 个元素已经通过约束而被确定，我们可以将 $G′\mathbf{G^{\prime}}$ 分割为两个子矩阵：
$\mathbf{G}^{\prime}=\left[\mathbf{G}_{1}^{\prime}, \mathbf{G}_{2}^{\prime}\right]$
其中， $G1′\mathbf{G}_{1}^{\prime}$ 乘以 $p$ 个确定的模型参数，且 $G2′\mathbf{G}_{2}^{\prime}$ 乘以 $M - p$ 个目前尚未知的模型参数：
$\left[\mathbf{G}_{1}^{\prime}, \mathbf{G}_{2}^{\prime}\right]\left[\left[m_{1}^{\prime \text { est }} \cdots m_{p}^{\text {rest }}\right],\left[m_{p+1}^{\text {rest }} \cdots m_{M}^{\text {rest }}\right]\right]^{\mathrm{T}}=\mathbf{d}$
消去上式中所包含的已经确定的模型参数部分，重新整理为如下形式：
$\mathbf{G}_{2}^{\prime}\left[m_{p+1}^{\text {est }} \cdots m_{M}^{\text {est }}\right]^{\mathrm{T}}=\mathbf{d}-\mathbf{G}_{1}^{\prime}\left[m_{1}^{\text {est }} \cdots m_{p}^{\text {est }}\right]^{\mathrm{T}}$
上式对于 $M - p$ 个未知模型参数而言，这是一个完全的超定方程。

最终的解可通过 $mest=T−1m′est\mathbf{m}^{\mathrm{est}}=\mathbf{T}^{-1} \mathbf{m}^{\prime \mathrm{est}}$ 被反变换到原始坐标。

1.3 引起长度变化的变换

假设我们想求解线性反问题 $Gm=d\mathbf{Gm=d}$ ，要寻找一个解 $mest\mathbf{m^{est}}$ ，它最小化了预测误差和解的简单程度的加权组合：
$\text { minimize: } \quad E+L=\mathbf{e}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}} \mathbf{e}+\mathbf{m}^{\mathrm{T}} \mathbf{W}_{\mathrm{m}} \mathbf{m}$

我们有可能找到变换：
$\mathbf{m}^{\prime}=\mathbf{T}_{\mathrm{m}} \mathbf{m}\\ \mathbf{e}^{\prime}=\mathbf{T}_{\mathrm{e}} \mathbf{e}$
它们虽然不能够保持长度不变，但可以通过某种准确的方式将目标函数变为 $E+L=e′Te′+m′Tm′E+L=\mathbf{e}^{\prime \mathrm{T}} \mathbf{e}^{\prime}+\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}$
权重因子则是新坐标系中的单位矩阵。

首先考虑长度的加权度量 $L=mTWmm\mathbf{L=m^T{W_m}m}$ ，如果我们能够将加权矩阵因子化为乘积 $Wm=TmTTm\mathbf{W}_{\mathrm{m}}=\mathbf{T}_{\mathrm{m}}^{\mathrm{T}} \mathbf{T}_{\mathrm{m}}$ ，那么：
$L=\mathbf{m}^{\mathrm{T}} \mathbf{W}_{\mathrm{m}} \mathbf{m}=\mathbf{m}^{\mathrm{T}}\left\{\mathbf{T}_{\mathrm{m}}^{\mathrm{T}} \mathbf{T}_{\mathrm{m}}\right\} \mathbf{m}=\left\{\mathbf{T}_{\mathrm{m}} \mathbf{m}\right\}^{\mathrm{T}}\left\{\mathbf{T}_{\mathrm{m}} \mathbf{m}\right\}=\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}$

这个因子化可以通过多种方式来实现，
如果我们已经根据 $D\mathbf{D}$ 矩阵建立了 $Wm\mathbf{W_m}$ ，那么 $Wm=DTD\mathbf{W}_{\mathrm{m}}=\mathbf{D}^{\mathrm{T}} \mathbf{D}$ ,且 $Tm=D\mathbf{T}_{\mathrm{m}}=\mathbf{D}$ ;
如果没有，那么可以依赖对称矩阵 $Wm\mathbf{W_m}$ 的对称平方根来实现，使 $Wm=Wm1/2Wm1/2=Wm1/2TWm1/2\mathbf{W}_{\mathrm{m}}=\mathbf{W}_{\mathrm{m}}^{1 / 2} \mathbf{W}_{\mathrm{m}}^{1 / 2}=\mathbf{W}_{\mathrm{m}}^{1 / 2 \mathrm{T}} \mathbf{W}_{\mathrm{m}}^{1 / 2}$ ，这时 $T=Wm1/2\mathbf{T}=\mathbf{W}_{\mathrm{m}}^{1 / 2}$ ,那么其形式如下：
$\begin{array}{ccc} \mathbf{m}^{\prime}=\mathbf{W}_{\mathrm{m}}^{1 / 2} \mathbf{m} \text { or } \mathbf{m}^{\prime}=\mathbf{D m} & {\quad} &\mathbf{m}=\mathbf{W}_{\mathrm{m}}^{-1 / 2} \mathbf{m}^{\prime} \text { or } \mathbf{m}=\mathbf{D}^{-1} \mathbf{m}^{\prime} \\ \mathbf{d}^{\prime}=\mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{d} & \text { and } & \mathbf{d}=\mathbf{W}_{\mathrm{e}}^{-1 / 2} \mathbf{d}^{\prime} \\ \mathbf{G}^{\prime}=\mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{G W}_{\mathrm{m}}^{-1 / 2} \text { or } \mathbf{G}^{\prime}=\mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{G D}^{-1} &{\quad} &\mathbf{G}=\mathbf{W}_{\mathrm{e}}^{-1 / 2} \mathbf{G}^{\prime} \mathbf{W}_{\mathrm{m}}^{1 / 2} \text { or } \mathbf{G}=\mathbf{W}_{\mathrm{e}}^{-1 / 2} \mathbf{G}^{\prime} \mathbf{D} \end{array}$

实际上，阻尼最小二乘解 $G′+ε2I]−1GTd′\mathbf{m}^{\prime \text {est }}=\left[\mathbf{G}^{\prime \text { T }} \mathbf{G}^{\prime}+\varepsilon^{2} \mathbf{I}\right]^{-1} \mathbf{G}^{\mathrm{T}} \mathbf{d}^{\prime}$ 可通过下面的变换，变成到加权阻尼最小二乘解：
$\begin{array}{c} \mathbf{W}_{\mathrm{m}}^{1 / 2} \mathbf{m}^{\mathrm{est}}=\left[\mathbf{W}_{\mathrm{m}}^{-1 / 2} \mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{G} \mathbf{W}_{\mathrm{m}}^{-1 / 2}+\varepsilon^{2} \mathbf{I}\right]^{-1} \mathbf{W}_{\mathrm{m}}^{-1 / 2} \mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{d} \\ \mathrm{or} \\ \mathbf{m}^{\mathrm{est}}=\left[\mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}} \mathbf{G}+\varepsilon^{2} \mathbf{W}_{\mathrm{m}}\right]^{-1} \mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}} \mathbf{d} \end{array}$

1.4 混定问题

混定问题是一种具有非零预测误差的欠定问题（不完全欠定问题），向量空间的概念有助于理解混定问题，在混定问题中有些模型参数的线性组合是超定的，还有一些是欠定的。

回顾以上小节可知：

如果问题在一定程度上是欠定的，那么方程 $Gm=d\mathbf{Gm=d}$ 包含的信息仅涉及部分模型参数。这些信息位于一个模型参数空间中的子空间 $Sp(m)\mathbf{S_p(m)}$ 。对于其他空间而言，没有相关信息用以确定为于该空间中的解，称这部分空间为零空间（null space）,记为 $S0(m)\mathbf{S_0(m)}$ 。位于零空间内的那部分 $m\mathbf{m}$ 被 $Gm=d\mathbf{Gm=d}$ 完全“忽视”，因为方程不包含任何关于模型参数线性组合的信息。
如果问题在某种程度上是超定的，那么无论选择什么样的 $m\mathbf{m}$ ，任何乘积 $Gm\mathbf{Gm}$ 也许都无法张成数据空间 $S(d)\mathbf{S(d)}$ 。在最好的情况下， $Gm\mathbf{Gm}$ 也许张成了数据空间中的一个子空间 $Sp(d)\mathbf{S_p(d)}$ 。那么，对于位于这个子空间之外的数据，无论模型参数如何选择，这些数据都无法选择。

如果，模型参数和数据位于 $p$ 空间内的带下标 $p$ 的部分，以及位于零空间内的带下标 $0$ 的部分，那么我们可以将 $Gm=d\mathbf{Gm=d}$ 写为：
$G[mp+m0]=[dp+d0]\mathbf{G}\left[\mathbf{m}_{p}+\mathbf{m}_{0}\right]=\left[\mathbf{d}_{p}+\mathbf{d}_{0}\right]$
同理，解的长度可写为：
$L=mTm=[mp+m0]T[mp+m0]=mpTmp+m0Tm0L=\mathbf{m}^{\mathrm{T}} \mathbf{m}=\left[\mathbf{m}_{p}+\mathbf{m}_{0}\right]^{\mathrm{T}}\left[\mathbf{m}_{p}+\mathbf{m}_{0}\right]=\mathbf{m}_{p}^{\mathrm{T}} \mathbf{m}_{p}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{m}_{0}$

由于向量位于不同空间，所以交叉项 $mpTm0\mathbf{m}_{p}^{\mathrm{T}} \mathbf{m}_{0}$ 和 $m0Tmp\mathbf{m}_{0}^{\mathrm{T}} \mathbf{m}_{p}$ 为 $0$

预测误差可写为：
$E=[dp+d0−Gmp]T[dp+d0−Gmp]=[dp−Gmp]T[dp−Gmp]+d0Td0E=\left[\mathbf{d}_{p}+\mathbf{d}_{0}-\mathbf{G m}_{p}\right]^{\mathrm{T}}\left[\mathbf{d}_{p}+\mathbf{d}_{0}-\mathbf{G m}_{p}\right]=\left[\mathbf{d}_{p}-\mathbf{G m}_{p}\right]^{\mathrm{T}}\left[\mathbf{d}_{p}-\mathbf{G m}_{p}\right]+\mathbf{d}_{0}^{\mathrm{T}} \mathbf{d}_{0}$

以此为基础，我们可以定义混定问题的解，这个解最小化了预测误差，同时添加了最少的先验信息。

添加先验信息的目的是，指明零空间 $S0(m)\mathbf{S_0(m)}$ 内模型参数的线性组合，以及通过准确满足 $ep=[dp−Gmp]=0\mathbf{e_p=[d_p-Gm_p]}=0$ 降低零空间内的那部分预测误差。

先验信息的一种选择是 $m0est=0\mathbf{m_0^{est}=0}$ ，这在有些情况下被称为混定问题的自然解（natural solution）。当 $Gm=d\mathbf{Gm=d}$ 是纯欠定时，自然界就是最小长度解；而当 $Gm=d\mathbf{Gm=d}$ 是纯超定时，自然解就是最小二乘解。

人们也许试图将自然解视为优于像阻尼最小二乘解这一类的解，因为对于自然解而言，先验信息仅施加于零空间内的那部分解，并且不增加预测误差。然而，这样的评价并不清晰，如果先验信息是准确的，就应该完全使用，即使导致预测误差较大。无论如何，对于含有噪声的测量数据，两个轻微不同的预测误差在统计上将是不可识别的。这个分析强调了，必须根据实际问题挑选合适的反演方法。

2 奇异值分解和使用

从向量空间的角度来看，反问题有时会存在零空间。上一章，通过对模型参数 $m\mathbf{m}$ 或数据 $d\mathbf{d}$ 进行空间变换（坐标变换）来达到区分 $p$ 空间(非零空间)和零空间。而本章则通过对数据核 $G\mathbf{G}$ 进行特征值分解来识别线性问题的 $p$ 空间和零空间，这种分解称为奇异值分解。

2.1 奇异值分解

任何一个 $N×MN{\times}M$ 的矩阵都可以写为三个矩阵的乘积：
$G=UΛVT\mathbf{G}=\mathbf{U} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}$
式中:
矩阵 $U\mathbf{U}$ 是一个 $N×NN{\times}N$ 的特征向量矩阵。这些特征向量张成了数据空间 $S(d)\mathbf{S(d)}$ :
$U=[u(1)u(2)u(3)⋯uN]\mathbf{U}=\left[\begin{array}{lllll} \mathbf{u}^{(1)} & \mathbf{u}^{(2)} & \mathbf{u}^{(3)} & \cdots & \mathbf{u}^{N} \end{array}\right]$
其中， $u(i)\mathbf{u^{(i)}}$ 为独立向量，且向量间相互垂直，并且可以设定为单位长度，使得 $UUT=UTU=I\mathbf{U} \mathbf{U}^{\mathrm{T}}=\mathbf{U}^{\mathrm{T}} \mathbf{U}=\mathbf{I}$ ;

类似地，矩阵 $V\mathbf{V}$ 为一个 $M×MM{\times}M$ 的特征向量矩阵，这些特征向量张成了模型参数空间 $S(m)\mathbf{S(m)}$
$V=[v(1)v(2)v(3)⋯vM]\mathbf{V}=\left[\begin{array}{llll} \mathbf{v}^{(1)} & \mathbf{v}^{(2)} & \mathbf{v}^{(3)} & \cdots & \mathbf{v}^{M} \end{array}\right]$
其中， $v(i)\mathbf{v^{(i)}}$ 为独立的正交向量，使 $VVT=VTV=I\mathbf{V} \mathbf{V}^{\mathrm{T}}=\mathbf{V}^{\mathrm{T}} \mathbf{V}=\mathbf{I}$ 。

$Λ\mathbf{\Lambda}$ 为一个 $N×MN{\times}M$ 的对角特征矩阵，其对角元素使非负的，即奇异值。例如，当 $N = 4, M = 3$ 时有：
$Λ=[λ1000λ2000λ3000]\boldsymbol{\Lambda}=\left[\begin{array}{lll} \lambda_{1} & 0 & 0 \\ 0 & \lambda_{2} & 0 \\ 0 & 0 & \lambda_{3} \\ 0 & 0 & 0 \end{array}\right]$

奇异值通常会按照从大到小的顺序排列，有些奇异值有可能是0。因此，可将 $Λ\mathbf{\Lambda}$ 分解为一个含有 $p$ 个非零奇异值的矩阵 $Λp\mathbf{\Lambda_{p}}$ 和几个零矩阵，如下所示：
$Λ=[Λp000]\boldsymbol{\Lambda}=\left[\begin{array}{ll} \boldsymbol{\Lambda}_{p} & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{0} \end{array}\right]$

那么就有：
$UΛVT=UpΛpVpT\mathbf{U} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}=\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}}$
其中， $Up\mathbf{U_p}$ 和 $Vp\mathbf{V_p}$ 分别由 $U\mathbf{U}$ 和 $V\mathbf{V}$ 的前 $p$ 列组成。
特征向量矩阵的其他部分被 $Λ\mathbf{\Lambda}$ 中的零值抵消。矩阵 $G\mathbf{G}$ 没有包含任何关于这部分数据向量和模型参数向量的子空间的信息，记为 $V0\mathbf{V_0}$ 和 $U0\mathbf{U_0}$ 。

可以看到，通过对映射关系(或称为算子)矩阵 $G\mathbf{G}$ 的奇异值分解，其结果同上一章一样，可以区分开数据或模型参数的 $p$ 空间和零空间向量。
这样问题的线性方程
$d=Gm=UpΛpVpTm\mathbf{d}=\mathbf{G m}=\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}} \mathbf{m}$
它没有包含 $V0\mathbf{V_0}$ 所张成的模型子空间的任何信息。模型参数向量完全位于 $Sp(m)\mathbf{S_p(m)}$ 中，而数据向量完全位于 $Sp(d)\mathbf{S_p(d)}$ 。

综上所述，通过对数据核进行奇异值分解可以识别 $p$ 空间和零空间。全空间 $S(m)\mathbf{S(m)}$ 和 $S(d)\mathbf{S(d)}$ 分别由 $V\mathbf{V}$ 和 $U\mathbf{U}$ 张成。 $p$ 空间由非零奇异值对应的特征向量所张成，即 $Vp→Sp(m),Up→Sp(d)\mathbf{V_p{\rightarrow}S_p(m)}, \mathbf{U_p{\rightarrow}S_p(d)}$ 。同理可知， $V0→S0(m),U0→S0(d)\mathbf{V_0{\rightarrow}S_0(m)},\mathbf{U_0{\rightarrow}S_0(d)}$ 。 $p$ 空间的向量与零空间的所有向量是正交的，故两者所形成的两个矩阵也是正交的，且按照 $VpTVp=UpTUp=I\mathbf{V}_{p}^{\mathrm{T}} \mathbf{V}_{p}=\mathbf{U}_{p}^{\mathrm{T}} \mathbf{U}_{p}=\mathbf{I}$ 的形式归一化，其中的大小为 $p×pp{\times}p$ 。然而，由于这些矩阵一般并不张成完备的数据和模型空间， $VpTVp\mathbf{V_p^{T}V_p}$ 和 $UpTUp\mathbf{U_p^{T}U_p}$ 一般不是单位矩阵。

2.2 自然广义逆

反问题的自然解可以用奇异值分解来构建。这个解要具有如下特征：

解 $mest\mathbf{m^{est}}$ 在零空间 $S0(m)\mathbf{S_0(m)}$ 中没有任何分量
预测误差 $e\mathbf{e}$ 在零空间 $S0(d)\mathbf{S_0(d)}$ 中没有任何分量
因此，考虑如下的解：
$mest=VpΛp−1UpTd\mathbf{m}^{\mathrm{est}}=\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}$
其推导过程如下：
1）解在 $S0(m)\mathbf{S_0(m)}$ 中没有分量，如下式：
$V0Tmest=V0TVpΛp−1UpTd=0\mathbf{V}_{0}^{\mathrm{T}} \mathbf{m}^{\mathrm{est}}=\mathbf{V}_{0}^{\mathrm{T}} \mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}=\mathbf{0}$
2）同理，预测误差在 $S0(d)中没有分量\mathbf{S_0(d)}中没有分量$ ，如下式：
$UpTe=UpT[d−Gmest]=UpT[d−UpΛpVpTVpΛp−1UpTd]=UpT[d−UpUpTd]=UpTd−UpTd=0\begin{array}{c} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{e}=\mathbf{U}_{p}^{\mathrm{T}}\left[\mathbf{d}-\mathbf{G m}^{\mathrm{est}}\right]=\mathbf{U}_{p}^{\mathrm{T}}\left[\mathbf{d}-\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}} \mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}\right] \\ =\mathbf{U}_{p}^{\mathrm{T}}\left[\mathbf{d}-\mathbf{U}_{p} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}\right]=\mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}-\mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}=\mathbf{0} \end{array}$

$VpTVp=UpTUp=ΛpΛp−1=I\mathbf{V}_{p}^{\mathrm{T}} \mathbf{V}_{p}=\mathbf{U}_{p}^{\mathrm{T}} \mathbf{U}_{p}=\mathbf{\Lambda}_{p} \mathbf{\Lambda}_{p}^{-1}=\mathbf{I}$

因此反问题的自然解为：
$mest=VpΛp−1UpTd\mathbf{m}^{\mathrm{est}}=\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}$
证毕。

我们注意到，可以为混定问题定义一个广义逆算子，自然广义逆(natural generalized inverse)
$G−g=VpΛp−1UpT\mathbf{G}^{-g}=\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}$

自然广义逆的模型分辨率为：
$R=G−gG={VpΛp−1UpT}{UpΛpVpT}=VpVpT\mathbf{R}=\mathbf{G}^{-g} \mathbf{G}=\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}\left\{\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}}\right\}=\mathbf{V}_{p} \mathbf{V}_{p}^{\mathrm{T}}$

$Vp\mathbf{V_p}$ 所张成的模型参数空间是完备的，即 $p≥Mp{\geq}M$

自然广义逆的数据分辨率为：
$N=GG−g={UpΛpVpT}{VpΛp−1UpT}=UpUpT\mathbf{N}=\mathbf{G G}^{-g}=\left\{\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}}\right\}\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}=\mathbf{U}_{p} \mathbf{U}_{p}^{\mathrm{T}}$

$Up\mathbf{U_p}$ 所张成的数据空间是完备的，即 $p = N$ 。这时，数据才能够被完全的拟合。

如果数据不相关，且具有均匀的方差 $σd2\sigma_d^2$ ，那么模型的协方差是
$[cov⁡mest]=G−g[cov⁡d]G−gT=σd2{VpΛp−1UpT}{VpΛp−1UpT}T=σd2VpΛp−2VpT\begin{aligned} \left[\operatorname{cov} \mathbf{m}^{\mathrm{est}}\right] &=\mathbf{G}^{-g}[\operatorname{cov} \mathbf{d}] \mathbf{G}^{-g \mathrm{T}}=\sigma_{\mathrm{d}}^{2}\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}^{\mathrm{T}} \\ &=\sigma_{\mathrm{d}}^{2} \mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-2} \mathbf{V}_{p}^{\mathrm{T}} \end{aligned}$
从上式可以看出，估计模型参数的协方差对最小的非零特征值非常敏感。

为了使用自然广义逆，必须能够得到数字 $p$ ,也就是说要计算出非零奇异值的个数。奇异值大小与它们的指标数之间的关系图（数据核的谱）在确定 $p$ 值的过程中是非常有用的。一旦奇异值分成两个清晰可辨的组（一组非零和一组是零的两组，如下图的A和B），那么 $p$ 值可以容易的确定。然而，在实际反问题中，奇异值经常是平缓的减小（下图的C和D），对于辨别实际的非零值和计算机取整误差产生的零值变得困难。
在这里插入图片描述
另外，由于包含因子 $Λp−2\mathbf{\Lambda^{-2}_p}$ ，如果选择的 $p$ 使得一些非常小的奇异值纳入了 $Λp−2\mathbf{\Lambda^{-2}_p}$ 中，那么解的方差将非常大。针对这一问题，有两种解决方式：
1）可以对奇异值拾取某些截断值，然后任何小于这些截断值的所有值都当作零来处理。这个过程人为地降低了广义逆中的 $Vp\mathbf{V_p}$ 和 $Up\mathbf{U_p}$ 的维数。由此产生的模型参数的估计不再精确地等于自然解。但是如果仅有小的奇异值被排除在外，那么解通常接近自然解，且拥有较小的方差，但是解的模型和数据分辨率变差了，这有一次体现了求解反问题时的“折中”思想：此处是对方差 $[cov⁡mest]\left[\operatorname{cov} \mathbf{m}^{\mathrm{est}}\right]$ 和分辨率 $R,N\mathbf{R,N}$ 的折中。
**2）使用阻尼的方式，阻尼衰减较小的值。**我们令 $p = M$ ，将所有奇异值的倒数替换为 $λi/(ε2+λi2)\lambda_{i} /\left(\varepsilon^{2}+\lambda_{i}^{2}\right)$ ，其中的 $ε\varepsilon$ 是阻尼因子，取某个较小的数值。这个变化对较大的奇异值影响很小，但又防止了较小奇异值引起大方差的问题。显然，这样做使得解不再是自然解，同样方差的改善了，但模型和数据分辨率降低了。

附录

1 豪斯霍尔德变换的设计

2 对称矩阵 $W$ 的平方根

对称矩阵 $W\mathbf{W}$ 的平方根是通过特征值分解来定义的。令 $Λ\mathbf{\Lambda}$ 和 $U\mathbf{U}$ 分别为 $W\mathbf{W}$ 的特征值和特征向量， $W=UΛUT\mathbf{W=U{\Lambda}U^T}$ 成立，那么：
$\mathbf{T}=\mathbf{W}^{1 / 2}=\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}$
使得
$\begin{array}{l} \mathbf{W}^{1 / 2 \mathbf{T}} \mathbf{W}^{1 / 2}=\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}} \mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathbf{T}} \\ =\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}=\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{\mathrm{T}}=\mathbf{W} \end{array}$
也可以通过另一种方式来定义变换 $T\mathbf{T}$ ：
$T=Λ1/2UT\mathbf{T}=\mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}$
其结果是
$TTT=UΛ1/2Λ1/2UT=UΛUT=W\mathbf{T}^{\mathrm{T}} \mathbf{T}=\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}=\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{\mathrm{T}}=\mathbf{W}$
变换后的反问题为 $G′m′=d′\mathbf{G}^{\prime} \mathbf{m}^{\prime}=\mathbf{d}^{\prime}$ ，其中：
$\begin{array}{c} \mathbf{m}^{\prime}=\left\{\Lambda_{\mathrm{m}}^{1 / 2} \mathbf{U}_{\mathrm{m}}^{\mathrm{T}}\right\} \mathbf{m} & & \mathbf{m}=\left\{\mathbf{U}_{\mathrm{m}} \mathbf{\Lambda}_{\mathrm{m}}^{-1 / 2}\right\} \mathbf{m}^{\prime} \\ \mathbf{d}^{\prime}=\left\{\Lambda_{\mathrm{e}}^{1 / 2} \mathbf{U}_{\mathrm{e}}^{\mathrm{T}}\right\} \mathbf{d} & \text { and } & \mathbf{d}=\left\{\mathbf{U}_{\mathbf{e}} \mathbf{\Lambda}_{\mathbf{e}}^{-1 / 2}\right\} \mathbf{d}^{\prime} \\ \mathbf{G}^{\prime}=\left\{\mathbf{\Lambda}_{\mathbf{e}}^{1 / 2} \mathbf{U}_{\mathbf{e}}^{\mathrm{T}}\right\} \mathbf{G}\left\{\mathbf{U}_{\mathbf{m}}^{\mathrm{T}} \mathbf{\Lambda}_{\mathbf{m}}^{-1 / 2}\right\} & &\mathbf{G}=\left\{\mathbf{U}_{\mathbf{e}} \mathbf{\Lambda}_{\mathbf{e}}^{-1 / 2}\right\} \mathbf{G}^{\prime}\left\{\mathbf{\Lambda}_{\mathrm{m}}^{1 / 2} \mathbf{U}_{\mathrm{m}}^{\mathrm{T}}\right\} \end{array}$
式中， $Wm=UmΛmUmT\mathbf{W}_{\mathrm{e}}=\mathbf{U}_{\mathrm{e}} \mathbf{\Lambda}_{\mathrm{e}} \mathbf{U}_{\mathrm{e}}^{\mathrm{T}} \text { and } \mathbf{W}_{\mathrm{m}}=\mathbf{U}_{\mathrm{m}} \mathbf{\Lambda}_{\mathrm{m}} \mathbf{U}_{\mathrm{m}}^{\mathrm{T}}$
有时候，在获得解之前，将加权 $L_2$ 范数问题变换为这两种形式之一是方便的。

3 奇异值分解的另一种方式

奇异值分解可以通过很多途径来推导，这里给出另一种推导方法。
利用数据核及其转置 $G\mathbf{G}$ 和 $GT\mathbf{G^T}$ 来构建一个 $(N+M)×(N+M)(N+M){\times}(N+M)$ 的对称矩阵 $S\mathbf{S}$ :
$S=[0GGT0]\mathbf{S}=\left[\begin{array}{ll} 0 & \mathbf{G} \\ \mathbf{G}^{\mathrm{T}} & 0 \end{array}\right]$
该矩阵有 $N + M$ 个特征值，记为 $,N+M\lambda_i,i=1,2,\cdots,N+M$ ，和一个完备特征向量序列 $w^{i}$ ，即 $Sw(i)=λiw(i)\mathbf{S} \mathbf{w}^{(i)}=\lambda_{i} \mathbf{w}^{(i)}$ 。将特征向量序列 $w\mathbf{w}$ 分成一个长度为 $N$ 的 $u\mathbf{u}$ ，和一个长度为 $M$ 的 $v\mathbf{v}$ ，得到：

$Sw(i)=λiw(i)→[0GGT0][u(i)v(i)]=λi[u(i)v(i)]\mathbf{S} \mathbf{w}^{(i)}=\lambda_{i} \mathbf{w}^{(i)} \rightarrow\left[\begin{array}{ll} 0 & \mathbf{G} \\ \mathbf{G}^{\mathrm{T}} & 0 \end{array}\right]\left[\begin{array}{l} \mathbf{u}^{(i)} \\ \mathbf{v}^{(i)} \end{array}\right]=\lambda_{i}\left[\begin{array}{l} \mathbf{u}^{(i)} \\ \mathbf{v}^{(i)} \end{array}\right]$
显然，通过上一个章节的论述可知， $u\mathbf{u}$ 为数据的特征向量序列， $v\mathbf{v}$ 为模型参数的特征向量序列。另外注意到，上面的方程意味着
$GTu(i)=λiv(i)\mathbf{G} \mathbf{v}^{(i)}=\lambda_{i} \mathbf{u}^{(i)} \text { and } \mathbf{G}^{\mathrm{T}} \mathbf{u}^{(i)}=\lambda_{i} \mathbf{v}^{(i)}$
假设，存在一个对应的特征向量 $[u(i),v(i)]T[\mathbf{u^{(i)},v^{(i)}}]^{\mathbf{T}}$ 的正特征值 $λi\lambda_i$ ，那么对于特征值 $−λi-\lambda_i$ 就对应于特征向量 $[−u(i),v(i)]T[\mathbf{-u^{(i)},v^{(i)}}]^{\mathbf{T}}$ 。如果存在 $p$ 个正特征值，那么就存在 $N + M - 2 p$ 个零特征值。
通过整理前面的方程，可得：
$GGTu(i)=λi2u(i)\mathbf{G}^{\mathrm{T}} \mathbf{G} \mathbf{v}^{(i)}=\lambda_{i}^{2} \mathbf{v}^{(i)} \quad \text { and } \quad \mathbf{G G}^{\mathrm{T}} \mathbf{u}^{(i)}=\lambda_{i}^{2} \mathbf{u}^{(i)}$
对于对称矩阵而言，特征向量的个数不能多于它的维数，即 $p≤min(N,M)p{\leq}min(N,M)$ 。因为上述的两个矩阵即使方阵又是对称阵，所以存在 $M$ 个向量 $v(i)\mathbf{v}^{(i)}$ 构成了一个在 $S(m)\mathbf{S(m)}$ 空间中的完备正交序列 $V\mathbf{V}$ ，同时也存在 $N$ 个向量 $u(i)\mathbf{u}^{(i)}$ 构成了一个在 $S(d)\mathbf{S(d)}$ 中的完备正交序列 $U\mathbf{U}$ .

~~这个包括 $p$ 个不同非零特征值的特征向量 $w\mathbf{w}$ ，余下的向量是从零特征值的特征向量中选择的。~~
方程 $Gv(i)=λiu(i)\mathbf{G} \mathbf{v}^{(i)}=\lambda_{i} \mathbf{u}^{(i)}$
可以写成矩阵形式 $GV=UΛ\mathbf{GV=U\Lambda}$
其中， $Λ\mathbf{\Lambda}$ 是特征值构成的对角阵。上式右乘 $VT\mathbf{V^T}$ 给出奇异值分解 $G=UΛVT\mathbf{G}=\mathbf{U} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}$ 。