地球物理的向量空间

本文探讨了反问题的求解方法,包括模型空间和数据空间的概念,以及通过坐标变换来简化问题的策略。文章详细介绍了最小长度解、最小二乘解和约束最小二乘解的推导过程,并讨论了奇异值分解在识别问题空间和求解中的应用。

0 模型空间和数据空间

从向量空间观点来看,将数据和模型参数写为向量d⃗\mathbf{\vec{d}}dm⃗\mathbf{\vec{m}}m(以后简写为d\mathbf{{d}}dm\mathbf{{m}}m),那么可将向量空间记为S(d)\mathbf{S(d)}S(d)S(m)\mathbf{S(m)}S(m)。如下图所示,某一d\mathbf{{d}}dm\mathbf{{m}}m均可表示为空间中的一个向量。
在这里插入图片描述
这样的话:
线性方程d=Gm\mathbf{d=Gm}d=Gm可以解释为向量从S(m)\mathbf{S(m)}S(m)映射到S(d)\mathbf{S(d)}S(d)
方程的解mest=G−gd\mathbf{m^{est}=G^{-g}d}mest=Ggd可以解释为向量从S(d)\mathbf{S(d)}S(d)映射到S(m)\mathbf{S(m)}S(m)

对于向量空间而言(如S(m)\mathbf{S(m)}S(m)),有一个非常重要的性质就是:它的坐标轴是任意的。任何张成空间的向量序列都可以作为坐标轴。任意M个向量,只要这些向量是线性无关的,那么它们就可以张成一个M维的空间S(m)\mathbf{S(m)}S(m)(如m(i)\mathbf{m^{(i)}}m(i),其中i=1,2,⋯ ,Mi=1,2,\cdots,Mi=1,2,,M)。那么,位于S(m)\mathbf{S(m)}S(m)中的一个任意向量(如m⋆\mathbf{m^{\star}}m),可以用M个基矢量的线性组合方式,即:
m∗=∑i=1Mαim(i) \mathbf{m}^{*}=\sum_{i=1}^{M} \alpha_{i} \mathbf{m}^{(i)} m=i=1Mαim(i)
式中,α\alphaα为向量m∗\mathbf{m^{*}}m在新坐标系中的分量。
如果在S(m)\mathbf{S(m)}S(m)中,m(i)\mathbf{m}^{(i)}m(i)是线性相关的,那么m(i)\mathbf{m}^{(i)}m(i)位于S(m)\mathbf{S(m)}S(m)中的一个子空间(或称为超平面(hyperplane)),如下图所示,其中A图为三个向量张成的一个三维空间,而B图三个向量没有张成三维空间,它们位于同一平面,是三维空间中的一个子空间(超平面)

在这里插入图片描述

1 坐标变换

在有了模型空间和数据空间的概念后,我们可以考虑坐标变换,正如在大学数学中经常会用到直角坐标系、极坐标系、球坐标系、柱坐标系之间的变换,做变换的目的就是为了运算的方便,并且不同坐标系下可以发现目标问题中一些特性/特征。对模型空间/数据空间进行坐标变化,亦是如此。

S(m)\mathbf{S(m)}S(m)为例,m\mathbf{m}m代表一个坐标系统中的向量,而m′\mathbf{m^{\prime}}m代表这个向量m\mathbf{m}m变换到另一个坐标系统中的形式,该变换可以写为:
m′=Tm and m=T−1m′ \mathbf{m}^{\prime}=\mathbf{T} \mathbf{m} \quad \text { and } \quad \mathbf{m}=\mathbf{T}^{-1} \mathbf{m}^{\prime} m=Tm and m=T1m
式中,T\mathbf{T}T为变换矩阵。

以下将推导最小长度解、最小二乘解和约束最小二乘解,通过坐标变换我们能够以一种新的视角来看待这些解。

1.1 纯欠定问题的坐标变换

假设我们想找最小长度解(最小化L=mTm\mathbf{L=m^{T}m}L=mTm的解),可以通过将模型参数变换到另一个新坐标系m′=Tm\mathbf{m^{\prime}=Tm}m=Tm来找到这个解,反问题变为:
d=Gm=GIm⁡={GT−1}{Tm}=G′m′ \mathbf{d}=\mathbf{G m}=\mathbf{G} \operatorname{Im}=\left\{\mathbf{G} \mathbf{T}^{-1}\right\}\{\mathbf{T} \mathbf{m}\}=\mathbf{G}^{\prime} \mathbf{m}^{\prime} d=Gm=GIm={GT1}{Tm}=Gm
其中:
G′=GT−1\mathbf{G}^{\prime}=\mathbf{G} \mathbf{T}^{-1}G=GT1是在新的坐标系下的数据核函数。
同样,解的长度则变为:
L=mTm={T−1m′}T{T−1m′}=m′T{(T−1)TT−1}m′ L=\mathbf{m}^{\mathrm{T}} \mathbf{m}=\left\{\mathbf{T}^{-1} \mathbf{m}^{\prime}\right\}^{\mathrm{T}}\left\{\mathbf{T}^{-1} \mathbf{m}^{\prime}\right\}=\mathbf{m}^{\prime \mathrm{T}}\left\{(\mathbf{T}^{-1 })^{\mathrm{T}} \mathbf{T}^{-1}\right\} \mathbf{m}^{\prime} L=mTm={T1m}T{T1m}=mT{(T1)TT1}m
假设我们选择的T\mathbf{T}T能够满足{(T−1)TT−1}\left\{(\mathbf{T}^{-1 })^{\mathrm{T}} \mathbf{T}^{-1}\right\}{(T1)TT1}那么解的长度在两个坐标系中取相同的形式,即向量元素的平方和。最小化m′Tm′\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}mTm等价于最小化mTm\mathbf{m}^{\mathrm{T}} \mathbf{m}mTm。这种不改变向量元素长度的变换称为酉变换(unitary transformations)可以解释为坐标轴的旋转和反射,酉变换满足TT=T−1\mathbf{T}^{\mathrm{T}}=\mathbf{T}^{-1}TT=T1

如果能够选择某种坐标变换,从而能把矩阵G′\mathbf{G^{\prime}}G变成三角阵,那么还可以更加清晰地看到变换坐标的好处。假设我们选择了某种变换,将G′\mathbf{G^{\prime}}G变成了下三角阵:
[G11′000⋯00⋯0G21′G22′00⋯00⋯0G31′G32′G33′0⋯00⋯0⋮⋮⋮⋮⋯GN1′GN2′GN3′GN4′⋯GNN′0⋯0][m1′m2′m3′⋮mM′]=[d1d2d3⋮dN] \left[\begin{array}{ccccccccc} G_{11}^{\prime} & 0 & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ G_{21}^{\prime} & G_{22}^{\prime} & 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ G_{31}^{\prime} & G_{32}^{\prime} & G_{33}^{\prime} & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots & \cdots & & & & \\ G_{N 1}^{\prime} & G_{N 2}^{\prime} & G_{N 3}^{\prime} & G_{N 4}^{\prime} & \cdots & G_{N N}^{\prime} & 0 & \cdots & 0 \end{array}\right]\left[\begin{array}{c} m_{1}^{\prime} \\ m_{2}^{\prime} \\ m_{3}^{\prime} \\ \vdots \\ m_{M}^{\prime} \end{array}\right]=\left[\begin{array}{c} d_{1} \\ d_{2} \\ d_{3} \\ \vdots \\ d_{N} \end{array}\right] G11G21G31GN10G22G32GN200G33GN3000GN4000GNN00000000m1m2m3mM=d1d2d3dN
对于N×MN{\times}MN×MG′\mathbf{G^{\prime}}G,从N+1N+1N+1MMM列均为0⃗\mathbf{\vec{0}}0向量,这就意味着无论miest,i=N+1,⋯ ,M\mathbf{m_i^{est}}, i=N+1,\cdots,Mmiest,i=N+1,,M取什么值,都不会改变G′m′\mathbf{G^{\prime}m^{\prime}}Gm的值。同时,通过回代求解,我们可以唯一地求解m′est\mathbf{m^{\prime est}}mest的前NNN个元素,如下所示:
m1est=[d1]/G11′m2est=[d2−G21′m1est]/G22′m3est=[d3−G31′m1est−G32′m2est]/G33′⋮ \begin{array}{l} m_{1}^{\mathrm{est}}=\left[d_{1}\right] / G_{11}^{\prime} \\ m_{2}^{\mathrm{est}}=\left[d_{2}-G_{21}^{\prime} m_{1}^{\mathrm{est}}\right] / G_{22}^{\prime} \\ m_{3}^{\mathrm{est}}=\left[d_{3}-G_{31}^{\prime} m_{1}^{\mathrm{est}}-G_{32}^{\prime} m_{2}^{\mathrm{est}}\right] / G_{33}^{\prime}\\ \vdots \end{array} m1est=[d1]/G11m2est=[d2G21m1est]/G22m3est=[d3G31m1estG32m2est]/G33
由于m′est\mathbf{m^{\prime est}}mest的前NNN个元素是确定的,m′Tm′\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}mTm的最小化可以通过让余下的miest,i>N\mathbf{m^{est}_i},i>Nmiest,i>N等于0\mathbf{0}0来实现。那么原始坐标系下的解mest=T−1m′est\mathbf{m}^{\mathrm{est}}=\mathbf{T}^{-1} \mathbf{m}^{\prime \mathrm{est}}mest=T1mest,mest\mathbf{m}^{\mathrm{est}}mest等于最小长度解。

从上面的论述来看,我们引入一个变换过程,它将模型参数的确定和不确定的线性组合分为了两个不同的组,使我们能够分别对它们进行处理。**这种方式下,我们可以方便的确定反问题的零向量。**在变换后的坐标系中,有一系列的零向量,它们的前NNN个元素为000,且后M−NM-NMN个元素中仅有一个非零元素。很明显,存在M−NM-NMN个这样的向量,因此我们证明了在一个纯欠定问题中,零向量的个数≤M\leq{M}M。零向量可以通过左乘T−1\mathbf{T^{-1}}T1变换到原始坐标系中。由于零向量仅有一个非零元素,所以这个操作仅相当于仅选择了T−1\mathbf{T^{-1}}T1的一列(或T\mathbf{T}T中的一行)。

	注:可以将矩阵三角化的一个变换称为豪斯霍尔德变换(Householder transform)

1.2 超定问题的坐标变换

具有N>MN>MN>M(数据多于模型参数)的超定反问题d=Gm\mathbf{d=Gm}d=Gm,也可以如上述那样进行变换来求解。这种情况中,我们寻找一个最小化预测误差E=eTe\mathbf{E=e^Te}E=eTe的解。我们寻找一个变换,它具有两个性质:

  • 必须施加在变换后的预测误差e′=Te\mathbf{e^{\prime}=Te}e=Te,使得最小化e′Te′\mathbf{e^{\prime T}e^{\prime}}eTe等价于最小化eTe\mathbf{e^Te}eTe
  • 必须将数据核变换为上三角的形式

变换后的预测误差是:
e′=Te=T{d−Gm}=Td−TGm=d′−G′m \mathbf{e}^{\prime}=\mathbf{T} \mathbf{e}=\mathbf{T}\{\mathbf{d}-\mathbf{G} \mathbf{m}\}=\mathbf{T} \mathbf{d}-\mathbf{T} \mathbf{G} \mathbf{m}=\mathbf{d}^{\prime}-\mathbf{G}^{\prime} \mathbf{m} e=Te=T{dGm}=TdTGm=dGm
式中,d′\mathbf{d^{\prime}}d为变换后的数据;G′\mathbf{G^{\prime}}G为变换后和三角化后的数据核。
[e1′e2′e3′⋮eM′eM+1′⋮eN′]=−[G11′G12′G13′G14′⋯G1M′0G22′G23′G24′⋯G2M′00G33′G34′⋯G3M′⋮⋮⋮⋮⋮⋮0000⋯GMM′000000⋮⋮⋮⋮⋮⋮0000⋯0][m1m2m3⋮⋮⋮mM]+[d1′d2′d3′⋮dM′dM+1′⋮dN′] \left[\begin{array}{c} e_{1}^{\prime} \\ e_{2}^{\prime} \\ e_{3}^{\prime} \\ \vdots \\ e_{M}^{\prime} \\ e_{M+1}^{\prime} \\ \vdots \\ e_{N}^{\prime} \end{array}\right]=-\left[\begin{array}{cccccc} G_{11}^{\prime} & G_{12}^{\prime} & G_{13}^{\prime} & G_{14}^{\prime} & \cdots & G_{1 M}^{\prime} \\ 0 & G_{22}^{\prime} & G_{23}^{\prime} & G_{24}^{\prime} & \cdots & G_{2 M}^{\prime} \\ 0 & 0 & G_{33}^{\prime} & G_{34}^{\prime} & \cdots & G_{3 M}^{\prime} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & G_{M M}^{\prime} \\ 0 & 0 & 0 & 0 & 0 & 0 \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ 0 & 0 & 0 & 0 & \cdots & 0 \end{array}\right]\left[\begin{array}{c} m_{1} \\ m_{2} \\ m_{3} \\ \vdots \\ \vdots \\ \vdots \\ m_{M} \end{array}\right]+\left[\begin{array}{c} d_{1}^{\prime} \\ d_{2}^{\prime} \\ d_{3}^{\prime} \\ \vdots \\ d_{M}^{\prime} \\ d_{M+1}^{\prime} \\ \vdots \\ d_{N}^{\prime} \end{array}\right] e1e2e3eMeM+1eN=G1100000G12G220000G13G23G33000G14G24G340000G1MG2MG3MGMM00m1m2m3mM+d1d2d3dMdM+1dN
从该线性方程可以看到,无论mest\mathbf{m^{est}}mest取什么值,都不会对e′\mathbf{e^{\prime}}e后的N−MN-MNM个元素有影响。然而,我们可以让前MMM个方程e′=d′−G′m=0\mathbf{e^{\prime}=d^{\prime}-G^{\prime}m=0}e=dGm=0精确满足,从而使e′\mathbf{e^{\prime}}e的前MMM个元素等于000。那么,总误差源于e′\mathbf{e^{\prime}}e的后N−MN-MNM个元素的长度,写为:
E=∑i=M+1Nei′2 E=\sum_{i=M+1}^{N} \mathbf{e}_{i}^{\prime 2} E=i=M+1Nei2

上述,我们使用豪斯霍尔德变换将问题分解为两部分:

  • 可以精确拟合的数据
  • 根本不能拟合的数据

选择解的过程就是让它最小化预测预测的长度,因此等于最小二乘解。

	再强调一次,我们使用豪斯霍尔德变换将问题分解为两部分:可以精确拟合的数据,
以及根本不能拟合的数据。

带约束的最小二乘问题也可以通过豪斯霍尔德变换求解。如,假设我们想在最小二乘意义下求解Gm=d\mathbf{Gm=d}Gm=d,且想让解遵从Hm=h\mathbf{Hm=h}Hm=h形式的ppp个线性等式约束。
由于存在这些个约束,我们不能完全自由的选择模型参数。因此,引入豪斯霍尔德变换将完全由约束决定的模型参数完全不由约束决定的模型参数的线性组合区分开来。假设选择的变换T\mathbf{T}T,该变换将Hm=h\mathbf{Hm=h}Hm=h三角化为:
h=Hm={HT−1}{Tm}=H′m′ \mathbf{h}=\mathbf{H m}=\left\{\mathbf{H T}^{-1}\right\}\{\mathbf{T} \mathbf{m}\}=\mathbf{H}^{\prime} \mathbf{m}^{\prime} h=Hm={HT1}{Tm}=Hm

m′est\mathbf{m^{\prime est}}mest的前ppp个元素现在是完全确定的,并且可以通过回代求解。
将同一变换T\mathbf{T}T应用到Gm=d\mathbf{Gm=d}Gm=d上以产生变换后的反问题:
d=Gm={GT−1}{Tm}=G′m′ \mathbf{d=Gm}=\left\{\mathbf{G T}^{-1}\right\}\{\mathbf{T} \mathbf{m}\}=\mathbf{G}^{\prime} \mathbf{m}^{\prime} d=Gm={GT1}{Tm}=Gm

此处所设计的坐标变换T\mathbf{T}T是为了三角化H\mathbf{H}H,而不是G′\mathbf{G^{\prime}}G,所以G′\mathbf{G^{\prime}}G不是三角化形式。
由于m′est\mathbf{m^{\prime est}}mest的前ppp个元素已经通过约束而被确定,我们可以将G′\mathbf{G^{\prime}}G分割为两个子矩阵:
G′=[G1′,G2′] \mathbf{G}^{\prime}=\left[\mathbf{G}_{1}^{\prime}, \mathbf{G}_{2}^{\prime}\right] G=[G1,G2]
其中,G1′\mathbf{G}_{1}^{\prime}G1乘以ppp个确定的模型参数,且G2′\mathbf{G}_{2}^{\prime}G2乘以M−pM-pMp个目前尚未知的模型参数:
[G1′,G2′][[m1′ est ⋯mprest ],[mp+1rest ⋯mMrest ]]T=d \left[\mathbf{G}_{1}^{\prime}, \mathbf{G}_{2}^{\prime}\right]\left[\left[m_{1}^{\prime \text { est }} \cdots m_{p}^{\text {rest }}\right],\left[m_{p+1}^{\text {rest }} \cdots m_{M}^{\text {rest }}\right]\right]^{\mathrm{T}}=\mathbf{d} [G1,G2][[m1 est mprest ],[mp+1rest mMrest ]]T=d
消去上式中所包含的已经确定的模型参数部分,重新整理为如下形式:
G2′[mp+1est ⋯mMest ]T=d−G1′[m1est ⋯mpest ]T \mathbf{G}_{2}^{\prime}\left[m_{p+1}^{\text {est }} \cdots m_{M}^{\text {est }}\right]^{\mathrm{T}}=\mathbf{d}-\mathbf{G}_{1}^{\prime}\left[m_{1}^{\text {est }} \cdots m_{p}^{\text {est }}\right]^{\mathrm{T}} G2[mp+1est mMest ]T=dG1[m1est mpest ]T
上式对于M−pM-pMp个未知模型参数而言,这是一个完全的超定方程。

最终的解可通过mest=T−1m′est\mathbf{m}^{\mathrm{est}}=\mathbf{T}^{-1} \mathbf{m}^{\prime \mathrm{est}}mest=T1mest被反变换到原始坐标。

1.3 引起长度变化的变换

假设我们想求解线性反问题Gm=d\mathbf{Gm=d}Gm=d,要寻找一个解mest\mathbf{m^{est}}mest,它最小化了预测误差和解的简单程度的加权组合:
 minimize: E+L=eTWee+mTWmm \text { minimize: } \quad E+L=\mathbf{e}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}} \mathbf{e}+\mathbf{m}^{\mathrm{T}} \mathbf{W}_{\mathrm{m}} \mathbf{m}  minimize: E+L=eTWee+mTWmm

我们有可能找到变换:
m′=Tmme′=Tee \mathbf{m}^{\prime}=\mathbf{T}_{\mathrm{m}} \mathbf{m}\\ \mathbf{e}^{\prime}=\mathbf{T}_{\mathrm{e}} \mathbf{e} m=Tmme=Tee
它们虽然不能够保持长度不变,但可以通过某种准确的方式将目标函数变为E+L=e′Te′+m′Tm′E+L=\mathbf{e}^{\prime \mathrm{T}} \mathbf{e}^{\prime}+\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime}E+L=eTe+mTm
权重因子则是新坐标系中的单位矩阵。

首先考虑长度的加权度量L=mTWmm\mathbf{L=m^T{W_m}m}L=mTWmm,如果我们能够将加权矩阵因子化为乘积Wm=TmTTm\mathbf{W}_{\mathrm{m}}=\mathbf{T}_{\mathrm{m}}^{\mathrm{T}} \mathbf{T}_{\mathrm{m}}Wm=TmTTm,那么:
L=mTWmm=mT{TmTTm}m={Tmm}T{Tmm}=m′Tm′ L=\mathbf{m}^{\mathrm{T}} \mathbf{W}_{\mathrm{m}} \mathbf{m}=\mathbf{m}^{\mathrm{T}}\left\{\mathbf{T}_{\mathrm{m}}^{\mathrm{T}} \mathbf{T}_{\mathrm{m}}\right\} \mathbf{m}=\left\{\mathbf{T}_{\mathrm{m}} \mathbf{m}\right\}^{\mathrm{T}}\left\{\mathbf{T}_{\mathrm{m}} \mathbf{m}\right\}=\mathbf{m}^{\prime \mathrm{T}} \mathbf{m}^{\prime} L=mTWmm=mT{TmTTm}m={Tmm}T{Tmm}=mTm

这个因子化可以通过多种方式来实现,
如果我们已经根据D\mathbf{D}D矩阵建立了Wm\mathbf{W_m}Wm,那么Wm=DTD\mathbf{W}_{\mathrm{m}}=\mathbf{D}^{\mathrm{T}} \mathbf{D}Wm=DTD ,且Tm=D\mathbf{T}_{\mathrm{m}}=\mathbf{D}Tm=D;
如果没有,那么可以依赖对称矩阵Wm\mathbf{W_m}Wm的对称平方根来实现,使Wm=Wm1/2Wm1/2=Wm1/2TWm1/2\mathbf{W}_{\mathrm{m}}=\mathbf{W}_{\mathrm{m}}^{1 / 2} \mathbf{W}_{\mathrm{m}}^{1 / 2}=\mathbf{W}_{\mathrm{m}}^{1 / 2 \mathrm{T}} \mathbf{W}_{\mathrm{m}}^{1 / 2}Wm=Wm1/2Wm1/2=Wm1/2TWm1/2,这时T=Wm1/2\mathbf{T}=\mathbf{W}_{\mathrm{m}}^{1 / 2}T=Wm1/2,那么其形式如下:
m′=Wm1/2m or m′=Dmm=Wm−1/2m′ or m=D−1m′d′=We1/2d and d=We−1/2d′G′=We1/2GWm−1/2 or G′=We1/2GD−1G=We−1/2G′Wm1/2 or G=We−1/2G′D \begin{array}{ccc} \mathbf{m}^{\prime}=\mathbf{W}_{\mathrm{m}}^{1 / 2} \mathbf{m} \text { or } \mathbf{m}^{\prime}=\mathbf{D m} & {\quad} &\mathbf{m}=\mathbf{W}_{\mathrm{m}}^{-1 / 2} \mathbf{m}^{\prime} \text { or } \mathbf{m}=\mathbf{D}^{-1} \mathbf{m}^{\prime} \\ \mathbf{d}^{\prime}=\mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{d} & \text { and } & \mathbf{d}=\mathbf{W}_{\mathrm{e}}^{-1 / 2} \mathbf{d}^{\prime} \\ \mathbf{G}^{\prime}=\mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{G W}_{\mathrm{m}}^{-1 / 2} \text { or } \mathbf{G}^{\prime}=\mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{G D}^{-1} &{\quad} &\mathbf{G}=\mathbf{W}_{\mathrm{e}}^{-1 / 2} \mathbf{G}^{\prime} \mathbf{W}_{\mathrm{m}}^{1 / 2} \text { or } \mathbf{G}=\mathbf{W}_{\mathrm{e}}^{-1 / 2} \mathbf{G}^{\prime} \mathbf{D} \end{array} m=Wm1/2m or m=Dmd=We1/2dG=We1/2GWm1/2 or G=We1/2GD1 and m=Wm1/2m or m=D1md=We1/2dG=We1/2GWm1/2 or G=We1/2GD

实际上,阻尼最小二乘解m′est =[G′ T G′+ε2I]−1GTd′\mathbf{m}^{\prime \text {est }}=\left[\mathbf{G}^{\prime \text { T }} \mathbf{G}^{\prime}+\varepsilon^{2} \mathbf{I}\right]^{-1} \mathbf{G}^{\mathrm{T}} \mathbf{d}^{\prime}mest =[G T G+ε2I]1GTd可通过下面的变换,变成到加权阻尼最小二乘解:
Wm1/2mest=[Wm−1/2GTWe1/2We1/2GWm−1/2+ε2I]−1Wm−1/2GTWe1/2We1/2dormest=[GTWeG+ε2Wm]−1GTWed \begin{array}{c} \mathbf{W}_{\mathrm{m}}^{1 / 2} \mathbf{m}^{\mathrm{est}}=\left[\mathbf{W}_{\mathrm{m}}^{-1 / 2} \mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{G} \mathbf{W}_{\mathrm{m}}^{-1 / 2}+\varepsilon^{2} \mathbf{I}\right]^{-1} \mathbf{W}_{\mathrm{m}}^{-1 / 2} \mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{W}_{\mathrm{e}}^{1 / 2} \mathbf{d} \\ \mathrm{or} \\ \mathbf{m}^{\mathrm{est}}=\left[\mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}} \mathbf{G}+\varepsilon^{2} \mathbf{W}_{\mathrm{m}}\right]^{-1} \mathbf{G}^{\mathrm{T}} \mathbf{W}_{\mathrm{e}} \mathbf{d} \end{array} Wm1/2mest=[Wm1/2GTWe1/2We1/2GWm1/2+ε2I]1Wm1/2GTWe1/2We1/2dormest=[GTWeG+ε2Wm]1GTWed

1.4 混定问题

混定问题是一种具有非零预测误差的欠定问题(不完全欠定问题),向量空间的概念有助于理解混定问题,在混定问题中有些模型参数的线性组合是超定的,还有一些是欠定的。

回顾以上小节可知:

  • 如果问题在一定程度上是欠定的,那么方程Gm=d\mathbf{Gm=d}Gm=d包含的信息仅涉及部分模型参数。这些信息位于一个模型参数空间中的子空间Sp(m)\mathbf{S_p(m)}Sp(m)。对于其他空间而言,没有相关信息用以确定为于该空间中的解,称这部分空间为零空间(null space),记为S0(m)\mathbf{S_0(m)}S0(m)。位于零空间内的那部分m\mathbf{m}mGm=d\mathbf{Gm=d}Gm=d完全“忽视”,因为方程不包含任何关于模型参数线性组合的信息。
  • 如果问题在某种程度上是超定的,那么无论选择什么样的m\mathbf{m}m,任何乘积Gm\mathbf{Gm}Gm也许都无法张成数据空间S(d)\mathbf{S(d)}S(d)。在最好的情况下,Gm\mathbf{Gm}Gm也许张成了数据空间中的一个子空间Sp(d)\mathbf{S_p(d)}Sp(d)。那么,对于位于这个子空间之外的数据,无论模型参数如何选择,这些数据都无法选择。

如果,模型参数和数据位于ppp空间内的带下标ppp的部分,以及位于零空间内的带下标000的部分,那么我们可以将Gm=d\mathbf{Gm=d}Gm=d写为:
G[mp+m0]=[dp+d0]\mathbf{G}\left[\mathbf{m}_{p}+\mathbf{m}_{0}\right]=\left[\mathbf{d}_{p}+\mathbf{d}_{0}\right]G[mp+m0]=[dp+d0]
同理,解的长度可写为:
L=mTm=[mp+m0]T[mp+m0]=mpTmp+m0Tm0L=\mathbf{m}^{\mathrm{T}} \mathbf{m}=\left[\mathbf{m}_{p}+\mathbf{m}_{0}\right]^{\mathrm{T}}\left[\mathbf{m}_{p}+\mathbf{m}_{0}\right]=\mathbf{m}_{p}^{\mathrm{T}} \mathbf{m}_{p}+\mathbf{m}_{0}^{\mathrm{T}} \mathbf{m}_{0}L=mTm=[mp+m0]T[mp+m0]=mpTmp+m0Tm0

由于向量位于不同空间,所以交叉项mpTm0\mathbf{m}_{p}^{\mathrm{T}} \mathbf{m}_{0}mpTm0m0Tmp\mathbf{m}_{0}^{\mathrm{T}} \mathbf{m}_{p}m0Tmp000

预测误差可写为:
E=[dp+d0−Gmp]T[dp+d0−Gmp]=[dp−Gmp]T[dp−Gmp]+d0Td0E=\left[\mathbf{d}_{p}+\mathbf{d}_{0}-\mathbf{G m}_{p}\right]^{\mathrm{T}}\left[\mathbf{d}_{p}+\mathbf{d}_{0}-\mathbf{G m}_{p}\right]=\left[\mathbf{d}_{p}-\mathbf{G m}_{p}\right]^{\mathrm{T}}\left[\mathbf{d}_{p}-\mathbf{G m}_{p}\right]+\mathbf{d}_{0}^{\mathrm{T}} \mathbf{d}_{0}E=[dp+d0Gmp]T[dp+d0Gmp]=[dpGmp]T[dpGmp]+d0Td0

以此为基础,我们可以定义混定问题的解,这个解最小化了预测误差,同时添加了最少的先验信息。

添加先验信息的目的是,指明零空间S0(m)\mathbf{S_0(m)}S0(m)内模型参数的线性组合,以及通过准确满足ep=[dp−Gmp]=0\mathbf{e_p=[d_p-Gm_p]}=0ep=[dpGmp]=0降低零空间内的那部分预测误差。

先验信息的一种选择是m0est=0\mathbf{m_0^{est}=0}m0est=0,这在有些情况下被称为混定问题的自然解(natural solution)。当Gm=d\mathbf{Gm=d}Gm=d是纯欠定时,自然界就是最小长度解;而当Gm=d\mathbf{Gm=d}Gm=d是纯超定时,自然解就是最小二乘解。

人们也许试图将自然解视为优于像阻尼最小二乘解这一类的解,因为对于自然解而言,先验信息仅施加于零空间内的那部分解,并且不增加预测误差。然而,这样的评价并不清晰,如果先验信息是准确的,就应该完全使用,即使导致预测误差较大。无论如何,对于含有噪声的测量数据,两个轻微不同的预测误差在统计上将是不可识别的。这个分析强调了,必须根据实际问题挑选合适的反演方法。

2 奇异值分解和使用

从向量空间的角度来看,反问题有时会存在零空间。上一章,通过对模型参数m\mathbf{m}m或数据d\mathbf{d}d进行空间变换(坐标变换)来达到区分ppp空间(非零空间)和零空间。而本章则通过对数据核G\mathbf{G}G进行特征值分解来识别线性问题的ppp空间和零空间,这种分解称为奇异值分解。

2.1 奇异值分解

任何一个N×MN{\times}MN×M的矩阵都可以写为三个矩阵的乘积:
G=UΛVT\mathbf{G}=\mathbf{U} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}G=UΛVT
式中:
矩阵U\mathbf{U}U是一个N×NN{\times}NN×N的特征向量矩阵。这些特征向量张成了数据空间S(d)\mathbf{S(d)}S(d):
U=[u(1)u(2)u(3)⋯uN]\mathbf{U}=\left[\begin{array}{lllll} \mathbf{u}^{(1)} & \mathbf{u}^{(2)} & \mathbf{u}^{(3)} & \cdots & \mathbf{u}^{N} \end{array}\right]U=[u(1)u(2)u(3)uN]
其中,u(i)\mathbf{u^{(i)}}u(i)为独立向量,且向量间相互垂直,并且可以设定为单位长度,使得UUT=UTU=I\mathbf{U} \mathbf{U}^{\mathrm{T}}=\mathbf{U}^{\mathrm{T}} \mathbf{U}=\mathbf{I}UUT=UTU=I;

类似地,矩阵V\mathbf{V}V为一个M×MM{\times}MM×M的特征向量矩阵,这些特征向量张成了模型参数空间S(m)\mathbf{S(m)}S(m)
V=[v(1)v(2)v(3)⋯vM]\mathbf{V}=\left[\begin{array}{llll} \mathbf{v}^{(1)} & \mathbf{v}^{(2)} & \mathbf{v}^{(3)} & \cdots & \mathbf{v}^{M} \end{array}\right]V=[v(1)v(2)v(3)vM]
其中,v(i)\mathbf{v^{(i)}}v(i)为独立的正交向量,使VVT=VTV=I\mathbf{V} \mathbf{V}^{\mathrm{T}}=\mathbf{V}^{\mathrm{T}} \mathbf{V}=\mathbf{I}VVT=VTV=I

Λ\mathbf{\Lambda}Λ为一个N×MN{\times}MN×M的对角特征矩阵,其对角元素使非负的,即奇异值。例如,当N=4,M=3N=4,M=3N=4,M=3时有:
Λ=[λ1000λ2000λ3000]\boldsymbol{\Lambda}=\left[\begin{array}{lll} \lambda_{1} & 0 & 0 \\ 0 & \lambda_{2} & 0 \\ 0 & 0 & \lambda_{3} \\ 0 & 0 & 0 \end{array}\right]Λ=λ10000λ20000λ30

奇异值通常会按照从大到小的顺序排列,有些奇异值有可能是0。因此,可将Λ\mathbf{\Lambda}Λ分解为一个含有ppp个非零奇异值的矩阵Λp\mathbf{\Lambda_{p}}Λp和几个零矩阵,如下所示:
Λ=[Λp000]\boldsymbol{\Lambda}=\left[\begin{array}{ll} \boldsymbol{\Lambda}_{p} & \boldsymbol{0} \\ \boldsymbol{0} & \boldsymbol{0} \end{array}\right]Λ=[Λp000]

那么就有:
UΛVT=UpΛpVpT\mathbf{U} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}=\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}}UΛVT=UpΛpVpT
其中,Up\mathbf{U_p}UpVp\mathbf{V_p}Vp分别由U\mathbf{U}UV\mathbf{V}V的前ppp列组成。
特征向量矩阵的其他部分被Λ\mathbf{\Lambda}Λ中的零值抵消。矩阵G\mathbf{G}G没有包含任何关于这部分数据向量和模型参数向量的子空间的信息,记为V0\mathbf{V_0}V0U0\mathbf{U_0}U0

可以看到,通过对映射关系(或称为算子)矩阵G\mathbf{G}G的奇异值分解,其结果同上一章一样,可以区分开数据或模型参数的ppp空间和零空间向量。
这样问题的线性方程
d=Gm=UpΛpVpTm\mathbf{d}=\mathbf{G m}=\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}} \mathbf{m}d=Gm=UpΛpVpTm
它没有包含V0\mathbf{V_0}V0所张成的模型子空间的任何信息。模型参数向量完全位于Sp(m)\mathbf{S_p(m)}Sp(m)中,而数据向量完全位于Sp(d)\mathbf{S_p(d)}Sp(d)

综上所述,通过对数据核进行奇异值分解可以识别ppp空间和零空间。全空间S(m)\mathbf{S(m)}S(m)S(d)\mathbf{S(d)}S(d)分别由V\mathbf{V}VU\mathbf{U}U张成。ppp空间由非零奇异值对应的特征向量所张成,即Vp→Sp(m),Up→Sp(d)\mathbf{V_p{\rightarrow}S_p(m)}, \mathbf{U_p{\rightarrow}S_p(d)}VpSp(m),UpSp(d)。同理可知,V0→S0(m),U0→S0(d)\mathbf{V_0{\rightarrow}S_0(m)},\mathbf{U_0{\rightarrow}S_0(d)}V0S0(m),U0S0(d)ppp空间的向量与零空间的所有向量是正交的,故两者所形成的两个矩阵也是正交的,且按照VpTVp=UpTUp=I\mathbf{V}_{p}^{\mathrm{T}} \mathbf{V}_{p}=\mathbf{U}_{p}^{\mathrm{T}} \mathbf{U}_{p}=\mathbf{I}VpTVp=UpTUp=I的形式归一化,其中的大小为p×pp{\times}pp×p。然而,由于这些矩阵一般并不张成完备的数据和模型空间,VpTVp\mathbf{V_p^{T}V_p}VpTVpUpTUp\mathbf{U_p^{T}U_p}UpTUp一般不是单位矩阵。

2.2 自然广义逆

反问题的自然解可以用奇异值分解来构建。这个解要具有如下特征:

  • mest\mathbf{m^{est}}mest在零空间S0(m)\mathbf{S_0(m)}S0(m)中没有任何分量
  • 预测误差e\mathbf{e}e在零空间S0(d)\mathbf{S_0(d)}S0(d)中没有任何分量
    因此,考虑如下的解:
    mest=VpΛp−1UpTd\mathbf{m}^{\mathrm{est}}=\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}mest=VpΛp1UpTd
    其推导过程如下:
    1)解在S0(m)\mathbf{S_0(m)}S0(m)中没有分量,如下式:
    V0Tmest=V0TVpΛp−1UpTd=0\mathbf{V}_{0}^{\mathrm{T}} \mathbf{m}^{\mathrm{est}}=\mathbf{V}_{0}^{\mathrm{T}} \mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}=\mathbf{0}V0Tmest=V0TVpΛp1UpTd=0
    2)同理,预测误差在S0(d)中没有分量\mathbf{S_0(d)}中没有分量S0(d),如下式:
    UpTe=UpT[d−Gmest]=UpT[d−UpΛpVpTVpΛp−1UpTd]=UpT[d−UpUpTd]=UpTd−UpTd=0\begin{array}{c} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{e}=\mathbf{U}_{p}^{\mathrm{T}}\left[\mathbf{d}-\mathbf{G m}^{\mathrm{est}}\right]=\mathbf{U}_{p}^{\mathrm{T}}\left[\mathbf{d}-\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}} \mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}\right] \\ =\mathbf{U}_{p}^{\mathrm{T}}\left[\mathbf{d}-\mathbf{U}_{p} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}\right]=\mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}-\mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}=\mathbf{0} \end{array}UpTe=UpT[dGmest]=UpT[dUpΛpVpTVpΛp1UpTd]=UpT[dUpUpTd]=UpTdUpTd=0

VpTVp=UpTUp=ΛpΛp−1=I\mathbf{V}_{p}^{\mathrm{T}} \mathbf{V}_{p}=\mathbf{U}_{p}^{\mathrm{T}} \mathbf{U}_{p}=\mathbf{\Lambda}_{p} \mathbf{\Lambda}_{p}^{-1}=\mathbf{I}VpTVp=UpTUp=ΛpΛp1=I

因此反问题的自然解为:
mest=VpΛp−1UpTd\mathbf{m}^{\mathrm{est}}=\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}} \mathbf{d}mest=VpΛp1UpTd
证毕。

我们注意到,可以为混定问题定义一个广义逆算子,自然广义逆(natural generalized inverse)
G−g=VpΛp−1UpT\mathbf{G}^{-g}=\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}Gg=VpΛp1UpT

自然广义逆的模型分辨率为:
R=G−gG={VpΛp−1UpT}{UpΛpVpT}=VpVpT\mathbf{R}=\mathbf{G}^{-g} \mathbf{G}=\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}\left\{\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}}\right\}=\mathbf{V}_{p} \mathbf{V}_{p}^{\mathrm{T}}R=GgG={VpΛp1UpT}{UpΛpVpT}=VpVpT

Vp\mathbf{V_p}Vp所张成的模型参数空间是完备的,即p≥Mp{\geq}MpM

自然广义逆的数据分辨率为:
N=GG−g={UpΛpVpT}{VpΛp−1UpT}=UpUpT\mathbf{N}=\mathbf{G G}^{-g}=\left\{\mathbf{U}_{p} \mathbf{\Lambda}_{p} \mathbf{V}_{p}^{\mathrm{T}}\right\}\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}=\mathbf{U}_{p} \mathbf{U}_{p}^{\mathrm{T}}N=GGg={UpΛpVpT}{VpΛp1UpT}=UpUpT

Up\mathbf{U_p}Up所张成的数据空间是完备的,即p=Np=Np=N。这时,数据才能够被完全的拟合。

如果数据不相关,且具有均匀的方差σd2\sigma_d^2σd2,那么模型的协方差是
[cov⁡mest]=G−g[cov⁡d]G−gT=σd2{VpΛp−1UpT}{VpΛp−1UpT}T=σd2VpΛp−2VpT\begin{aligned} \left[\operatorname{cov} \mathbf{m}^{\mathrm{est}}\right] &=\mathbf{G}^{-g}[\operatorname{cov} \mathbf{d}] \mathbf{G}^{-g \mathrm{T}}=\sigma_{\mathrm{d}}^{2}\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}\left\{\mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-1} \mathbf{U}_{p}^{\mathrm{T}}\right\}^{\mathrm{T}} \\ &=\sigma_{\mathrm{d}}^{2} \mathbf{V}_{p} \mathbf{\Lambda}_{p}^{-2} \mathbf{V}_{p}^{\mathrm{T}} \end{aligned}[covmest]=Gg[covd]GgT=σd2{VpΛp1UpT}{VpΛp1UpT}T=σd2VpΛp2VpT
从上式可以看出,估计模型参数的协方差对最小的非零特征值非常敏感。

为了使用自然广义逆,必须能够得到数字ppp,也就是说要计算出非零奇异值的个数。奇异值大小与它们的指标数之间的关系图(数据核的谱)在确定ppp值的过程中是非常有用的。一旦奇异值分成两个清晰可辨的组(一组非零和一组是零的两组,如下图的A和B),那么ppp值可以容易的确定。然而,在实际反问题中,奇异值经常是平缓的减小(下图的C和D),对于辨别实际的非零值和计算机取整误差产生的零值变得困难。
在这里插入图片描述
另外,由于包含因子Λp−2\mathbf{\Lambda^{-2}_p}Λp2,如果选择的ppp使得一些非常小的奇异值纳入了Λp−2\mathbf{\Lambda^{-2}_p}Λp2中,那么解的方差将非常大。针对这一问题,有两种解决方式:
1)可以对奇异值拾取某些截断值,然后任何小于这些截断值的所有值都当作零来处理。这个过程人为地降低了广义逆中的Vp\mathbf{V_p}VpUp\mathbf{U_p}Up的维数。由此产生的模型参数的估计不再精确地等于自然解。但是如果仅有小的奇异值被排除在外,那么解通常接近自然解,且拥有较小的方差,但是解的模型和数据分辨率变差了,这有一次体现了求解反问题时的“折中”思想:此处是对方差[cov⁡mest]\left[\operatorname{cov} \mathbf{m}^{\mathrm{est}}\right][covmest]和分辨率R,N\mathbf{R,N}R,N的折中。
**2)使用阻尼的方式,阻尼衰减较小的值。**我们令p=Mp=Mp=M,将所有奇异值的倒数替换为λi/(ε2+λi2)\lambda_{i} /\left(\varepsilon^{2}+\lambda_{i}^{2}\right)λi/(ε2+λi2),其中的ε\varepsilonε是阻尼因子,取某个较小的数值。这个变化对较大的奇异值影响很小,但又防止了较小奇异值引起大方差的问题。显然,这样做使得解不再是自然解,同样方差的改善了,但模型和数据分辨率降低了。

附录

1 豪斯霍尔德变换的设计

2 对称矩阵WWW的平方根

对称矩阵W\mathbf{W}W的平方根是通过特征值分解来定义的。令Λ\mathbf{\Lambda}ΛU\mathbf{U}U分别为W\mathbf{W}W的特征值和特征向量,W=UΛUT\mathbf{W=U{\Lambda}U^T}W=UΛUT成立,那么:
T=W1/2=UΛ1/2UT \mathbf{T}=\mathbf{W}^{1 / 2}=\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}} T=W1/2=UΛ1/2UT
使得
W1/2TW1/2=UΛ1/2UTUΛ1/2UT=UΛ1/2Λ1/2UT=UΛUT=W \begin{array}{l} \mathbf{W}^{1 / 2 \mathbf{T}} \mathbf{W}^{1 / 2}=\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}} \mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathbf{T}} \\ =\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}=\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{\mathrm{T}}=\mathbf{W} \end{array} W1/2TW1/2=UΛ1/2UTUΛ1/2UT=UΛ1/2Λ1/2UT=UΛUT=W
也可以通过另一种方式来定义变换T\mathbf{T}T
T=Λ1/2UT\mathbf{T}=\mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}T=Λ1/2UT
其结果是
TTT=UΛ1/2Λ1/2UT=UΛUT=W\mathbf{T}^{\mathrm{T}} \mathbf{T}=\mathbf{U} \mathbf{\Lambda}^{1 / 2} \mathbf{\Lambda}^{1 / 2} \mathbf{U}^{\mathrm{T}}=\mathbf{U} \mathbf{\Lambda} \mathbf{U}^{\mathrm{T}}=\mathbf{W}TTT=UΛ1/2Λ1/2UT=UΛUT=W
变换后的反问题为G′m′=d′\mathbf{G}^{\prime} \mathbf{m}^{\prime}=\mathbf{d}^{\prime}Gm=d,其中:
m′={Λm1/2UmT}mm={UmΛm−1/2}m′d′={Λe1/2UeT}d and d={UeΛe−1/2}d′G′={Λe1/2UeT}G{UmTΛm−1/2}G={UeΛe−1/2}G′{Λm1/2UmT} \begin{array}{c} \mathbf{m}^{\prime}=\left\{\Lambda_{\mathrm{m}}^{1 / 2} \mathbf{U}_{\mathrm{m}}^{\mathrm{T}}\right\} \mathbf{m} & & \mathbf{m}=\left\{\mathbf{U}_{\mathrm{m}} \mathbf{\Lambda}_{\mathrm{m}}^{-1 / 2}\right\} \mathbf{m}^{\prime} \\ \mathbf{d}^{\prime}=\left\{\Lambda_{\mathrm{e}}^{1 / 2} \mathbf{U}_{\mathrm{e}}^{\mathrm{T}}\right\} \mathbf{d} & \text { and } & \mathbf{d}=\left\{\mathbf{U}_{\mathbf{e}} \mathbf{\Lambda}_{\mathbf{e}}^{-1 / 2}\right\} \mathbf{d}^{\prime} \\ \mathbf{G}^{\prime}=\left\{\mathbf{\Lambda}_{\mathbf{e}}^{1 / 2} \mathbf{U}_{\mathbf{e}}^{\mathrm{T}}\right\} \mathbf{G}\left\{\mathbf{U}_{\mathbf{m}}^{\mathrm{T}} \mathbf{\Lambda}_{\mathbf{m}}^{-1 / 2}\right\} & &\mathbf{G}=\left\{\mathbf{U}_{\mathbf{e}} \mathbf{\Lambda}_{\mathbf{e}}^{-1 / 2}\right\} \mathbf{G}^{\prime}\left\{\mathbf{\Lambda}_{\mathrm{m}}^{1 / 2} \mathbf{U}_{\mathrm{m}}^{\mathrm{T}}\right\} \end{array} m={Λm1/2UmT}md={Λe1/2UeT}dG={Λe1/2UeT}G{UmTΛm1/2} and m={UmΛm1/2}md={UeΛe1/2}dG={UeΛe1/2}G{Λm1/2UmT}
式中,We=UeΛeUeT and Wm=UmΛmUmT\mathbf{W}_{\mathrm{e}}=\mathbf{U}_{\mathrm{e}} \mathbf{\Lambda}_{\mathrm{e}} \mathbf{U}_{\mathrm{e}}^{\mathrm{T}} \text { and } \mathbf{W}_{\mathrm{m}}=\mathbf{U}_{\mathrm{m}} \mathbf{\Lambda}_{\mathrm{m}} \mathbf{U}_{\mathrm{m}}^{\mathrm{T}}We=UeΛeUeT and Wm=UmΛmUmT
有时候,在获得解之前,将加权L2L_2L2范数问题变换为这两种形式之一是方便的。

3 奇异值分解的另一种方式

奇异值分解可以通过很多途径来推导,这里给出另一种推导方法。
利用数据核及其转置G\mathbf{G}GGT\mathbf{G^T}GT来构建一个(N+M)×(N+M)(N+M){\times}(N+M)(N+M)×(N+M)的对称矩阵S\mathbf{S}S:
S=[0GGT0]\mathbf{S}=\left[\begin{array}{ll} 0 & \mathbf{G} \\ \mathbf{G}^{\mathrm{T}} & 0 \end{array}\right]S=[0GTG0]
该矩阵有N+MN+MN+M个特征值,记为λi,i=1,2,⋯ ,N+M\lambda_i,i=1,2,\cdots,N+Mλi,i=1,2,,N+M,和一个完备特征向量序列wiw^{i}wi,即Sw(i)=λiw(i)\mathbf{S} \mathbf{w}^{(i)}=\lambda_{i} \mathbf{w}^{(i)}Sw(i)=λiw(i)。将特征向量序列w\mathbf{w}w分成一个长度为NNNu\mathbf{u}u,和一个长度为MMMv\mathbf{v}v,得到:

Sw(i)=λiw(i)→[0GGT0][u(i)v(i)]=λi[u(i)v(i)]\mathbf{S} \mathbf{w}^{(i)}=\lambda_{i} \mathbf{w}^{(i)} \rightarrow\left[\begin{array}{ll} 0 & \mathbf{G} \\ \mathbf{G}^{\mathrm{T}} & 0 \end{array}\right]\left[\begin{array}{l} \mathbf{u}^{(i)} \\ \mathbf{v}^{(i)} \end{array}\right]=\lambda_{i}\left[\begin{array}{l} \mathbf{u}^{(i)} \\ \mathbf{v}^{(i)} \end{array}\right]Sw(i)=λiw(i)[0GTG0][u(i)v(i)]=λi[u(i)v(i)]
显然,通过上一个章节的论述可知,u\mathbf{u}u为数据的特征向量序列,v\mathbf{v}v为模型参数的特征向量序列。另外注意到,上面的方程意味着
Gv(i)=λiu(i) and GTu(i)=λiv(i)\mathbf{G} \mathbf{v}^{(i)}=\lambda_{i} \mathbf{u}^{(i)} \text { and } \mathbf{G}^{\mathrm{T}} \mathbf{u}^{(i)}=\lambda_{i} \mathbf{v}^{(i)}Gv(i)=λiu(i) and GTu(i)=λiv(i)
假设,存在一个对应的特征向量[u(i),v(i)]T[\mathbf{u^{(i)},v^{(i)}}]^{\mathbf{T}}[u(i),v(i)]T的正特征值λi\lambda_iλi,那么对于特征值−λi-\lambda_iλi就对应于特征向量[−u(i),v(i)]T[\mathbf{-u^{(i)},v^{(i)}}]^{\mathbf{T}}[u(i),v(i)]T。如果存在ppp个正特征值,那么就存在N+M−2pN+M-2pN+M2p个零特征值。
通过整理前面的方程,可得:
GTGv(i)=λi2v(i) and GGTu(i)=λi2u(i)\mathbf{G}^{\mathrm{T}} \mathbf{G} \mathbf{v}^{(i)}=\lambda_{i}^{2} \mathbf{v}^{(i)} \quad \text { and } \quad \mathbf{G G}^{\mathrm{T}} \mathbf{u}^{(i)}=\lambda_{i}^{2} \mathbf{u}^{(i)}GTGv(i)=λi2v(i) and GGTu(i)=λi2u(i)
对于对称矩阵而言,特征向量的个数不能多于它的维数,即p≤min(N,M)p{\leq}min(N,M)pmin(N,M)。因为上述的两个矩阵即使方阵又是对称阵,所以存在MMM个向量v(i)\mathbf{v}^{(i)}v(i)构成了一个在S(m)\mathbf{S(m)}S(m)空间中的完备正交序列V\mathbf{V}V,同时也存在NNN个向量u(i)\mathbf{u}^{(i)}u(i)构成了一个在S(d)\mathbf{S(d)}S(d)中的完备正交序列U\mathbf{U}U.

这个包括ppp个不同非零特征值的特征向量w\mathbf{w}w,余下的向量是从零特征值的特征向量中选择的。
方程Gv(i)=λiu(i)\mathbf{G} \mathbf{v}^{(i)}=\lambda_{i} \mathbf{u}^{(i)}Gv(i)=λiu(i)
可以写成矩阵形式GV=UΛ\mathbf{GV=U\Lambda}GV=UΛ
其中,Λ\mathbf{\Lambda}Λ是特征值构成的对角阵。上式右乘VT\mathbf{V^T}VT给出奇异值分解G=UΛVT\mathbf{G}=\mathbf{U} \mathbf{\Lambda} \mathbf{V}^{\mathrm{T}}G=UΛVT

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值