最优化：建模、算法与理论（最优性理论1

原创已于 2023-10-21 11:03:11 修改 · 1.7k 阅读

本内容遵循CC 4.0 BY-SA版权协议

于 2023-10-01 11:32:27 首次发布

第五章最优性理论

在实际中最优化问题的形式多种多样，给定一类具体的优化问题，我们首先需要分析其解的存在性。如果优化问题的解存在，再考虑如何设计算法求出最优解，一般的非凸优化问题可能存在很多局部极小解，但其往往也能够满足实际问题的要求。对于这些局部（全局）极小解的求解，最优性理论是至关重要的。

5.1 最优化问题解的存在性

考虑优化问题
$min⁡x∈Rnf(x)s.t.x∈χ(5.1.1)\min_{x{\in}R^n}f(x)\\ s.t.{\quad}x{\in}\chi\tag{5.1.1}$
其中 $χ∈Rn\chi{\in}R^n$ 为可行域，对于问题5.1.1,首先是要考虑最优解。在数学分析课程中，我们学习过 $W e i ers t r a ss$ 定理，即定义在紧集上的连续函数一定存在最大（最小）点。而在许多实际问题中，定义域可能不是紧的，目标函数也不一定连续，因此需要将此定理推广来保证最优化问题解的存在性。

紧集：紧集的定义还比较简洁：若A的任意开覆盖，都存在有限子覆盖，那么A为紧集。
所谓开覆盖S，就是能“盖住”A的一组开集。所谓子覆盖S‘，就是S里挑几个开集出来。
若能挑出有限个开集把A“盖住”，那么称S存在有限开覆盖。
如果A的每一个开覆盖，都像S一样拥有有限开覆盖，那么A为紧集。
说简单点，若一个集合它不仅是闭集还是有界的，则该集合被称作紧集

定理5.1（ $W e i ers t r a ss$ 定理）：考虑一个适当且闭的函数 $f:χ→(−∞,+∞]f:\chi{\rightarrow}(-\infty,+\infty]$ ，假设下面三个条件中任意一个成立：
（1） $domf={x∈χ:f(x)<+∞}是有界的domf=\{x{\in}\chi:f(x)<+\infty\}是有界的$
（2）存在一个常数 $γˉ\bar{\gamma}$ 使得下水平集
$Cγˉ={x∈χ:f(x)≤γˉ}C_{\bar{\gamma}}=\{x{\in}{\chi}:f(x){\le}\bar{\gamma}\}$
是非空且有界的
（3） $f$ 是强制的，即对于任意满足 $∣∣xk∣∣→+∞||x^k||{\rightarrow}+\infty$ 的点列 ${xk}⊂χ\{x^k\}{\subset}\chi$ ，都有
$lim⁡k→∞f(xk)=+∞\lim_{k{\rightarrow}\infty}f(x^k)=+\infty$
那么，问题5.1.1的最小值点集 ${x∈χ∣f(x)≤f(y),∀y∈χ}\{x{\in}\chi|f(x){\le}f(y),\forall{y}{\in}\chi\}$ 是非空且紧的
这三个条件可以相互转换推出

定理5.1的三个条件本质上都是保证 $f (x)$ 的最小值不能在无穷远处取到，因此我们可以仅在一个有界的下水平集中考虑 $f (x)$ 的最小值。同时要求 $f (x)$ 为适当且闭的函数，并不需要考虑 $f (x)$ 的连续性，定理5.1比数学分析中的 $W e i ers t r a ss$ 定理应用范围更广。
当定义域不是有界闭集(紧集)时，比如 $f(x)=x2,x∈Rf(x)=x^2,x{\in}R$ 满足条件，其全局最优解存在，但对于适当且闭的函数 $f(x)=e−x,x∈Rf(x)=e^{-x},x{\in}R$ ，它不满足5.1三个条件中任意一个，因此我们不能断言其全局极小值存在。

定理5.1给出了最优解的存在性条件，但其对应的解可能不止一个，最优化问题的解的唯一性在理论分析和算法中扮演着重要角色。比如，假设存在唯一解，那么我们可以比较不同算法收敛到最优解的收敛速度来判断算法的好坏，如果存在多个最优值点，不同的算法收敛到的最优值点可能不同，那么这些算法的收敛速度就失去了参考价值。但是如果不同最优值点对应的目标函数值相同，我们可以比较不同算法对应的函数值收敛速度。

关于解的存在唯一性，我们这里考虑 $f$ 是强拟凸的情况
定义(5.1)(强拟凸函数)给定凸集 $χ\chi$ 和函数 $f:χ→(−∞,+∞]f:{\chi}{\rightarrow}(-\infty,+\infty]$ 。如果对任意的 $x≠yx{\not=}y$ 和 $λ∈(0,1)\lambda{\in}(0,1)$ ，都有
$f(λx+(1−λ)y)<max{f(x),f(y)}f(\lambda{x}+(1-\lambda)y)<max\{f(x),f(y)\}$
那么我们称函数 $f$ 是强拟凸的
在这里插入图片描述
强拟凸函数的几何意义是定义域内两点之间的线段上的函数值不会大于两个端点处函数的最大值，一般来说，强拟凸函数不一定是凸函数，但其任意一个下水平集都是凸集。并可以包含一部分性质较好的非凸函数。

定理5.2（唯一性定理）对于问题(5.1.1)，设 $χ\chi$ 是 $R^n$ 的一个非空、紧且凸的子集，如果 $f:χ→(−∞,+∞]f:\chi{\rightarrow}(-\infty,+\infty]$ 是适当、闭且强拟凸函数，那么存在唯一的 $x^*$ 满足
$f(x∗)<f(x),∀x∈χunlessx∗f(x^*)<f(x),\forall{x}{\in}\chi{\quad}{unless}{\quad}x^*$

这个证明好证，由 $W e i ers t r a ss$ 定理可知，问题5.1.1至少存在一个全局极小解 $x^*$ ，假设还有另外一个全局极小解 $y^*$ ，那么 $f(x^*)=f(y^*)$ ，根据强拟凸函数的定义，对任意的 $λ\lambda$ ，有
$f(λx∗+(1−λ)y∗)<max{f(x∗),f(y∗)}=f(x∗)f(\lambda{x^*}+(1-\lambda)y^*)<max\{f(x^*),f(y^*)\}=f(x^*)$
这与 $x^*$ 的全局最优性矛盾

从强拟凸函数的定义可知，任意强凸函数均为强拟凸的，但凸函数并不一定是强拟凸的。

5.2 无约束可微问题的最优性利用

无约束可微优化问题通常表示为如下形式
$min⁡x∈Rnf(x)(5.2.1)\min_{x{\in}R^n}f(x)\tag{5.2.1}$
其中假设 $f$ 是连续可微函数。给定一个点 $xˉ\bar{x}$ ，我们想要知道这个点是否是函数 $f$ 的一个局部极小解或者全局极小解。如果从定义出发，需要对其领域内的所有点进行判断，这是不可行的。因此，需要一个更简单的方式来验证一个点是否为极小值点。我们称其为最优性条件，它主要包含一阶最优性条件和二阶最优性条件。

5.2.1 一阶最优性条件

一阶最优性条件是利用梯度（一阶）信息来判断给定点的最优性。这里是考虑目标函数可微的情形，并给出下降方向的定义
定义5.2（下降方向）对于可微函数 $f$ 和点 $x∈Rnx{\in}R^n$ ，如果存在向量 $d$ 满足
$∇f(x)Td<0\nabla{f(x)^T}d<0$
那么称 $d$ 为 $f$ 在 $x$ 处的一个下降方向
由下降方向的定义，容易验证：如果 $f$ 在点 $x$ 处存在一个下降方向 $d$ ，那么对于任意的 $T > 0$ ，存在 $t∈(0,T]t{\in}(0,T]$ ，使得
$f (x + t d) < f (x)$
因此，在局部最优点处不能有下降方向，我们有如下一阶必要条件

定理5.3（一阶必要条件）假设 $f$ 在全空间 $R^n$ 可微，如果 $x^*$ 是一个局部极小点，那么
$∇f(x∗)=0\nabla{f(x^*)}=0$

注意，这只是一个必要条件，满足 $∇f(x)=0\nabla{f(x)=0}$ 的点为 $f$ 的稳定点，除了一阶必要条件，还需要对函数加一些额外的限制条件，才能保证最优解的充分性。

5.2.2 二阶最优性条件

在没有额外假设时，如果一阶必要条件满足，我们仍不能确定当前点是否是一个局部极小点，这里考虑使用二阶信息来进一步判断给定点的最优性。
假设 $f$ 在点 $x$ 的一个开邻域是二阶连接可微的，类似于一阶必要条件的推导（刚刚证明没写），可以借助当前点处的二阶泰勒展开来逼近该函数在该点附近的取值情况，从而来判断最优性，具体地，在点 $x$ 处我们考虑泰勒展开
$f(x+d)=f(x)+∇f(x)Td+12dT∇2f(x)d+o(∣∣d∣∣2)f(x+d)=f(x)+\nabla{f(x)}^Td+\frac{1}{2}d^T{\nabla^2}f(x)d+o(||d||^2)$
因此，我们有如下二阶最优性条件
定理5.4：假设 $f$ 在点 $x^*$ 的一个开邻域内是二阶连续可微的，则以下最优性条件成立
二阶必要条件如果 $x^*$ 是 $f$ 的一个局部极小点，那么
$∇f(x∗)=0,∇2f(x∗)⪰0\nabla{f(x^*)}=0,\nabla^2f(x^*){\succeq}0$
二阶充分条件如果在点 $x^*$ 处有
$∇f(x∗)=0,∇2f(x∗)≻0\nabla{f(x^*)}=0,\nabla^2f(x^*){\succ}0$
成立，那么 $x^*$ 为 $f$ 的一个局部极小点

由定理5.4有如下结论，设点 $xˉ\bar{x}$ 满足一阶最优性条件，且该点处的海瑟矩阵 $∇2f(xˉ)\nabla^2f(\bar{x})$ 不是半正定的，那么 $xˉ\bar{x}$ 不是一个局部极小点。进一步的，如果海瑟矩阵 $∇2f(xˉ)\nabla^2f(\bar{x})$ 既有正特征值也有负特征值，我们称稳定点 $xˉ\bar{x}$ 为一个鞍点。
注意，给出的是关于局部最优性的判断，全局最优性还需要额外加条件。

5.3 无约束不可微问题的最优性

本节仍考虑问题5.2.1
$min⁡x∈Rnf(x)\min_{x{\in}R^n}f(x)$
其中 $f (x)$ 为不可微函数，很多实际问题的目标函数不是光滑的，例如 $f(x)=||x||_1$ ，对于此类问题，由于目标函数可能不存在梯度和海瑟矩阵，此时我们必须用其他最优性条件来判断不可微问题的最优点。

5.3.1 凸优化问题一阶充要条件

对于目标函数是凸函数的情形，我们已经引入了次梯度的概念并给出了其计算法则。一个自然的问题是：可以利用次梯度代替梯度来构造最优性条件吗，答案是肯定是，实际上有如下定理：
定理5.5 假设 $f$ 是适当且凸的函数，则 $x^*$ 为问题5.2.1的一个全局极小点当且仅当
$0∈∂f(x∗)0{\in}\partial{f(x^*)}$
这个结论比5.3要强，原因是凸问题有非常好的性质（5.3只考虑了可微，没有考虑凸），它的稳定点不存在鞍点，因此，可以通过计算凸函数的次梯度集合来求解其对应的全局极小点。

5.3.2 复合优化问题的一阶必要条件

在实际问题中，目标函数不一定是凸函数，但它可以写成一个光滑函数和非光滑凸函数的和。例如4.3节介绍的复合优化问题就具有这样的形式。其中目标函数的光滑项可能是凸的。比如LASSO问题，图像去噪问题和盲反卷积问题；也可能是非凸的，例如字典学习问题和神经网络的损失函数。因此研究此类问题的最优性条件十分必要。这里，我们考虑一般复合优化问题
$min⁡x∈Rnψ(x)=f(x)+h(x)(5.3.1)\min_{x{\in}R^n}\psi(x)=f(x)+h(x)\tag{5.3.1}$
其中 $f$ 为光滑函数（可能非凸）， $h$ 为凸函数（可能非光滑）对于其任何局部最优解，我们给出如下一阶必要条件
定理5.6（复合优化问题一阶必要条件）令 $x^*$ 为问题5.3.1的一个局部极小点，那么
$−∇f(x∗)∈∂h(x∗)-\nabla{f(x^*)}{\in}\partial{h(x^*)}$
其中 $∂h(x∗)\partial{h(x^*)}$ 为凸函数 $h$ 在 $x^*$ 处的次梯度集合
$f$ 一定是光滑的，所以有导数
定理5.6在之后我们推导复合优化问题算法性质的时候非常重要，它给出了当目标函数一部分是非光滑凸函数时的一阶必要条件。
但是要注意，由于目标函数可能是整体非凸的，因此一般没有充分条件。

5.3.3 非光滑非凸问题的最优性条件

当函数 $f$ 不可微且非凸时，其梯度和通常意义的次梯度都可能不存在，所以这本书对次梯度和次微分概念进行了某种推广，对适当下半联系函数依然可以定义次微分。
（中间就说了一些定义，我这里略过）
定理5.7（一阶必要条件）设 $f$ 是适当下半连续函数，若 $x^*$ 是 $f (x)$ 的一个局部极小点，则有
$0∈∂f(x∗)0{\in}\partial{f(x^*)}$

5.3.4 实例

我们以 $l_1$ 范数优化问题为例，给出其最优解的最优性条件，其一般形式可以写成
$min⁡x∈Rnψ(x)=f(x)+μ∣∣x∣∣1\min_{x{\in}R^n}\psi(x)=f(x)+\mu||x||_1$
其中 $f(x):Rn→Rf(x):R^n{\rightarrow}R$ 为光滑函数，正则系数 $μ>0\mu >0$ 调节解的稀疏度，尽管 $x||_1$ 是不可微的，但我们可以计算其次微分（我怎么感觉跟次梯度一样）
$\partial_i||x||_1=\left\{ \begin{matrix} {1},x_i>0 \\ [-1,1],x_i= 0\\ {-1},x_i<0 \end{matrix} \right.$
因此，如果 $x^*$ 是问题5.3.2的一个局部最优解，那么其满足
$−∇f(x∗)∈μ∂∣∣x∗∣∣1-\nabla{f(x^*)}{\in}\mu\partial||x^*||_1$
即
$\nabla_if(x^*)=\left\{ \begin{matrix} {-\mu},x^*_i>0 \\ [-\mu,\mu],x^*_i= 0\\ {\mu},x^*_i<0 \end{matrix} \right.$
进一步的，如果 $f (x)$ 是凸的（比如LASSO问题），那么满足上式的 $x^*$ 就是问题5.3.2的全局最优解

5.4 对偶理论

这一节以及本章之后的章节考虑一般的约束优化问题
$min⁡x∈Rnf(x)s.t.ci(x)≤0,i∈Ici(x)=0,i∈ε(5.4.1)\min_{x{\in}R^n}f(x)\\ s.t.{\quad}c_i(x){\le}0,i{\in}\mathcal{I}\\ c_i(x)=0,i{\in}\mathcal{\varepsilon}\tag{5.4.1}$
其中 $c_i$ 为定义在 $R^n$ 或其子集上的实值函数。 $I\mathcal{I}$ 和 $ε\varepsilon$ 分别表示不等式约束和等式约束对应的下标集合且各下标互不相同，这个问题的可行域定义为
$χ={x∈Rn∣ci(x)≤0,i∈I且ci(x)=0,i∈ε}\chi=\{x{\in}R^n|c_i(x){\le}0,i{\in}{\mathcal{I}}且c_i(x)=0,i{\in}\varepsilon\}$
我们可以通过将 $χ\chi$ 的示性函数加到目标函数中得到无约束优化问题，但是转化后问题的目标函数是不连续的、不可微的以及不是有限的，这导致我们难以分析其理论性质以及设计有效的算法，对于约束优化问题，可行性问题是应该最先考虑的。

5.4.1 拉格朗日函数与对偶问题

研究问题（5.4.1）的重要工具之一是拉格朗日函数，它的基本思想是给该问题的每一个约束指定一个拉格朗日乘子，以乘子为加权系数将约束增加到目标函数中，令 $λi\lambda_i$ 为对应于第 $i$ 个不等式约束的拉格朗日乘子， $v_i$ 为对应于第 $i$ 个等式约束的拉格朗日乘子，为了构造合适的对偶问题，基本原则是对拉格朗日乘子添加合适的约束条件，使得 $f (x)$ 在问题（5.4.1）的任意可行点 $x$ 处大于或等于相应的拉格朗日函数值，（因为不等式约束我们都转化成 $≤\le$ 0了）。根据这个原则，我们要求 $λ≥0\lambda{\ge}0$ ，记 $m=∣I∣,p=∣ε∣m=|\mathcal{I}|,p=|\varepsilon|$ ，则拉格朗日函数的具体形式
$L(x,λ,v)=f(x)+∑i∈Iλici(x)+∑i∈εvici(x)(5.4.2)L(x,\lambda,v)=f(x)+{\sum_{i{\in}{\mathcal{I}}}}\lambda_ic_i(x)+\sum_{i{\in}\varepsilon}v_ic_i(x)\tag{5.4.2}$
5.4.2中的加号也可以修改为减号，同时调整相应乘子的约束条件使得上述下界原则满足即可

对拉格朗日函数 $L(x,λ,v)L(x,\lambda,v)$ 中的 $x$ 取下确界可定义拉格朗日对偶函数，这一函数将在对偶理论中起关键作用
定义5.4：拉格朗日对偶函数 $g:R+m×Rp→[−∞,+∞)g:R^m_+ \times R^p{\rightarrow}[-\infty,+\infty)$ 是拉格朗日函数 $L(x,λ,v)L(x,\lambda,v)$ 对于 $λ∈R+m,v∈Rp\lambda{\in}R^m_+,v{\in}R^p$ 关于 $x$ 取的下确界
$g(λ,v)=inf⁡x∈RnL(x,λ,v)(5.4.3)g(\lambda,v)=\inf_{x{\in}R^n}L(x,\lambda,v)\tag{5.4.3}$
固定 $(λ,v)(\lambda,v)$ ，如果拉格朗日函数关于 $x$ 无界，那么对偶函数在 $(λ,v)(\lambda,v)$ 取值为 $−∞-\infty$ ，因为拉格朗日对偶函数是逐点定义的一族关于 $(λ,v)(\lambda,v)$ 的仿射函数的下确界，根据定理2.13的（5）可知其为凹函数（这里我没懂他是怎么直接利用定理去证的，在网上找到一个证明的方式）
在这里插入图片描述
噢。。好像利用那个，仿射函数是既凸又凹的（仿射函数的定义域是凸集那么仿射函数就是凸的），可以直接利用定理去证。

对每一对满足 $λ≥0\lambda{\ge}0$ 的乘子对 $(λ,v)(\lambda,v)$ ，拉格朗日函数给原优化问题的最优值 $p^*$ 提供了下界，且该下界依赖于 $λ\lambda$ 和 $v$ 的选取

引理5.1（弱对偶原理）对于任意的 $λ≥0\lambda{\ge}0$ 和 $v$ ，拉格朗日对偶函数给出了优化问题（5.4.1）最优值的一个下界，即
$g(λ,v)≤p∗,λ≥0(5.4.4)g(\lambda,v){\le}p^*,{\quad}{\lambda}{\ge}0\tag{5.4.4}$

那么一个自然的问题是，从拉格朗日对偶函数获得的下界中，哪个是最优的呢？为了求解该最优的下界，便有如下拉格朗日对偶问题
$max⁡λ≥0,vg(λ,v)=max⁡λ≥0,vinf⁡x∈RnL(x,λ,v)(5.4.8)\max_{{\lambda{\ge}0,v}}g(\lambda,v)=\max_{\lambda{\ge}0,v}\inf_{x{\in}R^n}L(x,\lambda,v)\tag{5.4.8}$
向量 $λ\lambda$ 和 $v$ 也称为问题（5.4.1）的对偶变量或者拉格朗日乘子向量，由于其目标函数的凹性和约束集合的凸性，拉格朗日对偶问题是一个凸优化问题。
当 $g(λ,v)=−∞g(\lambda,v)=-\infty$ 时，对偶函数提供的 $p^*$ 的下界变得没有实际意义。只有当 $g(λ,v)>−∞g(\lambda,v)>-\infty$ 时，对偶函数生成的关于原始问题最优解 $p^*$ 的下界才是非平凡的，因此我们规定拉格朗日对偶函数的定义域
$g=\{(\lambda,v)|\lambda{\ge}0,g(\lambda,v)>-\infty\}$
当 $(λ,v)∈domg(\lambda,v){\in}domg$ 时，称其为对偶可行解。记对偶问题的最优值为 $q^*$ ，称 $p^*-q^*$ 为对偶间隙，如果对偶间隙为0，称强对偶原理成立
假设 $(λ∗,v∗)(\lambda^*,v^*)$ 是使得对偶问题取得最优值的解，称其为对偶最优解或者最优拉格朗日乘子
拉格朗日对偶问题的写法并不唯一，如果问题（5.4.1）中有些约束，则可以不把这些约束松弛到拉格朗日函数里。

5.4.2 带广义不等式约束优化问题的对偶

问题（5.4.1）中的不等式约束 $ci(x),i∈Ic_i(x),i{\in}\mathcal{I}$ 都是实值函数的形式，在许多实际应用中，我们还会遇到大量带广义不等式约束的优化问题，例如自变量 $x$ 可能取值于半正定矩阵空间中，对于这类约束我们不易将其化为 $ci(x)≤0c_i(x)\le{0}$ 的形式，那么此时该如何做呢？

1.适当锥和广义不等式

定义广义不等式需要利用适当锥的概念
定义5.5（适当锥）称满足如下条件的锥K为适当锥
（1）K是凸锥
（2）K是闭集
（3）K是实心的，即 $K\not=∅$
（4）K是尖的，即对任意非零向量 $x$ ，若 $x∈Kx{\in}K$ ，则 $−x∉K-x{\notin}K$ ，也即K无法容纳直线
在这里插入图片描述

2.对偶锥

在构造拉格朗日对偶函数时，针对不等式约束 $ci(x)≤0c_i(x){\le}0$ 我们引入拉格朗日乘子 $λi≥0\lambda_i{\ge}0$ ，之后将 $λici(x)(≤0)\lambda_ic_i(x)({\le0})$ 作为拉格朗日函数中的一项，那么对于广义不等式，应该如何对拉格朗日乘子提出限制呢？此时需要借助对偶锥的概念
定义5.6（对偶锥）令 $K$ 为全空间 $Ω\Omega$ 的子集，称集合
$K∗=y∈Ω∣<x,y>≥0,∀x∈KK^*={y{\in}\Omega|<x,y>{\ge}0,\forall{x}{\in}K}$
为其对偶锥

正如定义所说，对偶锥是一个锥（哪怕K不是锥） $K^*$ 中的向量和 $K$ 中所有向量夹角均为锐角或直角
在这里插入图片描述
半正定锥的对偶锥仍为半正定锥，此时满足 $K=K^*$ 的锥K为自对偶锥，因此非负锥和半正定锥都是自对偶锥

直观来说，对偶锥 $K^*$ 中的向量和原锥K向量的内积恒非负，这一性质可以用来构造拉格朗日对偶函数。

3.广义不等式约束优化问题拉格朗日函数的构造

如果将不等式约束函数换成向量函数，并且推广定义相应的广义不等式约束，我们可以得到如下形式的优化问题
$min⁡x∈Rnf(x)s.t.ci(x)⪯K,0,i∈Ici(x)=0,i∈ε(5.4.11)\min_{x{\in}R^n}f(x)\\ s.t.{\quad}c_i(x){\preceq}_K,0,i{\in}\mathcal{I} \\ c_i(x)=0,i{\in}\varepsilon\tag{5.4.11}$
其中 $f;Rn→R,ci:Rn→R,i∈ε,为实值函数，ci:Rn→Rk,ki∈N+,i∈If;R^n{\rightarrow}R,c_i:R^n{\rightarrow}R,i{\in}\varepsilon,为实值函数，c_i:R^n{\rightarrow}R^k,k_i{\in}N_+,i{\in}\mathcal{I}$ 为向量值函数， $K_i$ 为某种适当锥且 $⪯K\preceq_K$ 表示由锥 $K_i$ 定义的广义不等式，因此，问题5.4.1是问题5.4.11中取 $ki=1，Ki=R+,∀i∈Ik_i=1，K_i=R_+,\forall{i}{\in}\mathcal{I}$ 时的特殊情形
根据 $Ki,i∈IK_i,i{\in}\mathcal{I}$ 的对偶锥 $K_i^*$ ，我们对广义不等式约束分别引入乘子 $λi∈Ki∗,i∈I\lambda_i{\in}K_i^*,i{\in}\mathcal{I}$ ，对等式约束引入乘子 $vi∈R,i∈εv_i{\in}R,i{\in}\varepsilon$ ，构造如下拉格朗日函数
$L(x,λ,v)=f(x)+∑i∈I<ci(x),λi>+∑i∈εvici(x),λi∈Ki∗,vi∈RL(x,\lambda,v)=f(x)+\sum_{i{\in}\mathcal{I}}<c_i(x),\lambda_i>+\sum_{i{\in}\varepsilon}v_ic_i(x),\lambda_i{\in}K_i^*,v_i{\in}R$
容易验证 $L(x,λ,v)≤f(x),∀x∈χ,λi∈Ki∗,vi∈RL(x,\lambda,v){\le}f(x),\forall{x}{\in}\chi,\lambda_i{\in}K_i^*,v_i{\in}R$ ，我们可以定义拉格朗日对偶函数
$g(λ,v)=inf⁡x∈RnL(x,λ,v)g(\lambda,v)=\inf_{x{\in}R^n}L(x,\lambda,v)$
因此，对偶问题为
$max⁡λi∈Ki∗,vi∈Rg(λ,v)\max_{\lambda_i{\in}K_i^*,v_{i}{\in}R}g(\lambda,v)$

每个优化问题都对应一个对偶问题，相比原始问题，对偶问题总是凸的，其最优值给出了原始问题（极小化问题）一个下界，如果原始问题满足一定的条件，我们可以从理论上证明原始问题和对偶问题的最优值是相等的，当原始问题的约束个数比决策变量维度更小时，对偶问题的决策变量维数会比原始问题小，从而可能在相对较小的决策空间中求解

5.4.3 实例

这一小节用四个例子说明拉格朗日对偶问题应当如何计算，并简要从对偶理论的角度分析这些问题具有的性质

1. 线性规划问题的对偶

考虑如下线性规划问题：
$min⁡xcTx,s.t.Ax=b,x≥0(5.4.12)\min_xc^Tx,\\ s.t.{\quad}Ax=b,\\ {\quad}x{\ge}0\tag{5.4.12}$
对于等式约束，我们引入拉格朗日乘子 $v$ ，对于非负约束 $x≥0x{\ge}0$ ,我们引入拉格朗日乘子 $s≥0s{\ge}0$ ，可构造如下拉格朗日函数
$L(x,s,v)=c^Tx+v^T(Ax-b)-s^Tx=-b^Tv+(A^Tv-s+c)^Tx$
其拉格朗日对偶函数为
$g(s,v)=inf⁡xL(x,s,v)={−bTv,AT−s+c=0−∞,其他g(s,v)=\inf_xL(x,s,v)=\left\{ \begin{matrix} -b^Tv,A^T-s+c=0\\ -\infty,其他 \end{matrix} \right.$
这个应该很好理解，如果后面那一项不等于0的话，下界就看x取多少了，x是可以取到正无穷或者负无穷的

注意到只需要考虑 $A^T-s+c=0$ 的情形，因此，线性规划问题（5.4.12）的对偶问题是
$max⁡s,v−bTv,s.t.ATv−s+c=0,s≥0\max_{s,v}-b^Tv,\\ s.t.{\quad}A^Tv-s+c=0,\\ s{\ge}0$
经过变量代换 $y = - v$ 后，上述问题等价于常见的形式
$max⁡s,ybTy,s.t.ATy+s=c,s≥0(5.4.13)\max_{s,y}b^Ty,\\ s.t.{\quad}A^Ty+s=c,\\ s{\ge}0\tag{5.4.13}$

当然也可以保留约束 $x≥0x{\ge}0$ ，对于等式约束 $A x = b$ ，引入乘子y
$L(x,y)=c^Tx-y^T(Ax-b)=b^Ty+(c-A^Ty)^Tx$
而对偶问题需要将 $x≥0x{\ge}0$ 添加到约束中
$max⁡y{inf⁡xbTy+(c−ATy)Tx,s.t.x≥0}\max_y\{\inf_xb^Ty+(c-A^Ty)^Tx,{\quad}s.t.{\quad}x{\ge}0\}$

简化后得出
$max⁡ybTy,s.t.ATy≤c(5.4.14)\max_y{\quad}b^Ty,\\ s.t.{\quad}A^Ty{\le}c\tag{5.4.14}$
可以想一下这个，如果 $c−ATy≤0c-A^Ty{\le}0$ ，那么下界是可以取到负无穷的，不管他，反之，下界就是 $b^Ty$
事实上，5.4.13可以消掉 $s$ 得到5.4.14

下面我们反推5.4.14的对偶问题，先极小化目标函数
$min⁡y−bTy,s.t.ATy≤c\min_y{\quad}-b^Ty,\\ s.t.{\quad}A^Ty{\le}c$
对于不等式约束 $ATy≤cA^Ty{\le}c$ ，我们引入拉格朗日乘子 $x≥0x{\ge}0$ ，则相应的拉格朗日函数为
$L(y,x)=-b^Ty+x^T(A^Ty-c)=-c^Tx+(Ax-b)^Ty$
因此得到对偶函数
$g(x)=inf⁡yL(y,x)={−cTx,Ax=b−∞,其他g(x)=\inf_yL(y,x)=\left\{ \begin{matrix} -c^Tx,{\quad}Ax=b\\ -\infty,其他 \end{matrix} \right.$
相应的对偶问题是
$max⁡x−cTx,s.t.Ax=b,x≥0(5.4.15)\max_x{\quad}-c^Tx,\\ s.t.{\quad}Ax=b,\\ x{\ge}0\tag{5.4.15}$
可以看到5.4.15与5.4.12完全等价，这说明线性规划问题与其对偶问题互为对偶。

2. $l_1$ 正则化问题的对偶

对于 $l_1$ 正则化问题
$min⁡x∈Rn12∣∣Ax−b∣∣2+μ∣∣x∣∣1(5.4.16)\min_{x{\in}R^n}\frac{1}{2}||Ax-b||^2+\mu||x||_1\tag{5.4.16}$
其中 $A∈Rm×n,b∈RmA{\in}R^{m \times n},b{\in}R^m$ 分别为给定的矩阵和向量（希望求解x）， $μ\mu$ 为正则化参数来控制稀疏度，通过引入 $A x - b = r$ ，可以将问题5.4.16转化为如下等价形式：
$min⁡x∈Rn12∣∣r∣∣2+μ∣∣x∣∣1,s.t.Ax−b=r,(5.4.17)\min_{x{\in}R^n}\frac{1}{2}||r||^2+\mu||x||_1,s.t.{\quad}Ax-b=r,\tag{5.4.17}$
其拉格朗日函数为
$L(x,r,λ)=12∣∣r∣∣2+μ∣∣x∣∣1−<λ,Ax−b−r>=12∣∣r∣∣2+λTr+μ∣∣x∣∣1−(ATλ)Tx+bTλL(x,r,\lambda)=\frac{1}{2}||r||^2+\mu||x||_1-<\lambda,Ax-b-r>\\ =\frac{1}{2}||r||^2+\lambda^Tr+\mu||x||_1-(A^T\lambda)^Tx+b^T\lambda$
利用二次函数最小值的性质以及 $_1$ 的对偶范数的定义，我们有
$g(λ)=inf⁡x,rL(x,r,λ)={bTλ−12∣∣λ∣∣2,∣∣ATλ∣∣∞≤μ−∞,其他g(\lambda)=\inf_{x,r}L(x,r,\lambda)=\left\{ \begin{matrix} b^T\lambda-\frac{1}{2}||\lambda||^2,{\quad}||A^T\lambda||_{\infty}{\le}\mu\\ -\infty,其他 \end{matrix} \right.$
这里的 $bTλb^T\lambda$ 就不解释了，第二项的话是通过最小化有 $r$ 的项来的，他是一个二次函数，然后后面的要让 $μ∣∣x∣∣1−(ATλ)Tx\mu||x||_1-(A^T\lambda)^Tx$ 有下界，那么很明显， $μ\mu$ 要大(比的话肯定是比最高项)，下界就为0，否则就没有了
那么对偶问题为
$maxbTλ−12∣∣λ∣∣2,s.t.∣∣ATλ∣∣∞≤μmax{\quad}b^T\lambda-\frac{1}{2}||\lambda||^2,s.t.{\quad}||A^T\lambda||_{\infty}{\le}\mu$

3.半定规划问题的对偶问题

考虑标准形式的半定规划问题
$,m,X⪰0(5.4.18)\min_{X{\in}S^n}<C,X>,\\ s.t.{\quad}<A_i,X>=b_i,i=1,2,\cdots,m,\\ X{\succeq}0\tag{5.4.18}$
其中 $,m,C∈Sn,b∈RmA_i{\in}S^n,i=1,2,\cdots,m,C{\in}S^n,b{\in}R^m$ ，对于等式约束和半正定锥约束，分别引入乘子 $y∈Rmy{\in}R^m$ 和 $S∈S+nS{\in}\mathcal{S}_+^n$ ，拉格朗日函数可以写为
$L(X,y,S)=<C,X>−∑i=1myi(<Ai,X>−bi)−<S,X>，S⪰0L(X,y,S)=<C,X>-\sum_{i=1}^my_i(<A_i,X>-b_i)-<S,X>，\quad{S{\succeq}0}$
则对偶函数为
$g(y,S)=inf⁡X(X,y,S)={bTy,∑i=1myiAi−C+S=0−∞,其他g(y,S)=\inf_X(X,y,S)=\left\{ \begin{matrix} b^Ty,{\quad}\sum_{i=1}^my_iA_i-C+S=0\\ -\infty,其他 \end{matrix} \right.$
因此，对偶问题为
$min⁡y∈Rm−bTy,s.t.∑i=1myiAi−C+S=0,S⪰0(5.4.19)\min_{y{\in}R^m}-b^Ty,\\ s.t.{\quad}\sum_{i=1}^my_iA_i-C+S=0,\\ S{\succeq}0\tag{5.4.19}$
也可以写成不等式形式
$min⁡y∈Rm−bTy,s.t.∑i=1myiAi⪯C,(5.4.20)\min_{y{\in}R^m}-b^Ty,\\ s.t.{\quad}\sum_{i=1}^my_iA_i{\preceq}C,\tag{5.4.20}$
对于对偶问题5.4.20，我们同样可以求其对偶问题，对不等式约束引入乘子 $X∈SnX{\in}S^n$ 并且 $X⪰0X{\succeq}0$ ，拉格朗日函数为
$L(y,X)=−bTy+<X,∑i=1myiAi−C>=∑i=1myi(−bi+<Ai,X>)−<C,X>L(y,X)=-b^Ty+<X,\sum_{i=1}^my_iA_i-C>\\ =\sum_{i=1}^my_i(-b_i+<A_i,X>)-<C,X>$
对偶函数为
$,m−∞,其他g(X)=\inf_yL(y,X)=\left\{ \begin{matrix} -<C,X>,{\quad}<A_i,X_i>=b_i,i=1,2,\cdots,m\\ -\infty,其他 \end{matrix} \right.$

因此对偶问题可以写成
$,m.X⪰0,(5.4.21)\min_{X{\in}S^n}<C,X>,\\ s.t.{\quad}<A_i,X_i>=b_i,i=1,2,\cdots,m.\\ X{\succeq}0,\tag{5.4.21}$
这就是问题5.4.18，即半定规划问题与其对偶问题互为对偶

4.最大割问题

考虑最大割问题（4.5.6）：
$,n(5.4.22)\max_{x{\in}R^n}{\quad}x^TCx,\\ s.t.{\quad}x_i^2=1,i=1,2,\cdots,n\tag{5.4.22}$
其中 $C∈Rn×nC{\in}R^{n \times n}$ 为图的拉普拉斯矩阵，这里 $x_i^2=1$ 表明 $x_i=1$ 或者 $x_i=-1$ ，引入拉格朗日乘子 $y∈Rny{\in}R^n$ ，拉格朗日函数可以写为
$L(x,y)=−xTCx+∑i=1nyi(xi2−1)=xT(Diag(y)−C)x−1TyL(x,y)=-x^TCx+\sum_{i=1}^ny_i(x_i^2-1)=x^T(Diag(y)-C)x-1^Ty$
则对偶函数为
$g(y)=inf⁡xL(x,y)={−1Ty,Diag(y)−C⪰0,−∞,其他g(y)=\inf_xL(x,y)=\left\{ \begin{matrix} -1^Ty,Diag(y)-C{\succeq0},\\ -\infty,其他 \end{matrix} \right.$
因此，对偶问题为
$min⁡y∈Rn1Tys.t.Diag(y)−C⪰0(5.4.23)\min_{y{\in}R^n}1^Ty\\ s.t.{\quad}Diag(y)-C{\succeq}0\tag{5.4.23}$
这是一个半定规划问题
对于5.4.23，我们还可以求其对偶问题，对于半正定约束，引入拉格朗日乘子 $X⪰0X{\succeq}0$ ，拉格朗日函数可以写为
$L(y,X)=1Ty−<Diag(y)−C,X>=∑i=1n(1−Xii)yi+<C,X>L(y,X)=1^Ty-<Diag(y)-C,X>\\ =\sum_{i=1}^n(1-X_{ii})y_i+<C,X>$
则对偶函数为
$,n−∞,其他g(X)=\inf_{y}L(y,X)\left\{ \begin{matrix} -<C,X>,{\quad}X_{ii}=1,i=1,2,\cdots,n\\ -\infty,其他 \end{matrix} \right.$

因此，问题5.4.23的对偶问题为
$,nX⪰0\max<C,X>,\\ s.t.{\quad}X_{ii}=1,i=1,2,\cdots,n\\ X{\succeq}0$
容易看出，此问题不是最大割问题，而是一个半定规划问题，这个分析也给出了最大割问题半定松弛的一种理解方式

5.5 一般约束优化问题的最优性理论

5.5.1 一阶最优性条件

类似于无约束优化问题，约束优化问题（5.4.1）的最优性条件要从下降方向开始讨论，因为决策变量限制在可行域中，所以只需要关注可行的方向，先引入可行域的几何性质
在这里插入图片描述

1.切锥和约束品性

在给出最优性条件之前，我们先介绍一些概念，与无约束优化问题类似，首先需要定义5.4.1的下降方向，这里因为约束的存在，我们只考虑可行方向，即可行序列对应的极限方向，特别地，称这样的方向为切向量
定义5.7（切锥）：给定可行域 $χ\chi$ 及其内一点 $x$ ，若存在可行序列 ${zk}k=1∞⊂χ\{z_k\}_{k=1}^\infty{\sub}\chi$ 逼近 $x$ (即 $lim⁡k→∞zk=x\lim_{k\rightarrow{\infty}}z_k=x$ )以及正标量序列 ${tk}k=1∞,tk→0\{t_k\}_{k=1}^\infty,t_k{\rightarrow}0$ 满足
则称向量 $d$ 为 $χ\chi$ 在点 $x$ 处的一个切向量，所有点 $x$ 处的切向量构成的集合称为切锥，用 $Tχ(x)T_{\chi}(x)$ 表示
按目前的理解可能就是可移动方向的集合
在这里插入图片描述

之后，我们可以从几何上刻画问题5.4.1的最优性条件，我们要求切锥（可行方向集合）不包含使得目标函数值下降的方向，具体地，有下面的一阶必要条件，称为几何最优性条件
定理5.8（几何最优性条件）假设可行点 $x^*$ 是问题5.4.1的一个局部极小点，如果 $f (x)$ 和 $ci(x),i∈I∪εc_i(x),i{\in}\mathcal{I}{\cup}\varepsilon$ 在点 $x^*$ 处是可微的，那么
$dT∇f(x∗)≥0,∀d∈Tχ(x∗)d^T{\nabla}f(x^*){\ge}0,\forall{d}{\in}T_{\chi}(x^*)$
等价于
$Tχ(x∗)∩{d∣∇f(x∗)Td<0}=∅T_{\chi}(x^*)\cap\{d|\nabla{f(x^*)^Td<0}\}=∅$
意思就是你的可行方向不能有下降方向了
${d∣∇f(x∗)Td<0}\{d|\nabla{f(x^*)^Td<0}\}$ 这个就是d就是下降方向，大家应该都能懂

因为切锥是根据可行域的几何性质来定义的，其计算往往是不容易的，我们需要寻找代数方法来计算可行方向，进而更容易的判断最优性条件，我们给出另一个容易计算的可行方向集合的定义，即线性化可行方向锥。

定义5.8（线性化可行方向锥）对于可行点 $x∈χx{\in}\chi$ ，该点的积极集 $A(x)\mathcal{A}(x)$ 定义为两部分下标的集合。一部分是等式约束对应的下标，另一部分是不等式约束中等号成立的约束对应的下标，即
$A(x)=ε∪{i∈I:ci(x)=0}\mathcal{A}(x)={\varepsilon}{\cup}\{i{\in}\mathcal{I}:c_i(x)=0\}$
进一步地，点 $x$ 处的线性化可行方向锥定义为
$\mathcal{F}(x)=\left\{ \begin{matrix} d|d^T{\nabla}c_i(x)=0,\forall{i{\in}\varepsilon} \\ d|d^T\nabla{c_i(x){\le}0,\forall{i}{\in}{\mathcal{A}(x)\cap\mathcal{I}}} \end{matrix} \right.$
在这里插入图片描述
直观的说，线性化可行方向锥中的向量应该保证和等式约束中函数的梯度垂直，这样才能保证 $ci(x),i∈εc_i(x),i{\in}\varepsilon$ 的值不变，而对积极集 $A(x)∩I\mathcal{A}(x)\cap{\mathcal{I}}$ 中的指标 $i$ ，沿着该向量 $c_i(x)$ 的值至少不应该增加，即对 $ci(x),i∈A(x)∩Ic_i(x),i{\in}\mathcal{A}(x)\cap\mathcal{I}$ 是一个下降方向。

线性化可行方向锥一般比切锥要大，我们有如下结果
命题5.1，设 $ci(x),i∈ε∪Ic_i(x),i{\in}\varepsilon\cup\mathcal{I}$ 一阶连续可微，则对任意可行点 $x$ 有
$Tχ(x)⊆F(x)T_{\chi}(x){\subseteq}\mathcal{F}(x)$
以上结论反过来是不成立的，我们给出具体的例子，考虑问题
$min⁡x∈Rf(x)=x,s.t.c(x)=−x+3≤0(5.5.1)\min_{x{\in}R}f(x)=x,\\ s.t.{\quad}c(x)=-x+3{\le}0\tag{5.5.1}$
根据切锥的定义，可以算出点 $x^*=3$ 处的切锥为 $Tχ(x∗)={d∣d≥0}T_{\chi}(x^*)=\{d|d{\ge}0\}$ 这个很好理解把，可行方向就是往正的走。对于线性化可行方向锥，由于 $c'(x^*)=-1$ ，故 $F(x∗)={d:d≥0}\mathcal{F}(x^*)=\{d:d{\ge}0\}$ 这个定义也很好求，此时我们有 $Tχ(x∗)=F(x∗)T_{\chi}(x^*)=\mathcal{F}(x^*)$
倘若我们将5.5.1的约束变为
$c(x)=(−x+3)3≤0c(x)=(-x+3)^3{\le}0$
因为可行域没有改变，所以在点 $x^*=3$ 处，切锥不变，但是对于线性化可行方向锥，由于 $c'(x^*)=0$ ，所以 $F(x∗)={d∣d∈R}\mathcal{F}(x^*)=\{d|d{\in}R\}$ ，此时 $F(x∗)⊃Tχ(x∗)\mathcal{F}(x^*){\supset}T_{\chi}(x^*)$ 。
这个例子告诉我们线性化可行方向锥 $F(x)\mathcal{F}(x)$ 不但受到问题可行域 $χ\chi$ 的影响，还会受到 $χ\chi$ 的代数表示方式的影响。在不改变 $χ\chi$ 的条件下改变定义 $χ\chi$ 的等式（不等式）的数学形式会影响 $F(x)\mathcal{F}(x)$ 包含的元素。而切锥 $Tχ(x)T_{\chi}(x)$ 的定义直接依赖于可行域 $χ\chi$ ，因此他不受到 $χ\chi$ 代数表示方式的影响。

线性化可行方向锥容易计算和使用，但会受到问题形式的影响，切锥比较直接地体现了可行域 $χ\chi$ 的性质，但比较难计算，为了刻画线性化可行方向锥 $F(x)\mathcal{F}(x)$ 与切锥 $Tχ(x)T_{\chi}(x)$ 之间的关系，我们引入约束品性这个概念，简单来说，大部分的约束品性都是为了保证在最优点 $x^*$ 处， $F(x∗)=Tχ(x)\mathcal{F}(x^*)=T_{\chi}(x)$ ，这一性质使得我们能够使用 $F(x)\mathcal{F}(x)$ 代替 $Tχ(x)T_{\chi}(x)$ ，进而更方便的研究约束最优化问题条件。这里给出一些常用的约束品性的定义。

定义5.9（线性无关约束品性）给定可行点 $x$ 及相应的积极集，如果积极集对应的约束函数的梯度，即 $∇ci(x),i∈A(x)\nabla{c_i(x)},i{\in}\mathcal{A}(x)$ ，是线性无关的，则称线性无关约束品性（LICQ）在点 $x$ 处成立
当LICQ成立时，切锥和线性化可行方向锥是相同的。

关于LICQ的一个常用推广是Mangasarian Fromovitz 约束品性，简称为MFCQ
定义5.10（MFCQ）给定可行点 $x$ 及相应的积极集 $A(x)\mathcal{A}(x)$ ，如果存在一个向量 $w∈Rnw{\in}R^n$ ，使得
$∇ci(x)Tw<0,∀i∈A(x)∩I,∇ci(x)Tw=0,∀i∈ε\nabla{c_i(x)}^Tw<0,\forall{i}{\in}\mathcal{A}(x)\cap\mathcal{I},\\ \nabla{c_i(x)}^Tw=0,\forall{i{\in}}\varepsilon$
并且等式约束对应的梯度集 ${∇ci(x),i∈ε}\{\nabla{c_i(x),i{\in}\varepsilon}\}$ 是线性无关的，则称MFCQ在点 $x$ 处成立
可以验证MFCQ是LICQ的一个弱化版本，即由LICQ可以推出MFCQ，但是反过来不成立，在MFCQ成立的情况下，我们也可以证明 $Tχ(x)=F(x)T_{\chi}(x)=\mathcal{F}(x)$

另外一个用来保证 $Tχ(x)=F(x)T_{\chi}(x)=\mathcal{F}(x)$ 的约束品性是线性约束品性
定义5.11（线性约束品性）如果所有的约束函数 $ci(x),i∈I∪εc_i(x),i{\in}I\cup\varepsilon$ 都是线性的，则称线性约束品性成立
但线性约束品性成立的时候，也有 $Tχ(x)=F(x)T_{\chi}(x)=\mathcal{F}(x)$ ，因此对只含线性约束的优化问题，例如i线性规划，二次规划，很自然的有 $Tχ(x)=F(x),∀xT_{\chi}(x)=\mathcal{F}(x),\forall{x}$ ，我们无需再关注约束函数的梯度是否线性无关，一般来说，线性约束品性和LICQ之间没有相互包含的关系。

2.KKT条件

基于几何最优性条件，即定理5.8，我们想要得到一个计算上更容易验证的形式，切锥和线性化可行方向锥联系给我们提供了一种方式，具体地，在定理5.8中，如果在局部最优解 $x^*$ 处有
$Tχ(x∗)=F(x∗)T_{\chi}(x^*)=\mathcal{F}(x^*)$ 成立，那么集合
$\left\{ \begin{matrix} d|d^T{\nabla}f(x^*)<0\\ d|d^T{\nabla}c_i(x)=0,\forall{i{\in}\varepsilon} \\ d|d^T\nabla{c_i(x){\le}0,\forall{i}{\in}{\mathcal{A}(x)\cap\mathcal{I}}} \end{matrix} \right.\tag{5.5.2}$
是空集、5.5.2式的验证是非常麻烦的，我们需要将其转化称一个更直接的方式，这里介绍一个重要的引理，称为 $F a r ka s$ 引理
引理5.3（ $F a r ka s$ 引理）设 $p$ 和 $q$ 为两个非负整数，给定向量组 $,q}和c∈Rn\{a_i{\in}R^n,i=1,2,\cdots,p\},\{b_i{\in}R^n,i=1,2,\cdots,q\}和c{\in}R^n$ ，满足以下条件
$,p(5.5.3)d^Ta_i=0,i=1,2,\cdots,p\tag{5.5.3}$
$,q(5.5.4)d^Tb_i{\ge}0,i=1,2,\cdots,q\tag{5.5.4}$
$dTc<0(5.5.5)d^Tc<0\tag{5.5.5}$
的 $d$ 不存在当且仅当存在 $,p\lambda_i,i=1,2,\cdots,p$ 和 $,q\mu_i{\ge}0,i=1,2,\cdots,q$ ，使得
$c=∑i=1pλiai+∑i=1qμibic=\sum_{i=1}^p\lambda_ia_i+\sum_{i=1}^q\mu_ib_i$

利用 $F a r ka s$ 引理，在5.5.3-5.5.5式中取 $ai=∇ci(x∗),i∈ε,bi=∇ci(x∗),i∈A(x∗)∩I以及c=−∇f(x∗)a_i=\nabla{c_i(x^*)},i{\in}\varepsilon,b_i=\nabla{c_i(x^*),i{\in}\mathcal{A}(x^*)\cap\mathcal{I}以及c=-\nabla{f(x^*)}}$ ，集合5.5.2是空集等价于下式成立
$−∇f(x∗)=∑i∈ελi∗∇ci(x∗)+∑i∈A(x∗)∩Iλi∗∇ci(x∗)-\nabla{f(x^*)}=\sum_{i{\in}\varepsilon}\lambda_i^*\nabla{c_i(x^*)}+\sum_{i{\in\mathcal{A(x^*)}\cap\mathcal{I}}}\lambda_i^*{\nabla}c_i(x^*)$
其中 $λi∗∈R,i∈ε,λi∗≥0,i∈A(x∗)∩I\lambda_i^*{\in}R,i{\in}\varepsilon,\lambda_i^*{\ge}0,i{\in}{\mathcal{A(x^*)}\cap\mathcal{I}}$
如果补充定义 $λi∗=0,i∈I/A(x∗)\lambda_i^*=0,i{\in}\mathcal{I}/\mathcal{A}(x^*)$ 那么
$−∇f(x∗)=∑i∈I∩ελi∗∇ci(x∗)-\nabla{f(x^*)}=\sum_{i{\in\mathcal{I}\cap{\varepsilon}}}\lambda_i^*\nabla{c_i(x^*)}$
这恰好对应于拉格朗日函数关于 $x$ 的一阶最优性条件，另外，对于任意的 $i∈Ii{\in}\mathcal{I}$ ，我们注意到‘
$λi∗ci(x∗)=0\lambda_i^*c_i(x^*)=0$
上述称为互补松弛条件，这个条件表明不等式约束，以下两种情况至少出现一种乘子=0或者 $c_i(x^*)=0$ 。当以上两种情况恰好只有一种满足时，我们也称此时严格互补松弛条件成立。

综上所述，我们有如下一阶必要条件，也称作KKT条件，兵称满足条件的变量对 $(x∗,λ∗)(x^*,\lambda^*)$ 为KKT对

定理5.9（KKT条件），假设 $x^*$ 是问题的一个局部最优点
如果
$Tχ(x)=F(x∗)T_{\chi}(x)=\mathcal{F}(x^*)$
成立，那么存在拉格朗日乘子 $λi∗\lambda_i^*$ 使得如下条件成立
$稳定性条件∇xL(x∗,λ∗)=∇f(x∗)+∑i∈I∪ελi∗∇ci(x∗)=0原始可行性条件ci(x∗)=0,∀i∈ε原始可行性条件ci(x∗)≤0,∀i∈I对偶可行性条件λi∗≥0,∀i∈I互补松弛条件λi∗ci(x∗)=0,∀iI(5.5.8)稳定性条件\quad{\nabla}_xL(x^*,\lambda^*)=\nabla{f(x^*)}+\sum_{i{\in}\mathcal{I}\cup{\varepsilon}}\lambda_i^*\nabla{c_i(x^*)=0}\\ 原始可行性条件\quad{c_i(x^*)=0,\forall{i}{\in}\varepsilon}\\ 原始可行性条件\quad{c_i(x^*){\le}0,\forall{i{\in}\mathcal{I}}}\\ 对偶可行性条件\quad{\lambda_i^*{\ge0},\forall{i}}{\in}\mathcal{I}\\ 互补松弛条件\quad{\lambda_i^*c_i(x^*)=0,\forall{i{\mathcal{I}}}}\tag{5.5.8}$

我们称满足5.5.8的点 $x^*$ 为KKT点，注意，上面的定理只给出了初锥和线性可行化方向锥头相同时的最优性条件，也就是说，如果局部最优点 $x^*$ 处 $Tχ(x∗)≠F(x∗)T_{\chi}(x^*)\not=\mathcal{F}(x^*)$ ，那么 $x^*$ 不一定是KKT点，同样点，因为KKT条件只是必要的，所以KKT点不一定是局部最优点

5.5.2 二阶最优性条件

对于问题5.4.1，如果存在一个点 $x^*$ 满足KKT条件，我们知道沿着任意线性化可行方向目标函数的一阶近似不会下降，此时一阶条件无法判断 $x^*$ 是否是最优点，我们以拉格朗日函数在这些方向上的曲率信息为桥梁来判断点 $x^*$ 处的最优性，下面给出临界锥的定义
定义5.12（临界锥）设 $(x∗,λ∗)(x^*,\lambda^*)$ 满足KKT条件，定义临界锥为
$C(x∗,λ∗)={d∈F(x∗)∣∇ci(x)Td=0,∀i∈A∗∩I且λi∗>0}C(x^*,\lambda^*)=\{d{\in}\mathcal{F}(x^*)|\nabla{c_i(x)^Td=0,\forall{i}{\in}\mathcal{A^*}\cap}\mathcal{I}且\lambda_i^*>0\}$
其中 $F(x)\mathcal{F}(x)$ 为点 $x^*$ 处的线性化可行方向锥
临界锥是线性化可行方向锥的子集，沿着临界锥中的方向进行优化，所有等式约束和 $λi∗>0\lambda_i^*>0$ 对应的不等式约束（此时不等式约束中的等号均成立）都会尽量保持不变
根据上述定义，可得到如下结论
$d∈C(x∗,λ∗)→dT∇f(x∗)=∑i∈ε∪Iλi∗dT∇ci(x∗)=0d{\in}C(x^*,\lambda^*){\rightarrow}d^T\nabla{f(x^*)}=\sum_{i{\in}\varepsilon\cup\mathcal{I}}\lambda_i^*d^T\nabla{c_i(x^*)=0}$
更进一步的
$dT∇f(x∗)=−∑i∈ε∪Iλi∗dT∇ci(x∗)=0d^T{\nabla}f(x^*)=-\sum_{i{\in}\varepsilon\cup\mathcal{I}}\lambda_i^*d^T\nabla{c_i(x^*)}=0$
也就是说，临界锥定义了根据一阶导数不能判断是否为上升或下降方向的线性化可行方向，必须使用高阶导数信息加以判断

定理5.10（二阶必要条件）假设 $x^*$ 是问题5.4.1的一个局部最优解，并且 $Tχ(x∗)=F(x∗)T_{\chi}(x^*)=\mathcal{F}(x^*)$ 成立，令 $λ∗\lambda^*$ 为相应的拉格朗日乘子，即 $(x∗,λ∗)(x^*,\lambda^*)$ 满足KKT条件，那么
$dT∇xx2L(x∗,λ∗)d≥0,∀d∈C(x∗,λ∗)d^T\nabla_{xx}^2L(x^*,\lambda^*)d\ge0,\forall{d\in\mathcal{C}(x^*,\lambda^*)}$
定理5.11（二阶充分条件）假设在可行点 $x^*$ 处，存在一个拉格朗日乘子 $λ∗\lambda^*$ ，使得 $(x∗,λ∗)(x^*,\lambda^*)$ 满足KKT条件，如果
$dT∇xx2L(x∗,λ∗)d>0,∀d∈C(x∗,λ∗),d≠0d^T\nabla_{xx}^2L(x^*,\lambda^*)d>0,\forall{d}{\in}\mathcal{C}(x^*,\lambda^*),d \not=0$
那么 $x^*$ 为问题5.4.1的一个严格局部极小解

我们考虑一个具体的例子，给定如下约束问题
$min⁡x12+x22,s.t.x124+x22−1=0\min{\quad}x_1^2+x_2^2,{\quad}s.t.{\quad}\frac{x_1^2}{4}+x_2^2-1=0$
其拉格朗日函数为
$L(x,λ)=x12+x22+λ(x124+x22−1)L(x,\lambda)=x_1^2+x_2^2+\lambda(\frac{x_1^2}{4}+x_2^2-1)$
该问题可行域在任意一点 $x=(x_1,x_2)^T$ 处的线性化可行方向锥为
$F(x)={(d1,d2)∣x14d1+x2d2=0}\mathcal{F}(x)=\{(d_1,d_2)|\frac{x_1}{4}d_1+x_2d_2=0\}$
因为只有一个等式约束且对应函数的梯度非零，故LICQ成立，且在KKT对 $(x,λ)(x,\lambda)$ 处有 $C(x,λ)=F(x)\mathcal{C}(x,\lambda)=\mathcal{F}(x)$ ，我们首先可以计算出四个KKT对
$(x∗,λ)=(2.0.−4),(−2,0,−4),(0,1,−1),(0,−1,−1)(x^*,\lambda)=(2.0.-4),(-2,0,-4),(0,1,-1),(0,-1,-1)$
我们就考虑第一个KKT对 $y=(2,0,-4)^T$ 和第三个KKT对 $z=(0,1,-1)^T$
$∇xx2L(y)=[000−6]，C(y)={d1,d2∣d1=0}\nabla_{xx}^2L(y)= \left[ \begin{matrix} 0 & 0\\ 0 & -6\\ \end{matrix} \right] ，\mathcal{C}(y)=\{{d_1,d_2|d_1=0}\}$
取 $d = (0, 1)$ ，则
$dT∇xx2L(y)d=−6<0d^T\nabla_{xx}^2L(y)d=-6<0$
因此y不是局部最优点
对于z
$∇xx2L(z)=[32000]，C(y)={d1,d2∣d2=0}\nabla_{xx}^2L(z)= \left[ \begin{matrix} \frac{3}{2} & 0\\ 0 & 0\\ \end{matrix} \right] ，\mathcal{C}(y)=\{{d_1,d_2|d_2=0}\}$
对于任意的 $d=(d_1,0)$ ，且 $d1≠0d_1\not=0$
$dT∇xx2L(z)d=32d12>0d^T\nabla_{xx}^2L(z)d=\frac{3}{2}d_1^2>0$
因此，z为一个严格局部最优点

5.6 带约束凸优化问题的最优性理论

在实际问题中，优化问题5.4.1的目标函数和约束函数往往是凸的（可能不微分），比如稀疏优化问题，低秩矩阵恢复问题，矩阵分离问题以及回归分析中的问题，我们考虑如下形式的凸优化问题
$,m,Ax=b(5.6.1)\min_{x{\in}D}\quad{f(x)},\\ s.t.{\quad}c_i(x){\le}0, {\quad}i=1,2,\cdots,m,\\ Ax=b\tag{5.6.1}$
其中 $f (x)$ 为适当的凸函数， $,mc_i(x),i=1,2,\cdots,m$ 是凸函数且 $dom c_i=R^n$ ,以及 $A∈Rp×n,b∈RpA{\in}R^{p \times n},b{\in}R^p$ 是已知的，我们用集合 $D\mathcal{D}$ 表示自变量 $x$ 的自然定义域，即
$D=domf={x∣f(x)<−∞}\mathcal{D}=domf=\{x|f(x)<-\infty\}$
自变量 $x$ 除了受到自然定义域的约束之外，还需要受到约束的限制，我们定义可行域
$,m;Ax=b}X=\{x{\in}\mathcal{D}:c_i(x){\le}0,i=1,2,\cdots,m;Ax=b\}$
注意，由于凸优化问题的可行域是凸集，因此等式约束只可能是线性的，凸优化问题5.6.1有很多很好的性质，一个自然的问题是：我们能否像研究无约束问题那样找到该问题最优解的一阶充要条件？如果这样的条件存在，它在什么样的约束品性下成立？

5.6.1 Slater约束品性与强对偶原理

通常情况下，优化问题的对偶间隙都是大于0的，即强对偶原理不满足，但是，对于很多凸优化问题，在特定约束品性满足的情况下可以证明强对偶原理。
简单直观的一种约束品性是存在满足所有约束条件的严格可行解，首先，我们给出集合 $D\mathcal{D}$ 的相对内点集 $relintDrelint\mathcal{D}$ 的定义
定义5.13（相对内点集）给定集合 $D\mathcal{D}$ ,记其仿射包为 $affineDaffine\mathcal{D}$ (见2.14)，集合 $mathcal{D}$ 的相对内点集定义为
$relintD={x∈D∣∃r>0,使得B(x,r)∩affineD⊆D}relint\mathcal{D}=\{x{\in}\mathcal{D}|\exists{r>0},使得B(x,r){\cap}affine\mathcal{D}{\subseteq\mathcal{D}}\}$

相对内点是内点的推广，我们知道若是 $x$ 是集合 $D∈Rn\mathcal{D}{\in}R^n$ 的内点，则存在一个以 $x$ 为球心的 $n$ 球含于集合 $D\mathcal{D}$ ，若 $D\mathcal{D}$ 本身的“维数”较低，则 $D\mathcal{D}$ 不可能有内点，但如果在它的仿射包 $affineDaffine\mathcal{D}$ 中考虑，则 $D\mathcal{D}$ 可能有相对内点。
借助相对内点的定义，我们给出 $Sl a t er$ 约束品性
定义5.14（ $Sl a t er$ 约束品性）若对凸优化问题（5.6.1），存在 $x∈relintDx{\in}relint\mathcal{D}$ 满足
$,m,Ax=bc_i(x)<0,\quad{i=1,2,\cdots,m},\quad{Ax=b}$
则称对此问题 $Sl a t er$ 约束品性满足，有时也称该约束品性为 $Sl a t er$ 条件
$Sl a t er$ 约束品性实际上是要求自然定义域 $D\mathcal{D}$ 的相对内点中存在使得不等式约束严格成立的点，对于很多凸优化问题，自然定义域 $D\mathcal{D}$ 的仿射包 $affineD=Rnaffine{\mathcal{D}}=R^n$ ,在这种情况下 $Sl a t er$ 条件中的相对内点就是内点
注5.2 当一些不等式约束是仿射函数时， $Sl a t er$ 条件可以适当放宽，不妨假设前 $k$ 个不等式约束是仿射函数，此时 $Sl a t er$ 约束品性可变为：存在 $x∈relintDx{\in}relint\mathcal{D}$ 满足
$,m;Ax=bc_i(x){\le}0,{\quad}i=1,2,\cdots,k;\\ c_i(x)<0,{\quad}i=k+1,k+2,\cdots,m;Ax=b$

若凸优化问题5.6.1满足 $Sl a t er$ 条件，一个很重要的结论就是强对偶原理成立。此外当 $d∗>−∞d^*>-\infty$ 时，对偶问题的最优解可以取到
定理5.12，如果凸优化问题5.6.1满足 $Sl a t er$ 条件，则强对偶原理成立

5.6.2 一阶充要条件

对于一般的约束优化问题，当问题满足特定约束品性时，我们知道KKT 条件是局部最优解的必要条件。而对于凸优化问题，当 $Sl a t er$ 条件满足时，KKT条件则变为局部最优解的充要条件（根据凸性，局部最优解也是全局最优解），我们有如下定理
定理5.13（凸问题KKT条件）对于凸优化问题（5.6.1），如果 $Sl a t er$ 条件成立，那么 $x∗,λ∗x^*,\lambda^*$ 分别是原始、对偶全局最优解当且仅当
$稳定性条件0∈∂f(x∗)+∑i∈I∪ελi∗∂ci(x∗)+∑i∈ελi∗ai原始可行性条件Ax∗=b,∀i∈ε原始可行性条件ci(x∗)≤0,∀i∈I对偶可行性条件λi∗≥0,∀i∈I互补松弛条件λi∗ci(x∗)=0,∀iI(5.6.6)稳定性条件\quad0{\in}\partial{f(x^*)}+\sum_{i{\in}\mathcal{I}\cup{\varepsilon}}\lambda_i^*\partial{c_i(x^*)+\sum_{i{\in}\varepsilon}\lambda_i^*a_i}\\ 原始可行性条件\quad{Ax^*=b,\forall{i}{\in}\varepsilon}\\ 原始可行性条件\quad{c_i(x^*){\le}0,\forall{i{\in}\mathcal{I}}}\\ 对偶可行性条件\quad{\lambda_i^*{\ge0},\forall{i}}{\in}\mathcal{I}\\ 互补松弛条件\quad{\lambda_i^*c_i(x^*)=0,\forall{i{\mathcal{I}}}}\tag{5.6.6}$

在这里条件5.5.6和5.5.8略有不同，凸优化问题中没有假设 $f (x)$ 和 $c_i(x)$ 是可微函数，因此我们在这里使用的是次梯度，当 $f (x)$ 和 $c_i(x)$ 都是凸可微函数时，条件5.6.6就是条件5.5.8
定理5.13的充分性比较容易说明，我们假设存在 $(xˉ,λˉ)(\bar{x},\bar{\lambda})$ 满足KKT条件5.5.6，我们考虑凸优化问题的拉格朗日函数
$L(x,λ)=f(x)+∑i∈Iλici(x)+∑i∈ελi(aiTx−bi)L(x,\lambda)=f(x)+\sum_{i{\in}\mathcal{I}}\lambda_ic_i(x)+\sum_{i{\in}\varepsilon}\lambda_i(a_i^Tx-b_i)$
当固定 $λ=λˉ\lambda=\bar{\lambda}$ 时，注意到 $λiˉ≥0,i∈I\bar{\lambda_i}{\ge}0,i{\in}\mathcal{I}$ 以及 $λiˉ(aiT,x),i∈ε\bar{\lambda_i}(a_i^T,x),i{\in}\varepsilon$ 是线性函数可知 $L(x,λˉ)L(x,\bar{\lambda})$ 是关于 $x$ 的凸函数。由凸函数全局最优点的一阶充要性可知，此时 $xˉ\bar{x}$ 就是 $L(x,λˉ)L(x,\bar{\lambda})$ 的全局极小点，根据拉格朗日定义
$L(xˉ,λˉ)=inf⁡x∈DL(x,λˉ)=g(λˉ)L(\bar{x},\bar{\lambda})=\inf_{x{\in}D}L(x,\bar{\lambda})=g(\bar{\lambda})$
根据原始可行性条件 $Axˉ=bA\bar{x}=b$ 以及互补松弛条件 $λiˉci(xˉ)=0,i∈I\bar{\lambda_i}c_i(\bar{x})=0,i{\in}\mathcal{I}$ 可以得到
$L(xˉ,λˉ)=f(xˉ)+0+0=f(xˉ)L(\bar{x},\bar{\lambda})=f(\bar{x})+0+0=f(\bar{x})$
根据弱对偶原理
$L(xˉ,λˉ)=f(xˉ)≥p∗≥d∗≥g(λˉ)(5.6.7)L(\bar{x},\bar{\lambda})=f(\bar{x}){\ge}p^*{\ge}d^*{\ge}g(\bar{\lambda})\tag{5.6.7}$
由于 $L(xˉ,λˉ)=g(λˉ)L(\bar{x},\bar{\lambda})=g(\bar{\lambda})$ ，由于我们有 $p^*=d^*$ 且 $xˉ,λˉ\bar{x},\bar{\lambda}$ 分别是原始问题和对偶问题的最优解。

注意，在充分性部分的证明中，我们没有使用 $Sl a t er$ 条件，这是因为在证明一开始假设了KKT点是存在的。 $Sl a t er$ 条件的意义在于当问题5.6.1最优解存在时，其相应的KKT条件也会得到满足，换句话说，当 $Sl a t er$ 条件不满足时，即使原始问题存在全局极小值点，也可能不存在 $(x∗,λ∗)(x^*,\lambda^*)$ 满足KKT条件5.6.6
定理5.13必要性证明比较复杂，不在这做阐述。