最优化理论总结&算法索引

最新推荐文章于 2026-04-16 02:30:06 发布

原创最新推荐文章于 2026-04-16 02:30:06 发布 · 2.4k 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

数理基础

本文概述了最优化理论的基础，包括线性规划的对偶理论和非线性规划的最优性条件，以及相关算法如单纯形法、对偶单纯形法、模式搜索法等。还介绍了KKT条件在解决约束条件下的优化问题中的应用。

由于最优化理论是许多算法的基础，因此本文在这里简单梳理了一下最优化相关的重要知识点以及算法分类，以供需要时查询使用。

一、最优化理论基础

1.线性规划中的对偶理论：

典型线性规划问题

$min$ $cx$

$s.t.$ $Ax\geqslant b,x\geqslant 0.$

及其对偶问题

$max$ $wb$

$s.t.$ $wA\leqslant c,w\geqslant 0.$

或

$max$ $bw$

$s.t.$ $A^{T}w\leqslant c,w\geqslant 0.$

满足：i)若原问题与其对偶问题中有一个问题存在最优解,则另一个问题也存在最优解,且两个问题的目标函数的最优值相等（并且两个问题的目标值会以相反的方向逐渐逼近直至相等）。

ii) [互补松弛性质] 设 $x^{(0)}$ 和 $w^{(0)}$ 分别是原问题和对偶问题的可行解，那么 $x^{(0)}$ 和 $w^{(0)}$ 都是最优解的充要条件是，对所有i和j，下列关系成立：

如果 $x_{j}^{(0)}> 0$ ，就有 $w^{(0)}p_{j}=c_{j}$ ；

如果 $w^{(0)}p_{j}< c_{j}$ ，就有 $x_{j}^{(0)}= 0$ ；

如果 $w_{j}^{(0)}> 0$ ，就有 $A_{i}x^{(0)}=b_{i}$ ；

如果 $A_{i}x^{(0)}> b_{i}$ ，就有 $w_{j}^{(0)}= 0$ ；

上述两个定理是线性规划对偶方法的基础，在对偶单纯形、路径跟踪法等算法中常用 i) ，通过交替求解原问题和对偶问题来从一个基础可行 or 对偶可行解出发逐步趋近最优解；而 ii) 则是原问题与对偶问题之间的相当有用的性质，以此作为引申，可以得到在有约束条件下的KKT条件，并以此求解一些非线性且带约束条件的问题，如Lagrange法等。

2.非线性规划中的最优性条件

(1)无约束问题 $min$ $f(x)$

一阶条件：①设函数 $f(x)$ 在点 $\bar{x}$ 可微，若 $\bar{x}$ 是局部极小点，则梯度∇ $f(\bar{x})=0$ .

②设函数 $f(x)$ 在点 $\bar{x}$ 处二次可微，若 $\bar{x}$ 是局部极小点，则梯度∇ $f(\bar{x})=0$ ，且 $Hesse$ 矩阵∇ $^{2}f(\bar{x})$ 半正定.

二阶充分条件：①设函数. $f(x)$ 在点 $\bar{x}$ 处二次可微，若梯度∇ $f(\bar{x})=0$ ，且 $Hesse$ 矩阵∇ $^{2}f(\bar{x})$ 正定，则 $\bar{x}$ 是局部极小点.

充要条件：①设 $f(x)$ 是定义在 $\Re ^{n}$ 上的可微凸函数， $\bar{x}\in \Re ^{n}$ ，则 $\bar{x}$ 为全局极小点的充分必要条件是梯度∇ $f(\bar{x})=0$ .

(2)约束极值问题 $min$ $f(x)$ $s.t.$ $g_{i}(x)\geqslant 0,i=1,...,m$ $h_{i}(x)= 0,j=1,...,l$

一阶条件：①设 $\bar{x}$ 为可行点， $I=\{\i|g_{i}(\bar{x})=0\}$ 为不等式相关的起作用约束集， $f(x)$ 和 $g_{i}(x)$ $(i\in I)$ 在 $\bar{x}$ 可微， $g_{i}(x)$ $(i\notin I)$ 在 $\bar{x}$ 连续， $h_{l}(x)$ $(j=1,...,l)$ 在 $\bar{x}$ 连续可微，且 $\bigtriangledown h_{1}(x)$ ， $\bigtriangledown h_{2}(x)$ ，...， $\bigtriangledown h_{l}(x)$ 线性无关。如果 $\bar{x}$ 是该问题的局部最优解，则在 $\bar{x}$ 处，有：

$F_{0}\cap G_{0}\cap H_{0}=\phi$ .

其中 $F_{0}=\left\{d|$ $\bigtriangledown f(\bar{x})^{T}d< 0 \}\right.$$$ ， $G_{0}=\left\{d|$ $\bigtriangledown g_{i}(\bar{x})^{T}d> 0,i\in I \}\right.$$$ ， $H_{0}=\left\{d|$ $\bigtriangledown h_{j}(\bar{x})^{T}d= 0,j=1,2,...,l \}\right.$$$

②设在该问题中， $f$ 是凸函数， $g_{i}$ $(i=1,...,m)$ 是凸函数， $h_{i}$ $(j=1,...,l)$ 是线性函数， $S$ 是可行域， $\bar{x}\in S$ ， $I=\{i|g_{i}(\bar{x})=0\}$ ，且在 $\bar{x}$ 处K-T条件成立，即存在 $w_{i}\geqslant 0$ $(i\in I)$ 及 $v_{j}$ $(j=1,...,l)$ 使得

$\bigtriangledown f(\bar{x})-\sum _{i\in I}w_{i}\bigtriangledown g_{i}(\bar{x})-\sum _{j=1}^{l}v_{j}\bigtriangledown h_{j}(\bar{x})=0$

则 $\bar{x}$ 为全局最优解。

K-T条件： ①设 $\bar{x}\in S$ ， $f(x)$ 和 $g_{i}(x)$ $(i\in I)$ 在 $\bar{x}$ 可微， $g_{i}(x)$ $(i\notin I)$ 在 $\bar{x}$ 连续， $\left\{$ ∇ $g_{i}(\bar{x}),i\in I \}\right.$$$ 线性无关，若 $\bar{x}$ 是局部最优解，则存在非负数 $w_{i}$ ， $i\in I$ ，使得

$\left\{\begin{array}{c} \bigtriangledown f(\bar{x})-\sum _{i=1}^{m}w_{i}\bigtriangledown g_{i}(\bar{x})-\sum _{j=1}^{l}v_{j}\bigtriangledown h_{j}(\bar{x})=0\\ w_{i}g_{i}(\bar{x})=0,i=1,...,m\\ w_{i}\geqslant 0,i=1,...,m \end{array}\right.$

其中，第二、三条为互补松弛条件。

上式可以等价为：

$\left\{\begin{array}{c} \bigtriangledown_{x}L(x,w,v)=0\\ g_{i}(x)\geqslant 0,i=1,...,m\\ h_{j}(x)=0,j=1,...,l\\ w_{i}g_{i}(\bar{x})=0,i=1,...,m\\ w_{i}\geqslant 0,i=1,...,m \end{array}\right.$

二阶必要条件：①设 $\bar{x}$ 是该问题的局部最优解， $f$ ， $g_{i}(i=1,2,...,m)$ ， $h_{j}(j=1,2,...,l)$ 二次连续可微，并存在满足K-T条件的 $\bar{w}$ 和 $\bar{v}$ ,再假设在点 $\bar{x}$ 向量组 $\bigtriangledown g_{i}(\bar{x})(i\in I)$ ， $\bigtriangledown h_{j}(\bar{x})(j=1,2,...,l)$ 线性无关，则对每一个向量 $d\in \bar{G}$ ，都有

$d^{T}\bigtriangledown _{x}^{2}L(\bar{x},\bar{w},\bar{v})d\geqslant 0$

其中， $\bigtriangledown _{x}^{2}L(\bar{x},\bar{w},\bar{v})=\bigtriangledown ^{2}f(\bar{x})-\sum_{i=1}^{m}\bar{w}_{i}\bigtriangledown ^{2}g_{i}(\bar{x})-\sum_{j=1}^{l}\bar{v}_{j}\bigtriangledown ^{2}h_{j}(\bar{x})$ 是Lagrange函数 $L(x,w,v)$ 在点 $\bar{x}$ 关于 $x$ 的 $Hessa$ 矩阵。

二阶充分条件：①设在该问题中， $f$ ， $g_{i}(i=1,2,...,m)$ ， $h_{j}(j=1,2,...,l)$ 二次连续可微， $\bar{x}$ 为可行点，存在乘子 $\bar{w}=(\bar{w}_{1},\bar{w}_{2},...,\bar{w}_{m})$ 和 $\bar{v}=(\bar{v}_{1},\bar{v}_{2},...,\bar{v}_{l})$ 使K-T条件成立，且对每个向量 $d\in G$ ，都有

$d^{T}\bigtriangledown _{x}^{2}L(\bar{x},\bar{w},\bar{v})d\geqslant 0$

其中： $G=\left \{ d\mid $$\left\{\begin{array}{c} d\neq 0\\ \bigtriangledown g_{i}(\bar{x})^{T}d=0,i\in I,\bar{w}_{i}> 0\\ \bigtriangledown g_{i}(\bar{x})^{T}d\geq 0,i\in I,\bar{w}_{i}= 0\\ \bigtriangledown h_{j}(\bar{x})^{T}d=0,j=1,2,...,l\end{array}\right.$$ \right \}$

则 $\bar{x}$ 是严格局部最优解。

综上，对于凸规划的问题，仅需判断一阶条件就可以找到极值点(梯度 or K-T条件)；否则结合二阶条件来进行判(Hesse阵 or $L(x,w,v)$ 的Hesse阵)

二、最优化理论相关算法索引

1.线性规划问题

(1)针对一般的线性规划问题，可以采用单纯形法、对偶单纯形法以及路径跟踪法进行求解。

(2)形如

$min$ $\Sigma _{i=1}^{m}\Sigma _{j=1}^{n}c_{ij}x_{ij}$

$s.t.$ $\Sigma _{j=1}^{n}x_{ij}=a_{i},i=1,2,...,m,$

$\Sigma _{i=1}^{m}x_{ij}=b_{j},j=1,2,...,n,$

$x_{ij}\geqslant 0,i=1,...,m;j=1,...,n.$

的问题，则可以采用表上作业法进行快速求解。

2.非线性规划问题

(1)对于无约束的非线性规划问题，直接采用基于导数(最速下降法、牛顿法、共轭梯度法，最小二乘法等及其变体)或仿基于导数(模式搜索法，Rosenbrock法等)的方法进行求解。其一般思路是：寻找到一个方向，使得沿该方向上行进具有使函数梯度下降的趋势，然后求解得到步长，决定一次的行进距离。按此方法反复进行迭代，直到目标参量收敛到一定值以下。

(2)对于有约束条件的非线性规划问题，一种是建立Larange方程，然后再利用无约束的方法进行求解，如外点法、内点法以及乘子法等；另一种则是利用K-T条件进行求解：Zoutendijk法将原非线性规划问题按照K-T条件等价为一个线性规划问题，然后利用单纯形法进行求解；Rosen梯度投影法则是将非线性函数的梯度投影到起作用约束的零空间上，以此作为下降方向，然后按照与导数方法类似的情况进行求解；除此之外，当约束仅存在 $h_{j}(j=1,2,...,l)$ ，即等式约束时，可以利用Wolfe既约梯度法将原非线性方程消元，再按照无约束的情况进行求解。

参考书目：

1.《最优化理论与算法第2版》陈宝林

2.《Engineering Optimization Theoryand Practice》 SINGIRESU S. RAO

标签

#算法 #最优化理论 #线性规划 #KKT条件