理解SVM：最大化几何间隔的目标函数-CSDN博客

SVM寻找一个能最大化数据点与超平面间隔的超平面进行分类。通过定义特征、类别、几何间隔等概念，SVM目标函数旨在确保所有数据点正确分类且间隔最大化。当超平面位于支持向量之间时，间隔达到最大，从而形成SVM的基本优化问题。

1. SVM是什么
SVM分类的原理就是找到一个超平面（假设数据是线性可分的），这个超平面满足两个要求：
1. 所有数据点被完美地分成两类
2. 所有数据点离超平面距离越远越好

2. 若干定义
为了量化以上要求，我们先定义一些概念：
feature： $x$
class： $y=+1　or　-1$
function margin: $\hat\gamma=y(w^Tx+b)$
geometrical margin: $\tilde\gamma=\frac{\hat\gamma}{\left\| w\right\|}$

3. 如何满足两个条件
(1) 要满足条件1，很简单，只需要满足 $y_i(w^Tx_i+b)>0, i=1,2,...$

(2) 要满足条件2，比较复杂，我们可以这样做：

条件2等效于：让离超平面最近的点的geometrical margin越大越好。

假设最近点的geometrical margin为 $\tilde\gamma$ ，那么自然其他点的geometrical margin都会大于 $\tilde\gamma$ 。
所以条件2
＝ $\max \tilde\gamma　s.t.　\frac{y_i(w^Tx_i+b)}{\left\| w\right\|}=\frac{\hat\gamma_i}{\left\| w\right\|}=\tilde\gamma_i\ge\tilde\gamma, i=1,2,...$
＝ $\max\frac{\hat\gamma}{\left\| w\right\|}　s.t.　y_i(w^Tx_i+b)=\hat\gamma_i\ge\hat\gamma, i=1,2,...$

若固定 $\hat\gamma=1$ 则条件2
＝ $\max\frac{1}{\left\| w\right\|}　s.t. 　y_i(w^Tx_i+b)\ge1, i=1,2,...$

其实条件2已经包含条件1，
至此，得出SVM的目标函数就是条件2：
$\max\frac{1}{\left\| w\right\|}　s.t. 　y_i(w^Tx_i+b)\ge1, i=1,2,...$

备注：
此处还可以知道为什么超平面会处于支持向量中间位置？因为如果 $\tilde\gamma$ 还不够大，那么超平面会往大的方向移动一点，一直移动到中间位置 $\tilde\gamma$ 时达到最大，如果移动超过了中间位置，那么 $\tilde\gamma$ 会又变小，因为此时距离超平面最近的点已经不是原来的那个点了。