机器学习----支持向量机（软间隔与正则化）

最新推荐文章于 2025-09-09 09:24:08 发布

原创最新推荐文章于 2025-09-09 09:24:08 发布 · 2.6k 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#机器学习 #svm

machine-learning 专栏收录该内容

24 篇文章

订阅专栏

本文探讨了在机器学习中，面对线性不可分或过拟合问题时，如何通过引入软间隔（Soft Margin）来允许支持向量机在部分样本上出错。内容涉及了hinge损失、指数损失和对率损失等不同损失函数，并介绍了正则化在缓解过拟合问题中的作用。

Soft Margin

前面的假设一直都是线性可分，可是如果对所有样本不能线性可分（比如有noisy）怎么办？或者过拟合怎么办？

缓解该问题的一个方法就是允许支持向量机在一些样本上出错，为此引入软间隔(soft margin)这个概念。即允许在一些样本上出错，可以有些样本不满足：

y i (θ T x i + b) \geq 1

$y_i(\theta^{\mathop{T}} x_i+b)\geq1$
所以优化目标写成：

m i n θ, b 1 2 | | θ | | 2 + C \sum i = 1 p ℓ 0 / 1 (y i (θ T x i + b) - 1) ✿

$\mathop{min}_{\theta,b}\frac{1}{2}||\theta||^2+C\sum_{i=1}^{p}\ell_{0/1}(y_i(\theta^{\mathop{T}} x_i+b)-1)　　　✿$
其中C>0是个常数，

ℓ0/1 $\ell_{0/1}$ 是“0/1损失函数”。

ℓ0/1(z) $\ell_{0/1}(z)$ 在z小于0时候为1，其余为0.

然而 $\ell_{0/1}$ 非凸，非连续，数学性质不好，常用其他函数替代。如

hinge损失: $\ell_{hinge}(z)=max(0,1-z)$
指数损失(exponential loss): $\ell_{exp}(z)=exp(-z)$
对率损失(logistic loss): $\ell_{log}(1+exp{-z})$

若采用hinge loss，则✿变成：

m i n θ, b 1 2 | | θ | | 2 + C \sum i = 1 p m a x (0, 1 - (y i (θ T x i + b))

$\mathop{min}_{\theta,b}\frac{1}{2}||\theta||^2+C\sum_{i=1}^{p}max(0,1-(y_i(\theta^{\mathop{T}} x_i+b))$
引入“松弛变量”

ξ≥0 $\xi\geq0$ ，重写成：

m i n θ, b, ξ i 1 2 | | θ | | 2 + C \sum 1 p ξ i s . t . y i (θ T x i + b) \geq 1 - ξ i ξ i \geq 0, i = 1, 2, . . ., p

$\mathop{min}_{\theta,b,\xi_i}\frac{1}{2}||\theta||^2+C\sum_{1}^{p}\xi_i\\ s.t.　y_i(\theta^{\mathop{T}} x_i+b)\geq1-\xi_i\\ \xi_i\geq0,　i=1,2,...,p$
这就是常用的“软间隔支持向量机”。求解过程略。

Regularization

我们把✿写成一般的形式：

m i n f Ω (f) + C \sum i = 1 p ℓ (f (x i), y i)

$\mathop{min}_f　\Omega(f)+C\sum_{i=1}^{p}\ell(f(x_i),y_i)$
其实这是机器学习的一个通式，整个统计机器学习都是在玩这个。

ℓ $\ell$ 是logistic loss就是logistic回归，

ℓ $\ell$ 是hinge loss就是SVM。我们把

∑pi=1ℓ(f(xi),yi) $\sum_{i=1}^p\ell(f(x_i),y_i)$ 叫做“经验风险”（empirical risk），用于描述模型与训练数据的切合程度。

Ω(f) $\Omega(f)$ 叫做“结构风险”（structural risk），用与描述模型f的某些性质，一般成为正则化项，表述我们希望获得具有何种性质的模型（例如希望获得复杂度较小的模型），这为引入领域知识和用户意图提供了途径。C称为正则化常数，平衡结构风险和经验风险。

Lp $L_p$ 范数是常用的正则化项，其中

L2 $L_2$ 范数倾向与

θ $\theta$ 的分量取值尽量均衡，即非零分量个数尽量稠密，而

L0 $L_0$ 和

L1 $L_1$ 范数则倾向于

θ $\theta$ 的分量尽量稀疏，即非零个数尽量少。