Softmax回归

最新推荐文章于 2026-06-15 23:18:04 发布

原创最新推荐文章于 2026-06-15 23:18:04 发布 · 237 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#回归 #数据挖掘 #人工智能

机器学习专栏收录该内容

9 篇文章

订阅专栏

文章目录

一、Softmax回归是什么？
二、实现方式详解
三、优缺点分析
- 优点
- 缺点
四、和逻辑回归的关系
Softmax 回归，为啥不直接比较分数，还再转成概率，比较概率？
- 补充：Softmax 指数还有两个关键作用
最后:Softmax 回归完整流程

一、Softmax回归是什么？

Softmax回归，也叫多项逻辑回归，是逻辑回归在多分类问题上的直接扩展。

逻辑回归只能处理二分类（是/否、正/负）；
Softmax回归可以直接处理多分类（比如三分类、十分类，甚至更多类别）。

它的核心思想是：用一个模型，把输入映射成每个类别的概率分布（所有类别的概率和为 1），然后选概率最大的类别作为预测结果。
在这里插入图片描述

二、实现方式详解

2. 模型输出

如果有 $C$ 个类别，模型会对每个输入 $x$ 输出 $C$ 个"分数"（也叫 logits），记为 $s_1, s_2, \ldots, s_C$ ，其中：

$s_j = \beta_j^T x$

这里的 $\beta_j$ 就是第 $j$ 个类别对应的模型参数向量。

3.Softmax 函数：把分数变成概率

为了把这些分数变成合法的概率（非负、和为 1），用 Softmax 函数做归一化：
$\frac{e^{\beta_c^T x}}{\sum_{j=1}^{C} e^{\beta_j^T x}}$

分子：当前类别 $c$ 的分数取指数 $e^{\beta_c^T x}$ ；
分母：所有 $C$ 个类别的分数取指数后求和，起到归一化的作用；
结果：得到的 $P (y = c ∣ x)$ 就是输入 $x$ 被预测为类别 $c$ 的概率，且 $\sum_{c=1}^{C} P(y = c|x)$

4. 预测过程

对输入 $x$ ，用模型算出所有类别的概率，直接选概率最大的类别作为预测结果：
$\hat{y}=\arg\max_{c=1,\dots,C} P(y = c|x)$

结合指数函数图像，已知 $v = e^u$ , 另 $u$ = $\beta_j^T x$ ， $u$ 表示打的分数，通过以e为底的指数函数转换后，保证及时是负数和或0的分数，对应的转换后的分数值都在0到1的区间内，对于 $u$ 为正数的分数，以e为底的指数函数会放大，分数大的值，让原始分数高的值，经过指数转换后进行了放大。这样就能保证原始分数在 $(-\infty, +\infty)$ 的区间内，经过指数函数转换后都能映射到 $+\infty)$ 。结合指数函数图像特点，在定义域 $(-\infty, +\infty)$ 内单调递增，而且在 $(-\infty, 0)$ 上，将大负数分数或小正数分数的分数进行惩罚(进行抑制)(将其转换为（0,1]的分数范围内)，在 $+\infty)$ 上，对大正数分数进行奖励(进行放大)(对应的指数函数值，也就是转换后的分数值越大)，所以说这是此处使用指数函数的原因。
这里的分数：指的就是打的分数。

2. 损失函数：交叉熵损失

Softmax 回归用的是多分类交叉熵损失，公式如下：

$-\frac{1}{n} \sum_{i=1}^{n} \sum_{c=1}^{C} I(y_i = c) \log P(y_i = c | x_i)$
我们把它拆开来解释：

$n$ ：样本总数；
$I(y_i = c)$ ：示性函数，当第 $i$ 个样本的真实标签 $y_i$ 等于类别 $c$ 时，值为 1；否则为 0；
内层求和 $\sum_{c=1}^{C} I(y_i = c) \log P(y_i = c | x_i)$ ：

因为只有当 $c = y_i$ 时，示性函数才为 1，所以这个求和其实只保留了真实类别对应的概率的对数，也就是 $log P(y_i | x_i)$ ；
外层求和 $\sum_{i=1}^{n}$ ：把所有样本的损失加起来；
前面的负号和平均： $-\frac{1}{n}$ 是为了让损失为正数，并做样本平均，方便梯度下降优化。

简单来说，这个损失函数的目标就是：让模型对真实类别的预测概率尽可能接近 1。当预测完全正确时， $P(y_i | x_i) = 1$ ，损失为 0；预测越不准，损失越大。
在这里插入图片描述
这里的 $\log v$ ，令 $v$ = $P(y_i = c | x_i)$ , 因为 $P(y_i = c | x_i)$ 是分数归一化后的概率，其值在[0,1]区间内，结合对数函数的图像，其对应的 $v$ 在 $(-\infty, 0)$ ,故使用 $v$ 来表示损失，因为 $v$ 在[0,1]区间内，越靠近0时，表示其此时的概率越低，对应的 $u$ 的标量值越大(先不考虑负号)，当 $v$ 在[0,1]区间内，越靠近1时，表示其此时的概率越高，对应的 $u$ 的标量值越小(先先不考虑负号)。因为Loss中的， $\frac{1}{n}$ 前有一个负号，故累计后的负值的损失函数的值也是正值，所以损失函数还是一个向下凸的一个碗型，通过梯度下降法的迭代训练，可以学到最优的一组 $\beta$ 。

三、优缺点分析

优点

1. 只训练 1 个模型，计算高效
相比一对多需要训练 $C$ 个二分类器，Softmax 回归只训练 1 个模型，训练和预测时的计算量、存储成本都更低。

2. 分类一致性更好
一对多策略可能会出现多个分类器同时判定为正类的冲突情况；而 Softmax 回归直接输出所有类别的概率分布，天然保证“有且只有一个最优类别”，不会出现冲突。

缺点

1. Softmax 计算的开销
计算 Softmax 时，需要对所有类别的分数取指数再求和。当类别数 $C$ 很大时（比如上千个类别），指数运算和求和的计算量会显著增加。

（补充）对“不相关类别”敏感：如果数据集中混入了完全不相关的类别，会拉低所有类别的概率，影响模型表现。

四、和逻辑回归的关系

当类别数 $C = 2$ 时，Softmax 回归就退化成了普通的二分类逻辑回归：
$\frac{e^{\beta_1^T x}}{e^{\beta_1^T x}+e^{\beta_2^T x}} = \frac{1}{1+e^{(\beta_2-\beta_1)^T x}}$
这和逻辑回归的 sigmoid 形式完全一致，只是参数表示方式不同而已。