logistic regression 和 softmax regression的损失函数_mse loss logisitc regression-CSDN博客

本文探讨了logistic regression在处理概率输出时为何不适合使用MSE损失函数，并介绍了如何通过交叉熵损失函数解决这一问题。同时，文章还涉及softmax回归，说明在实际应用中通常将softmax层与回归层结合，并采用log-likelihood作为损失函数。

我们有logistic regression可以将实数域的输入映射为0到1的概率输出，能够有很好的意义。但是如果用平常的MSE（最小均方误差）就会有问题。我们来剖析这个问题：

logistic与MSE

现在有一个目标：输入0，输出1。
为了方便起见，我们现在只考虑有一个神经元

我们给定初始的权重w=0.6,b=0.9来看学习趋势，这里学习率 η=0.15，初始预测值为0.82
这里写图片描述

可以看到Cost一开始随着训练轮数的增加下降的还是蛮快的，之后平缓，符合人们的直觉。
我们再次改变权重令，w=2.0,b=2.0,初始预测值为0.98
这里写图片描述

可以看出一开始的Cost几乎是不下降的，也就是说学习得特别缓慢。为什么会出现这种情况呢，初始的权重不同为什么会导致学习速率的不同呢？我们来看logistic regression+MSE到底哪里有欠缺。

首先来看MSE的形式：

C (ω, b) = 1 2 n \sum x | | y (x) - a | | 2

$C(\omega,b ) = \frac{1}{2n}\sum_{x}||y(x)-a||^2$
由于我们的简化，现在只有一个神经元则，变成：

C (ω, b) = 1 2 | | y - a | | 2

$C(\omega,b ) = \frac{1}{2}||y-a||^2$
其中

a=σ(z),z=ωx+b $a = \sigma(z),z=\omega x+b$
分别对

ω $\omega$ ，

b $b$ 求偏导：

\partial C \partial ω = (y - σ (z)) σ' (z) x

$\frac{\partial C}{\partial \omega}=(y-\sigma(z))\sigma'(z)x$

\partial C \partial b = (y - σ (z)) σ' (z)

$\frac{\partial C}{\partial b}=(y-\sigma(z))\sigma'(z)$
上式右边带入了y=0,x=1。
改变

ω $\omega$ ,b带来的Cost的下降是与z的梯度有关系的，下面给出

σ $\sigma$ 函数的图像。可以看出值越接近1的时候，梯度是越小的。这就是为什么预测值是0.82的时候，Cost下降的很快而预测值是0.98的时候，Cost下降很慢了。

logistic和cross-entropy

关于交叉熵的知识详见这里
进过研究，人们发现用交叉熵作为损失函数就会避免这种0学习速率的问题。

考虑上述模型，引入交叉熵之后，Cost为：

C = - 1 n \sum x [y l n a + (1 - y) l n (1 - a)]

$C=-\frac{1}{n}\sum_{x}[y \mathop{ln}a+(1-y)ln(1-a)]$
其中

a=σ(z),z=ωx+b $a = \sigma(z),z=\omega x+b$

\partial C \partial ω j = - 1 n \sum x (y σ ( z ) - 1 - y 1 - σ ( z )) \partial σ \partial ω j = - 1 n \sum x (y σ ( z ) - 1 - y 1 - σ ( z )) σ' (z) x j = 1 n \sum x σ ( z ) - y σ ( z ) ( 1 - σ ( z ) ) σ' (z) x j

$\begin{align} \frac{\partial C}{\partial \omega_j}&=-\frac{1}{n}\sum_{x}(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)})\frac{\partial \sigma}{\partial \omega_j} \\&=-\frac{1}{n}\sum_x(\frac{y}{\sigma(z)}-\frac{1-y}{1-\sigma(z)})\sigma'(z)x_j \\&=\frac{1}{n}\sum_x\frac{\sigma(z)-y}{\sigma(z)(1-\sigma(z))}\sigma'(z)x_j \end{align}$
我们知道sigmod函数的导数为：