逻辑回归的总结

最新推荐文章于 2026-06-15 20:32:25 发布

原创最新推荐文章于 2026-06-15 20:32:25 发布 · 265 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#逻辑回归 #算法 #机器学习

机器学习专栏收录该内容

9 篇文章

订阅专栏

文章目录

一、什么是逻辑回归
二、逻辑回归应用场景
三、逻辑回归损失函数
损失函数的梯度
为啥规定y=1时，是这个公式 $P(y=1|x;\beta) = \frac{1}{1+e^{-(\beta^T x)}}$ ，而不是y=0时是这个公式

一、什么是逻辑回归

逻辑回归（Logistic Regression）是一种用于解决分类问题的统计方法，尤其适用于二分类问题。尽管名称中有“回归”，但它主要用于分类任务。
逻辑回归通过将线性回归的输出映射到[0,1]区间，来表示某个类别的概率。
常用的映射函数是sigmoid函数： $f(x)=\frac{1}{1+e^{-x}}$ ，其导数 $f^{'} (x) = f (x) (1 - f (x))$ 。
sigmoid函数图像如下：
在这里插入图片描述
从上方sigmoid函数的图像上看，此函数是单调递增，处处可导，横轴x的取值范围是 $[-\infty, +\infty]$ ，而纵轴y的取值范围 $(0, 1)$ 。
故横轴表示为线性回归输出结果，纵轴表示为类别的概率。

逻辑回归结果可表示为：
$\frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n)}}$

其中 $\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n$ 为线性回归输出结果， $\mid x; \beta)$ 表示输出为1类的概率。根据逻辑回归结果和阈值来确认最终预测结果，若逻辑回归结果大于阈值则输出为1类，反之输出为0类。
在这里插入图片描述

二、逻辑回归应用场景

信用评分：预测客户是否会违约（违约/不违约）。
欺诈检测：预测某笔交易是否是欺诈行为。
垃圾邮件检测：预测一封邮件是否是垃圾邮件（垃圾邮件/非垃圾邮件）。
广告点击预测：预测用户是否会点击某个广告（点击/不点击）。
图像分类：将图像分类为不同的类别（如猫、狗、鸟等）。
情感分析：将文本分类为正面、负面或中性情感。
产品质量分类：预测产品是否合格。
医学诊断：预测患者是否患有某种疾病（患病/未患病）。
蛋白质功能预测：基于蛋白质序列和结构特征预测其功能类别。

三、逻辑回归损失函数

逻辑回归的损失函数通常使用对数损失（Log Loss），也称为二元交叉熵损失（Binary Cross-Entropy Loss），用于衡量模型输出的概率分布与真实标签之间的差距。逻辑回归的损失函数来源于最大似然估计（MLE）。
P（Y|X;β）表示给定输入特征 $x$ 和模型参数 β时，因变量 $y$ 发生的概率：
$\left. \begin{aligned} P(y=1|x;\beta) &= \frac{1}{1+e^{-(\beta^T x)}} \\ P(y=0|x;\beta) &= 1-P(y=1|x;\beta) = 1-\frac{1}{1+e^{-(\beta^T x)}} \end{aligned} \right\} \xrightarrow{\text{整合}} P(y|x;\beta)$

$\begin{aligned} P(y|x;\beta) &= P(y=1|x;\beta)^y \big(1-P(y=1|x;\beta)\big)^{1-y} \\ &= \left( \frac{1}{1+e^{-(\beta^T x)}} \right)^y \left( 1-\frac{1}{1+e^{-(\beta^T x)}} \right)^{1-y} \end{aligned}$

似然函数L( $β$ )表示已知 $y$ 的结果，此时模型参数为 $β$ 的概率：
对于 1 个样本：
$L(\beta) = P(y|x;\beta) = P(y=1|x;\beta)^y \big(1-P(y=1|x;\beta)\big)^{1-y}$

对于 $n$ 个样本：
$L(\beta) = \prod_{i=1}^n P(y_i|x_i;\beta) = \prod_{i=1}^n P(y_i=1|x_i;\beta)^{y_i} \big(1-P(y_i=1|x_i;\beta)\big)^{1-y_i}$

取对数似然：
$\log L(\beta) = \sum_{i=1}^n \Big(y_i\log P(y_i=1|x_i;\beta)+(1-y_i)\log\big(1-P(y_i=1|x_i;\beta)\big)\Big)$

拟合的过程就是求解似然函数的最大值，为了方便优化，令损失函数
$\begin{aligned} Loss &= -\frac1n \log L(\beta) \\ &= -\frac1n\sum_{i=1}^n \Big(y_i\log P(y_i=1|x_i;\beta)+(1-y_i)\log\big(1-P(y_i=1|x_i;\beta)\big)\Big) \end{aligned}$

来求解损失函数的最小值。

详细描述逻辑回归的损失函数

在这里插入图片描述

怎么推导出最终的损失函数？

在这里插入图片描述

一句话总结

在这里插入图片描述

$\beta^T x$ ,是怎样相乘的？

在这里插入图片描述

$P(y=1|x;\beta)$ 这个1减去模型预测为正类的概率，则为反类的概率？

在这里插入图片描述

从「单个样本的概率」一步步推导出逻辑回归损失函数的完整过程

在这里插入图片描述

L(β)是什么意思

在这里插入图片描述

n个样本是每个样本都是固定的了？和抛硬币7正3反不一样，它可能有多种组合情况？

在这里插入图片描述

加个负号就变成了 min−logL(β)，为啥要加负号？

在这里插入图片描述

对数函数图像

在这里插入图片描述
通过图像可以看到，损失函数中的加了负号后，我们只橘红色的那条对数函数图像，图像上的x轴的[0,1]区间对应就是"模型给出的它是真实数据的概率"。在训练过程中，当概率越接近1时，表示此时模型给出的它是真实数据的概率越高，对应的损失y轴上的值也就越小。相反，当概率越接近0时，模型给出的它是真实数据的概率越低，对应的损失y轴上的值也就越大。
它是真实数据:指的就是当前某个样本对应的实际目标值。