逻辑回归的总结

一、什么是逻辑回归

逻辑回归(Logistic Regression)是一种用于解决分类问题的统计方法,尤其适用于二分类问题。尽管名称中有“回归”,但它主要用于分类任务。
逻辑回归通过将线性回归的输出映射到[0,1]区间,来表示某个类别的概率
常用的映射函数是sigmoid函数: f ( x ) = 1 1 + e − x f(x)=\frac{1}{1+e^{-x}} f(x)=1+ex1,其导数 f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f'(x)=f(x)(1-f(x)) f(x)=f(x)(1f(x))
sigmoid函数图像如下:
在这里插入图片描述
从上方sigmoid函数的图像上看,此函数是单调递增,处处可导,横轴x的取值范围是 [ − ∞ , + ∞ ] [-\infty, +\infty] [,+],而纵轴y的取值范围 ( 0 , 1 ) (0,1) (0,1)
故横轴表示为线性回归输出结果,纵轴表示为类别的概率。

逻辑回归结果可表示为:
P ( y = 1 ∣ x ) = 1 1 + e − ( β 0 + β 1 x 1 + β 2 x 2 + … + β n x n ) P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n)}} P(y=1∣x)=1+e(β0+β1x1+β2x2++βnxn)1

其中 β 0 + β 1 x 1 + β 2 x 2 + … + β n x n \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n β0+β1x1+β2x2++βnxn 为线性回归输出结果, P ( y = 1 ∣ x ; β ) P(y=1 \mid x; \beta) P(y=1x;β) 表示输出为1类的概率。根据逻辑回归结果和阈值来确认最终预测结果,若逻辑回归结果大于阈值则输出为1类,反之输出为0类。
在这里插入图片描述

二、 逻辑回归应用场景

  • 信用评分:预测客户是否会违约(违约/不违约)。
  • 欺诈检测:预测某笔交易是否是欺诈行为。
  • 垃圾邮件检测:预测一封邮件是否是垃圾邮件(垃圾邮件/非垃圾邮件)。
  • 广告点击预测:预测用户是否会点击某个广告(点击/不点击)。
  • 图像分类:将图像分类为不同的类别(如猫、狗、鸟等)。
  • 情感分析:将文本分类为正面、负面或中性情感。
  • 产品质量分类:预测产品是否合格。
  • 医学诊断:预测患者是否患有某种疾病(患病/未患病)。
  • 蛋白质功能预测:基于蛋白质序列和结构特征预测其功能类别。

三、逻辑回归损失函数

逻辑回归的损失函数通常使用对数损失(Log Loss),也称为二元交叉熵损失(Binary Cross-Entropy Loss),用于衡量模型输出的概率分布与真实标签之间的差距。逻辑回归的损失函数来源于最大似然估计(MLE)。
P(Y|X;β)表示给定输入特征 x x x和模型参数 β时,因变量 y y y发生的概率:
 P ( y = 1 ∣ x ; β ) = 1 1 + e − ( β T x ) P ( y = 0 ∣ x ; β ) = 1 − P ( y = 1 ∣ x ; β ) = 1 − 1 1 + e − ( β T x ) } → 整合 P ( y ∣ x ; β ) \left. \begin{aligned} P(y=1|x;\beta) &= \frac{1}{1+e^{-(\beta^T x)}} \\ P(y=0|x;\beta) &= 1-P(y=1|x;\beta) = 1-\frac{1}{1+e^{-(\beta^T x)}} \end{aligned} \right\} \xrightarrow{\text{整合}} P(y|x;\beta) P(y=1∣x;β)P(y=0∣x;β)=1+e(βTx)1=1P(y=1∣x;β)=11+e(βTx)1 整合 P(yx;β)

P ( y ∣ x ; β ) = P ( y = 1 ∣ x ; β ) y ( 1 − P ( y = 1 ∣ x ; β ) ) 1 − y = ( 1 1 + e − ( β T x ) ) y ( 1 − 1 1 + e − ( β T x ) ) 1 − y \begin{aligned} P(y|x;\beta) &= P(y=1|x;\beta)^y \big(1-P(y=1|x;\beta)\big)^{1-y} \\ &= \left( \frac{1}{1+e^{-(\beta^T x)}} \right)^y \left( 1-\frac{1}{1+e^{-(\beta^T x)}} \right)^{1-y} \end{aligned} P(yx;β)=P(y=1∣x;β)y(1P(y=1∣x;β))1y=(1+e(βTx)1)y(11+e(βTx)1)1y

似然函数L( β β β)表示已知 y y y的结果,此时模型参数为 β β β的概率:
对于 1 个样本:
L ( β ) = P ( y ∣ x ; β ) = P ( y = 1 ∣ x ; β ) y ( 1 − P ( y = 1 ∣ x ; β ) ) 1 − y L(\beta) = P(y|x;\beta) = P(y=1|x;\beta)^y \big(1-P(y=1|x;\beta)\big)^{1-y} L(β)=P(yx;β)=P(y=1∣x;β)y(1P(y=1∣x;β))1y

对于 n n n 个样本:
L ( β ) = ∏ i = 1 n P ( y i ∣ x i ; β ) = ∏ i = 1 n P ( y i = 1 ∣ x i ; β ) y i ( 1 − P ( y i = 1 ∣ x i ; β ) ) 1 − y i L(\beta) = \prod_{i=1}^n P(y_i|x_i;\beta) = \prod_{i=1}^n P(y_i=1|x_i;\beta)^{y_i} \big(1-P(y_i=1|x_i;\beta)\big)^{1-y_i} L(β)=i=1nP(yixi;β)=i=1nP(yi=1∣xi;β)yi(1P(yi=1∣xi;β))1yi

取对数似然:
log ⁡ L ( β ) = ∑ i = 1 n ( y i log ⁡ P ( y i = 1 ∣ x i ; β ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; β ) ) ) \log L(\beta) = \sum_{i=1}^n \Big(y_i\log P(y_i=1|x_i;\beta)+(1-y_i)\log\big(1-P(y_i=1|x_i;\beta)\big)\Big) logL(β)=i=1n(yilogP(yi=1∣xi;β)+(1yi)log(1P(yi=1∣xi;β)))

拟合的过程就是求解似然函数的最大值,为了方便优化,令损失函数
L o s s = − 1 n log ⁡ L ( β ) = − 1 n ∑ i = 1 n ( y i log ⁡ P ( y i = 1 ∣ x i ; β ) + ( 1 − y i ) log ⁡ ( 1 − P ( y i = 1 ∣ x i ; β ) ) ) \begin{aligned} Loss &= -\frac1n \log L(\beta) \\ &= -\frac1n\sum_{i=1}^n \Big(y_i\log P(y_i=1|x_i;\beta)+(1-y_i)\log\big(1-P(y_i=1|x_i;\beta)\big)\Big) \end{aligned} Loss=n1logL(β)=n1i=1n(yilogP(yi=1∣xi;β)+(1yi)log(1P(yi=1∣xi;β)))

来求解损失函数的最小值。

详细描述逻辑回归的损失函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

怎么推导出最终的损失函数?

在这里插入图片描述
在这里插入图片描述

一句话总结

在这里插入图片描述

β T x \beta^T x βTx,是怎样相乘的?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1 − P ( y = 1 ∣ x ; β ) 1− P(y=1|x;\beta) 1P(y=1∣x;β) 这个1减去模型预测为正类的概率,则为反类的概率 ?

在这里插入图片描述
在这里插入图片描述

从「单个样本的概率」一步步推导出逻辑回归损失函数的完整过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

L(β)是什么意思

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

n个样本是每个样本都是固定的了?和抛硬币7正3反不一样,它可能有多种组合情况?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

加个负号就变成了 min−logL(β),为啥要加负号?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

对数函数图像

在这里插入图片描述
通过图像可以看到,损失函数中的加了负号后,我们只橘红色的那条对数函数图像,图像上的x轴的[0,1]区间对应就是"模型给出的它是真实数据的概率"。在训练过程中,当概率越接近1时,表示此时模型给出的它是真实数据的概率越高,对应的损失y轴上的值也就越小。相反,当概率越接近0时,模型给出的它是真实数据的概率越低,对应的损失y轴上的值也就越大。
它是真实数据:指的就是当前某个样本对应的实际目标值。

损失函数的梯度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

这里 X X X n × ( d + 1 ) n×(d+1) n×(d+1)的样本矩阵,是什么意思

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可以写成 1 1 + e − X β \frac{1}{1+e^{-X\beta}} 1+eXβ1的形式吗?相当于给Xβ中的每个元素都加上一个sigmod函数体吗?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

均方差的损失函数都是正数,形状是一个下凸的碗型,这里的逻辑回归的损失函数始终都是负值,它的形状是什么样的?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

公式前的 − 1 n - \frac{1}{n} n1这个进行了抵消后,累加后的逻辑回归损失函数值还是正值是吗?

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

为啥规定y=1时,是这个公式 P ( y = 1 ∣ x ; β ) = 1 1 + e − ( β T x ) P(y=1|x;\beta) = \frac{1}{1+e^{-(\beta^T x)}} P(y=1∣x;β)=1+e(βTx)1,而不是y=0时是这个公式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值