贝叶斯公式

1 贝叶斯公式

1.1 标准公式

基础形式

P(A∣B)=P(B∣A) P(A)P(B) P(A|B) = \frac{P(B|A)\,P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

符号释义

  • P(A)P(A)P(A)先验概率,事件 AAA 发生的概率(观测结果前的已有判断)
  • P(B∣A)P(B|A)P(BA)似然,已知 AAA 发生时,BBB 发生的概率
  • P(B)P(B)P(B)边缘概率,事件 BBB 发生的总概率(归一化项)
  • P(A∣B)P(A|B)P(AB)后验概率,观测到 BBB 发生后,重新计算的 AAA 发生概率(最终结果)

1.2 全概率展开(常用实用形式)

若样本空间可划分为互斥完备事件 A1,A2,…,AnA_1,A_2,\dots,A_nA1,A2,,An,则:
P(Ai∣B)=P(B∣Ai) P(Ai)∑j=1nP(B∣Aj) P(Aj) P(A_i|B) = \frac{P(B|A_i)\,P(A_i)}{\displaystyle\sum_{j=1}^n P(B|A_j)\,P(A_j)} P(AiB)=j=1nP(BAj)P(Aj)P(BAi)P(Ai)
分母就是全概率公式
P(B)=∑j=1nP(B∣Aj) P(Aj) P(B) = \sum_{j=1}^n P(B|A_j)\,P(A_j) P(B)=j=1nP(BAj)P(Aj)


1.3 通俗理解

核心思想:用「观测到的新证据」,修正原本的判断

  1. 一开始有个初步概率(先验 P(A)P(A)P(A));
  2. 拿到新现象 BBB
  3. 结合“AAA 发生时有多大概率出现 BBB(似然)”,算出更新后的概率(后验 P(A∣B)P(A|B)P(AB))。

1.4 简单例题(直观上手)

场景

盒子里有 2 类球:

  • 盒子1(A1A_1A1):3红 1蓝
  • 盒子2(A2A_2A2):1红 3蓝
    随机选一个盒子(选到两个盒子概率均等:P(A1)=P(A2)=0.5P(A_1)=P(A_2)=0.5P(A1)=P(A2)=0.5),摸出红球(事件 BBB)。
    求:这个红球来自盒子1的概率 P(A1∣B)P(A_1|B)P(A1B)

计算

  1. 求似然
    P(B∣A1)=34P(B|A_1) = \dfrac{3}{4}P(BA1)=43P(B∣A2)=14P(B|A_2) = \dfrac{1}{4}P(BA2)=41

  2. 求全概率 P(B)P(B)P(B)

P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=34×0.5+14×0.5=0.5 P(B) = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) = \frac{3}{4}\times0.5 + \frac{1}{4}\times0.5 = 0.5 P(B)=P(BA1)P(A1)+P(BA2)P(A2)=43×0.5+41×0.5=0.5

  1. 代入贝叶斯公式
    P(A1∣B)=P(B∣A1)P(A1)P(B)=34×0.50.5=0.75 P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{\frac{3}{4}\times 0.5}{0.5} = 0.75 P(A1B)=P(B)P(BA1)P(A1)=0.543×0.5=0.75

结论:摸到红球时,它来自盒子1的概率为 75%


1.5 延伸:对数形式(机器学习常用)

概率相乘容易下溢,实际代码中常取对数转加法:
log⁡P(A∣B)=log⁡P(B∣A)+log⁡P(A)−log⁡P(B) \log P(A|B) = \log P(B|A) + \log P(A) - \log P(B) logP(AB)=logP(BA)+logP(A)logP(B)

1. 原始贝叶斯公式

P(A∣B)=P(B∣A)⋅P(A)P(B) P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

2. 两边同时取自然对数(常用 log⁡\loglog / ln⁡\lnln,对数底数不影响等式关系)

log⁡(P(A∣B))=log⁡(P(B∣A)⋅P(A)P(B)) \log\big(P(A|B)\big) = \log\left( \frac{P(B|A)\cdot P(A)}{P(B)} \right) log(P(AB))=log(P(B)P(BA)P(A))

3. 套用对数运算法则

核心公式:

  1. log⁡XY=log⁡X−log⁡Y\log\dfrac{X}{Y} = \log X - \log YlogYX=logXlogY
  2. log⁡(X⋅Y)=log⁡X+log⁡Y\log(X\cdot Y) = \log X + \log Ylog(XY)=logX+logY

展开右侧:
log⁡(P(B∣A)⋅P(A)P(B))=log⁡(P(B∣A)⋅P(A))−log⁡P(B) \log\left( \frac{P(B|A)\cdot P(A)}{P(B)} \right) = \log\big(P(B|A)\cdot P(A)\big) - \log P(B) log(P(B)P(BA)P(A))=log(P(BA)P(A))logP(B)

继续展开乘积项:
log⁡(P(B∣A)⋅P(A))=log⁡P(B∣A)+log⁡P(A) \log\big(P(B|A)\cdot P(A)\big) = \log P(B|A) + \log P(A) log(P(BA)P(A))=logP(BA)+logP(A)

4. 合并得到最终式子

log⁡P(A∣B)=log⁡P(B∣A)+log⁡P(A)−log⁡P(B) \boldsymbol{\log P(A|B) = \log P(B|A) + \log P(A) - \log P(B)} logP(AB)=logP(BA)+logP(A)logP(B)


补充说明

  1. 为什么要转对数?
    概率取值范围是 (0,1)(0,1)(0,1),多个概率相乘时数值会急剧变小,出现浮点数下溢(计算机存不下极小值,变成 0)。
    取对数后:乘法 → 加法、除法 → 减法,计算更稳定、效率更高,是机器学习、概率模型里的标准做法。

  2. 底数无关
    不管是以 222101010、自然常数 eee 为底,上面的推导规则都成立。

1.6 推导公式

一、先回顾条件概率的原始定义

条件概率的定义公式:
P(A∣B)=P(AB)P(B),P(B)>0 P(A|B) = \frac{P(AB)}{P(B)},\quad P(B)>0 P(AB)=P(B)P(AB),P(B)>0
P(B∣A)=P(AB)P(A),P(A)>0 P(B|A) = \frac{P(AB)}{P(A)},\quad P(A)>0 P(BA)=P(A)P(AB),P(A)>0
其中P(AB)P(AB)P(AB)事件A和B同时发生的联合概率。

二、变形得到联合概率的两种表达

从第二个式子变形:
P(AB)=P(B∣A)⋅P(A) P(AB) = P(B|A) \cdot P(A) P(AB)=P(BA)P(A)
意思是:A、B同时发生的概率 = A先发生的概率 × A发生前提下B发生的概率。

三、代入条件概率定义式

P(AB)=P(B∣A)P(A)P(AB)=P(B|A)P(A)P(AB)=P(BA)P(A)代入P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(AB)=P(B)P(AB),就得到:
P(A∣B)=P(B∣A)P(A)P(B) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)
这就是贝叶斯公式,本质是条件概率定义的等价变形

四、直观通俗理解

  1. P(A)P(A)P(A):事件A原本的先验概率;
  2. P(B∣A)P(B|A)P(BA):A发生时B出现的可能性(似然);
  3. 二者相乘得到A、B共同发生的概率;
  4. 除以P(B)P(B)P(B)(B整体发生的总概率),就把范围归一化,算出观测到B之后,A发生的更新后概率(后验概率)

1.7 总结

  1. 公式结构:后验 = 似然 × 先验 / 证据总概率
  2. 用途:逆向推理、概率更新,广泛用于分类、机器学习、故障诊断、统计推断。

2 条件概率定义的直观推导与原理

2.1 核心直观思想:缩小样本空间

条件概率P(A∣B)P(A|B)P(AB)的含义是:已经确定事件BBB发生了,在这个前提下事件AAA发生的概率。
原本的总样本空间是Ω\OmegaΩ,现在已知BBB发生,有效样本空间就从全集Ω\OmegaΩ缩小为BBB对应的区域。

2.2 用频率角度理解

nnn次重复试验:

  • BBB发生的次数为nBn_BnB
  • AAABBB同时发生(ABABAB发生)的次数为nABn_{AB}nAB

BBB发生的前提下,AAA发生的频率为:
频率=nABnB \text{频率} = \frac{n_{AB}}{n_B} 频率=nBnAB
分子分母同时除以总试验次数nnn
nABnB=nABnnBn \frac{n_{AB}}{n_B}=\frac{\frac{n_{AB}}{n}}{\frac{n_B}{n}} nBnAB=nnBnnAB
根据概率的频率定义,nABn→P(AB)\frac{n_{AB}}{n}\to P(AB)nnABP(AB)nBn→P(B)\frac{n_B}{n}\to P(B)nnBP(B),当试验次数足够多时,频率趋近概率,就得到:
P(A∣B)=P(AB)P(B), P(B)>0 P(A|B)=\frac{P(AB)}{P(B)},\ P(B)>0 P(AB)=P(B)P(AB), P(B)>0

2.3 集合韦恩图视角

把样本空间Ω\OmegaΩ看成一个大矩形,事件A,BA,BA,B是里面两个相交的圆:

  1. P(B)P(B)P(B)BBB区域占整个矩形的面积比例;
  2. P(AB)P(AB)P(AB)A,BA,BA,B交集区域占整个矩形的面积比例;
  3. 已知BBB发生,我们只看BBB这块区域,交集ABABABBBB内部的占比就是P(AB)P(B)\frac{P(AB)}{P(B)}P(B)P(AB),这就是AAABBB发生下的条件概率。

2.4 从概率公理验证合理性

定义P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(AB)=P(B)P(AB)P(B)>0P(B)>0P(B)>0)满足概率的三条公理:

  1. 非负性P(AB)≥0,P(B)>0P(AB)\ge0,P(B)>0P(AB)0,P(B)>0,所以P(A∣B)≥0P(A|B)\ge0P(AB)0
  2. 规范性P(Ω∣B)=P(ΩB)P(B)=P(B)P(B)=1P(\Omega|B)=\frac{P(\Omega B)}{P(B)}=\frac{P(B)}{P(B)}=1P(Ω∣B)=P(B)P(ΩB)=P(B)P(B)=1
  3. 可列可加性:若A1,A2,…A_1,A_2,\dotsA1,A2,两两互斥,则A1B,A2B,…A_1B,A_2B,\dotsA1B,A2B,也两两互斥,
    P(⋃i=1∞Ai∣B)=P(⋃i=1∞AiB)P(B)=∑i=1∞P(AiB)P(B)=∑i=1∞P(Ai∣B) P\left(\bigcup_{i=1}^\infty A_i\bigg|B\right)=\frac{P\left(\bigcup_{i=1}^\infty A_i B\right)}{P(B)}=\sum_{i=1}^\infty\frac{P(A_iB)}{P(B)}=\sum_{i=1}^\infty P(A_i|B) P(i=1AiB)=P(B)P(i=1AiB)=i=1P(B)P(AiB)=i=1P(AiB)
    这说明这个定义符合概率体系的基本规则。

2.5 对称形式P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}P(BA)=P(A)P(AB)同理

当已知AAA发生时,样本空间缩小为AAAABABABAAA里的占比就是P(AB)P(A)\frac{P(AB)}{P(A)}P(A)P(AB),要求P(A)>0P(A)>0P(A)>0避免分母为0。

2.6 示例

2.6.1 示例1

掷一枚骰子,事件BBB:点数为偶数(2,4,6),P(B)=36=12P(B)=\frac{3}{6}=\frac12P(B)=63=21
事件AAA:点数为2,P(AB)=P(点数为2)=16P(AB)=P(\text{点数为2})=\frac16P(AB)=P(点数为2)=61
按定义算P(A∣B)=1/61/2=13P(A|B)=\frac{1/6}{1/2}=\frac13P(AB)=1/21/6=31,直观上:已知是偶数,只有2、4、6三种可能,出2的概率就是13\frac1331,和计算结果一致,验证了定义的合理性。

最终结论:条件概率的定义本质是在限定已知事件发生的前提下,对联合概率做归一化处理,既符合直观频率规律,也满足概率公理体系✅

2.6.2 示例2

扔骰子100次:

  • 出现偶数(事件B)的次数nB=50n_B=50nB=50
  • 这50次偶数里,点数是2(事件A)的次数nAB=10n_{AB}=10nAB=10

那“已知扔出偶数,点数是2”的频率就是1050=0.2\frac{10}{50}=0.25010=0.2,和公式完全对应。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值