1 贝叶斯公式
1.1 标准公式
基础形式
P(A∣B)=P(B∣A) P(A)P(B) P(A|B) = \frac{P(B|A)\,P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
符号释义
- P(A)P(A)P(A):先验概率,事件 AAA 发生的概率(观测结果前的已有判断)
- P(B∣A)P(B|A)P(B∣A):似然,已知 AAA 发生时,BBB 发生的概率
- P(B)P(B)P(B):边缘概率,事件 BBB 发生的总概率(归一化项)
- P(A∣B)P(A|B)P(A∣B):后验概率,观测到 BBB 发生后,重新计算的 AAA 发生概率(最终结果)
1.2 全概率展开(常用实用形式)
若样本空间可划分为互斥完备事件 A1,A2,…,AnA_1,A_2,\dots,A_nA1,A2,…,An,则:
P(Ai∣B)=P(B∣Ai) P(Ai)∑j=1nP(B∣Aj) P(Aj)
P(A_i|B) = \frac{P(B|A_i)\,P(A_i)}{\displaystyle\sum_{j=1}^n P(B|A_j)\,P(A_j)}
P(Ai∣B)=j=1∑nP(B∣Aj)P(Aj)P(B∣Ai)P(Ai)
分母就是全概率公式:
P(B)=∑j=1nP(B∣Aj) P(Aj)
P(B) = \sum_{j=1}^n P(B|A_j)\,P(A_j)
P(B)=j=1∑nP(B∣Aj)P(Aj)
1.3 通俗理解
核心思想:用「观测到的新证据」,修正原本的判断。
- 一开始有个初步概率(先验 P(A)P(A)P(A));
- 拿到新现象 BBB;
- 结合“AAA 发生时有多大概率出现 BBB(似然)”,算出更新后的概率(后验 P(A∣B)P(A|B)P(A∣B))。
1.4 简单例题(直观上手)
场景
盒子里有 2 类球:
- 盒子1(A1A_1A1):3红 1蓝
- 盒子2(A2A_2A2):1红 3蓝
随机选一个盒子(选到两个盒子概率均等:P(A1)=P(A2)=0.5P(A_1)=P(A_2)=0.5P(A1)=P(A2)=0.5),摸出红球(事件 BBB)。
求:这个红球来自盒子1的概率 P(A1∣B)P(A_1|B)P(A1∣B)。
计算
-
求似然
P(B∣A1)=34P(B|A_1) = \dfrac{3}{4}P(B∣A1)=43,P(B∣A2)=14P(B|A_2) = \dfrac{1}{4}P(B∣A2)=41 -
求全概率 P(B)P(B)P(B)
P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=34×0.5+14×0.5=0.5 P(B) = P(B|A_1)P(A_1) + P(B|A_2)P(A_2) = \frac{3}{4}\times0.5 + \frac{1}{4}\times0.5 = 0.5 P(B)=P(B∣A1)P(A1)+P(B∣A2)P(A2)=43×0.5+41×0.5=0.5
- 代入贝叶斯公式
P(A1∣B)=P(B∣A1)P(A1)P(B)=34×0.50.5=0.75 P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{\frac{3}{4}\times 0.5}{0.5} = 0.75 P(A1∣B)=P(B)P(B∣A1)P(A1)=0.543×0.5=0.75
结论:摸到红球时,它来自盒子1的概率为 75%。
1.5 延伸:对数形式(机器学习常用)
概率相乘容易下溢,实际代码中常取对数转加法:
logP(A∣B)=logP(B∣A)+logP(A)−logP(B)
\log P(A|B) = \log P(B|A) + \log P(A) - \log P(B)
logP(A∣B)=logP(B∣A)+logP(A)−logP(B)
1. 原始贝叶斯公式
P(A∣B)=P(B∣A)⋅P(A)P(B) P(A|B) = \frac{P(B|A)\cdot P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)⋅P(A)
2. 两边同时取自然对数(常用 log\loglog / ln\lnln,对数底数不影响等式关系)
log(P(A∣B))=log(P(B∣A)⋅P(A)P(B)) \log\big(P(A|B)\big) = \log\left( \frac{P(B|A)\cdot P(A)}{P(B)} \right) log(P(A∣B))=log(P(B)P(B∣A)⋅P(A))
3. 套用对数运算法则
核心公式:
- logXY=logX−logY\log\dfrac{X}{Y} = \log X - \log YlogYX=logX−logY
- log(X⋅Y)=logX+logY\log(X\cdot Y) = \log X + \log Ylog(X⋅Y)=logX+logY
展开右侧:
log(P(B∣A)⋅P(A)P(B))=log(P(B∣A)⋅P(A))−logP(B)
\log\left( \frac{P(B|A)\cdot P(A)}{P(B)} \right)
= \log\big(P(B|A)\cdot P(A)\big) - \log P(B)
log(P(B)P(B∣A)⋅P(A))=log(P(B∣A)⋅P(A))−logP(B)
继续展开乘积项:
log(P(B∣A)⋅P(A))=logP(B∣A)+logP(A)
\log\big(P(B|A)\cdot P(A)\big)
= \log P(B|A) + \log P(A)
log(P(B∣A)⋅P(A))=logP(B∣A)+logP(A)
4. 合并得到最终式子
logP(A∣B)=logP(B∣A)+logP(A)−logP(B) \boldsymbol{\log P(A|B) = \log P(B|A) + \log P(A) - \log P(B)} logP(A∣B)=logP(B∣A)+logP(A)−logP(B)
补充说明
-
为什么要转对数?
概率取值范围是 (0,1)(0,1)(0,1),多个概率相乘时数值会急剧变小,出现浮点数下溢(计算机存不下极小值,变成 0)。
取对数后:乘法 → 加法、除法 → 减法,计算更稳定、效率更高,是机器学习、概率模型里的标准做法。 -
底数无关
不管是以 222、101010、自然常数 eee 为底,上面的推导规则都成立。
1.6 推导公式
一、先回顾条件概率的原始定义
条件概率的定义公式:
P(A∣B)=P(AB)P(B),P(B)>0
P(A|B) = \frac{P(AB)}{P(B)},\quad P(B)>0
P(A∣B)=P(B)P(AB),P(B)>0
P(B∣A)=P(AB)P(A),P(A)>0
P(B|A) = \frac{P(AB)}{P(A)},\quad P(A)>0
P(B∣A)=P(A)P(AB),P(A)>0
其中P(AB)P(AB)P(AB)是事件A和B同时发生的联合概率。
二、变形得到联合概率的两种表达
从第二个式子变形:
P(AB)=P(B∣A)⋅P(A)
P(AB) = P(B|A) \cdot P(A)
P(AB)=P(B∣A)⋅P(A)
意思是:A、B同时发生的概率 = A先发生的概率 × A发生前提下B发生的概率。
三、代入条件概率定义式
把P(AB)=P(B∣A)P(A)P(AB)=P(B|A)P(A)P(AB)=P(B∣A)P(A)代入P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB),就得到:
P(A∣B)=P(B∣A)P(A)P(B)
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)
这就是贝叶斯公式,本质是条件概率定义的等价变形。
四、直观通俗理解
- P(A)P(A)P(A):事件A原本的先验概率;
- P(B∣A)P(B|A)P(B∣A):A发生时B出现的可能性(似然);
- 二者相乘得到A、B共同发生的概率;
- 除以P(B)P(B)P(B)(B整体发生的总概率),就把范围归一化,算出观测到B之后,A发生的更新后概率(后验概率)。
1.7 总结
- 公式结构:后验 = 似然 × 先验 / 证据总概率
- 用途:逆向推理、概率更新,广泛用于分类、机器学习、故障诊断、统计推断。
2 条件概率定义的直观推导与原理
2.1 核心直观思想:缩小样本空间
条件概率P(A∣B)P(A|B)P(A∣B)的含义是:已经确定事件BBB发生了,在这个前提下事件AAA发生的概率。
原本的总样本空间是Ω\OmegaΩ,现在已知BBB发生,有效样本空间就从全集Ω\OmegaΩ缩小为BBB对应的区域。
2.2 用频率角度理解
做nnn次重复试验:
- BBB发生的次数为nBn_BnB
- AAA和BBB同时发生(ABABAB发生)的次数为nABn_{AB}nAB
在BBB发生的前提下,AAA发生的频率为:
频率=nABnB
\text{频率} = \frac{n_{AB}}{n_B}
频率=nBnAB
分子分母同时除以总试验次数nnn:
nABnB=nABnnBn
\frac{n_{AB}}{n_B}=\frac{\frac{n_{AB}}{n}}{\frac{n_B}{n}}
nBnAB=nnBnnAB
根据概率的频率定义,nABn→P(AB)\frac{n_{AB}}{n}\to P(AB)nnAB→P(AB),nBn→P(B)\frac{n_B}{n}\to P(B)nnB→P(B),当试验次数足够多时,频率趋近概率,就得到:
P(A∣B)=P(AB)P(B), P(B)>0
P(A|B)=\frac{P(AB)}{P(B)},\ P(B)>0
P(A∣B)=P(B)P(AB), P(B)>0
2.3 集合韦恩图视角
把样本空间Ω\OmegaΩ看成一个大矩形,事件A,BA,BA,B是里面两个相交的圆:
- P(B)P(B)P(B)是BBB区域占整个矩形的面积比例;
- P(AB)P(AB)P(AB)是A,BA,BA,B交集区域占整个矩形的面积比例;
- 已知BBB发生,我们只看BBB这块区域,交集ABABAB在BBB内部的占比就是P(AB)P(B)\frac{P(AB)}{P(B)}P(B)P(AB),这就是AAA在BBB发生下的条件概率。
2.4 从概率公理验证合理性
定义P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}P(A∣B)=P(B)P(AB)(P(B)>0P(B)>0P(B)>0)满足概率的三条公理:
- 非负性:P(AB)≥0,P(B)>0P(AB)\ge0,P(B)>0P(AB)≥0,P(B)>0,所以P(A∣B)≥0P(A|B)\ge0P(A∣B)≥0;
- 规范性:P(Ω∣B)=P(ΩB)P(B)=P(B)P(B)=1P(\Omega|B)=\frac{P(\Omega B)}{P(B)}=\frac{P(B)}{P(B)}=1P(Ω∣B)=P(B)P(ΩB)=P(B)P(B)=1;
- 可列可加性:若A1,A2,…A_1,A_2,\dotsA1,A2,…两两互斥,则A1B,A2B,…A_1B,A_2B,\dotsA1B,A2B,…也两两互斥,
P(⋃i=1∞Ai∣B)=P(⋃i=1∞AiB)P(B)=∑i=1∞P(AiB)P(B)=∑i=1∞P(Ai∣B) P\left(\bigcup_{i=1}^\infty A_i\bigg|B\right)=\frac{P\left(\bigcup_{i=1}^\infty A_i B\right)}{P(B)}=\sum_{i=1}^\infty\frac{P(A_iB)}{P(B)}=\sum_{i=1}^\infty P(A_i|B) P(i=1⋃∞AiB)=P(B)P(⋃i=1∞AiB)=i=1∑∞P(B)P(AiB)=i=1∑∞P(Ai∣B)
这说明这个定义符合概率体系的基本规则。
2.5 对称形式P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}P(B∣A)=P(A)P(AB)同理
当已知AAA发生时,样本空间缩小为AAA,ABABAB在AAA里的占比就是P(AB)P(A)\frac{P(AB)}{P(A)}P(A)P(AB),要求P(A)>0P(A)>0P(A)>0避免分母为0。
2.6 示例
2.6.1 示例1
掷一枚骰子,事件BBB:点数为偶数(2,4,6),P(B)=36=12P(B)=\frac{3}{6}=\frac12P(B)=63=21;
事件AAA:点数为2,P(AB)=P(点数为2)=16P(AB)=P(\text{点数为2})=\frac16P(AB)=P(点数为2)=61;
按定义算P(A∣B)=1/61/2=13P(A|B)=\frac{1/6}{1/2}=\frac13P(A∣B)=1/21/6=31,直观上:已知是偶数,只有2、4、6三种可能,出2的概率就是13\frac1331,和计算结果一致,验证了定义的合理性。
最终结论:条件概率的定义本质是在限定已知事件发生的前提下,对联合概率做归一化处理,既符合直观频率规律,也满足概率公理体系✅
2.6.2 示例2
扔骰子100次:
- 出现偶数(事件B)的次数nB=50n_B=50nB=50次
- 这50次偶数里,点数是2(事件A)的次数nAB=10n_{AB}=10nAB=10次
那“已知扔出偶数,点数是2”的频率就是1050=0.2\frac{10}{50}=0.25010=0.2,和公式完全对应。
8285

被折叠的 条评论
为什么被折叠?



