贝叶斯公式

原创已于 2026-06-10 18:25:50 修改 · 156 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习

于 2026-06-10 18:16:48 首次发布

AI 专栏收录该内容

2 篇文章

订阅专栏

1 贝叶斯公式

1.1 标准公式

基础形式

$\frac{P(B|A)\,P(A)}{P(B)}$

符号释义

$P (A)$ ：先验概率，事件 $A$ 发生的概率（观测结果前的已有判断）
$P (B ∣ A)$ ：似然，已知 $A$ 发生时， $B$ 发生的概率
$P (B)$ ：边缘概率，事件 $B$ 发生的总概率（归一化项）
$P (A ∣ B)$ ：后验概率，观测到 $B$ 发生后，重新计算的 $A$ 发生概率（最终结果）

1.2 全概率展开（常用实用形式）

若样本空间可划分为互斥完备事件 $A1,A2,…,AnA_1,A_2,\dots,A_n$ ，则：
$P(A_i|B) = \frac{P(B|A_i)\,P(A_i)}{\displaystyle\sum_{j=1}^n P(B|A_j)\,P(A_j)}$
分母就是全概率公式：
$\sum_{j=1}^n P(B|A_j)\,P(A_j)$

1.3 通俗理解

核心思想：用「观测到的新证据」，修正原本的判断。

一开始有个初步概率（先验 $P (A)$ ）；
拿到新现象 $B$ ；
结合“ $A$ 发生时有多大概率出现 $B$ （似然）”，算出更新后的概率（后验 $P (A ∣ B)$ ）。

1.4 简单例题（直观上手）

场景

盒子里有 2 类球：

盒子1( $A_1$ )：3红 1蓝
盒子2( $A_2$ )：1红 3蓝
随机选一个盒子（选到两个盒子概率均等： $P(A_1)=P(A_2)=0.5$ ），摸出红球（事件 $B$ ）。
求：这个红球来自盒子1的概率 $P(A_1|B)$ 。

计算

求似然
$P(B∣A1)=34P(B|A_1) = \dfrac{3}{4}$ ， $P(B∣A2)=14P(B|A_2) = \dfrac{1}{4}$
求全概率 $P (B)$

$P(B|A_1)P(A_1) + P(B|A_2)P(A_2) = \frac{3}{4}\times0.5 + \frac{1}{4}\times0.5 = 0.5$

代入贝叶斯公式
$P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} = \frac{\frac{3}{4}\times 0.5}{0.5} = 0.75$

结论：摸到红球时，它来自盒子1的概率为 75%。

1.5 延伸：对数形式（机器学习常用）

概率相乘容易下溢，实际代码中常取对数转加法：
$\log P(A|B) = \log P(B|A) + \log P(A) - \log P(B)$

1. 原始贝叶斯公式

$\frac{P(B|A)\cdot P(A)}{P(B)}$

2. 两边同时取自然对数（常用 $log⁡\log$ / $ln⁡\ln$ ，对数底数不影响等式关系）

$\log\big(P(A|B)\big) = \log\left( \frac{P(B|A)\cdot P(A)}{P(B)} \right)$

3. 套用对数运算法则

核心公式：

$log⁡XY=log⁡X−log⁡Y\log\dfrac{X}{Y} = \log X - \log Y$
$log⁡(X⋅Y)=log⁡X+log⁡Y\log(X\cdot Y) = \log X + \log Y$

展开右侧：
$\log\left( \frac{P(B|A)\cdot P(A)}{P(B)} \right) = \log\big(P(B|A)\cdot P(A)\big) - \log P(B)$

继续展开乘积项：
$\log\big(P(B|A)\cdot P(A)\big) = \log P(B|A) + \log P(A)$

4. 合并得到最终式子

$\boldsymbol{\log P(A|B) = \log P(B|A) + \log P(A) - \log P(B)}$

补充说明

为什么要转对数？
概率取值范围是 $(0, 1)$ ，多个概率相乘时数值会急剧变小，出现浮点数下溢（计算机存不下极小值，变成 0）。
取对数后：乘法 → 加法、除法 → 减法，计算更稳定、效率更高，是机器学习、概率模型里的标准做法。
底数无关
不管是以 $2$ 、 $10$ 、自然常数 $e$ 为底，上面的推导规则都成立。

1.6 推导公式

一、先回顾条件概率的原始定义

条件概率的定义公式：
$\frac{P(AB)}{P(B)},\quad P(B)>0$
$\frac{P(AB)}{P(A)},\quad P(A)>0$
其中 $P (A B)$ 是事件A和B同时发生的联合概率。

二、变形得到联合概率的两种表达

从第二个式子变形：
$\cdot P(A)$
意思是：A、B同时发生的概率 = A先发生的概率 × A发生前提下B发生的概率。

三、代入条件概率定义式

把 $P (A B) = P (B ∣ A) P (A)$ 代入 $P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}$ ，就得到：
$\frac{P(B|A)P(A)}{P(B)}$
这就是贝叶斯公式，本质是条件概率定义的等价变形。

四、直观通俗理解

$P (A)$ ：事件A原本的先验概率；
$P (B ∣ A)$ ：A发生时B出现的可能性（似然）；
二者相乘得到A、B共同发生的概率；
除以 $P (B)$ （B整体发生的总概率），就把范围归一化，算出观测到B之后，A发生的更新后概率（后验概率）。

1.7 总结

公式结构：后验 = 似然 × 先验 / 证据总概率
用途：逆向推理、概率更新，广泛用于分类、机器学习、故障诊断、统计推断。

2 条件概率定义的直观推导与原理

2.1 核心直观思想：缩小样本空间

条件概率 $P (A ∣ B)$ 的含义是：已经确定事件 $B$ 发生了，在这个前提下事件 $A$ 发生的概率。
原本的总样本空间是 $Ω\Omega$ ，现在已知 $B$ 发生，有效样本空间就从全集 $Ω\Omega$ 缩小为 $B$ 对应的区域。

2.2 用频率角度理解

做 $n$ 次重复试验：

$B$ 发生的次数为 $n_B$
$A$ 和 $B$ 同时发生（ $A B$ 发生）的次数为 $n_{AB}$

在 $B$ 发生的前提下， $A$ 发生的频率为：
$\text{频率} = \frac{n_{AB}}{n_B}$
分子分母同时除以总试验次数 $n$ ：
$\frac{n_{AB}}{n_B}=\frac{\frac{n_{AB}}{n}}{\frac{n_B}{n}}$
根据概率的频率定义， $nABn→P(AB)\frac{n_{AB}}{n}\to P(AB)$ ， $nBn→P(B)\frac{n_B}{n}\to P(B)$ ，当试验次数足够多时，频率趋近概率，就得到：
$P(A|B)=\frac{P(AB)}{P(B)},\ P(B)>0$

2.3 集合韦恩图视角

把样本空间 $Ω\Omega$ 看成一个大矩形，事件 $A, B$ 是里面两个相交的圆：

$P (B)$ 是 $B$ 区域占整个矩形的面积比例；
$P (A B)$ 是 $A, B$ 交集区域占整个矩形的面积比例；
已知 $B$ 发生，我们只看 $B$ 这块区域，交集 $A B$ 在 $B$ 内部的占比就是 $P(AB)P(B)\frac{P(AB)}{P(B)}$ ，这就是 $A$ 在 $B$ 发生下的条件概率。

2.4 从概率公理验证合理性

定义 $P(A∣B)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}$ （ $P (B) > 0$ ）满足概率的三条公理：

非负性： $P(AB)≥0,P(B)>0P(AB)\ge0,P(B)>0$ ，所以 $P(A∣B)≥0P(A|B)\ge0$ ；
规范性： $P(Ω∣B)=P(ΩB)P(B)=P(B)P(B)=1P(\Omega|B)=\frac{P(\Omega B)}{P(B)}=\frac{P(B)}{P(B)}=1$ ；
可列可加性：若 $A1,A2,…A_1,A_2,\dots$ 两两互斥，则 $A1B,A2B,…A_1B,A_2B,\dots$ 也两两互斥，
$P\left(\bigcup_{i=1}^\infty A_i\bigg|B\right)=\frac{P\left(\bigcup_{i=1}^\infty A_i B\right)}{P(B)}=\sum_{i=1}^\infty\frac{P(A_iB)}{P(B)}=\sum_{i=1}^\infty P(A_i|B)$
这说明这个定义符合概率体系的基本规则。

2.5 对称形式 $P(B∣A)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}$ 同理

当已知 $A$ 发生时，样本空间缩小为 $A$ ， $A B$ 在 $A$ 里的占比就是 $P(AB)P(A)\frac{P(AB)}{P(A)}$ ，要求 $P (A) > 0$ 避免分母为0。

2.6 示例

2.6.1 示例1

掷一枚骰子，事件 $B$ ：点数为偶数（2,4,6）， $P(B)=36=12P(B)=\frac{3}{6}=\frac12$ ；
事件 $A$ ：点数为2， $P(AB)=P(点数为2)=16P(AB)=P(\text{点数为2})=\frac16$ ；
按定义算 $P(A∣B)=1/61/2=13P(A|B)=\frac{1/6}{1/2}=\frac13$ ，直观上：已知是偶数，只有2、4、6三种可能，出2的概率就是 $13\frac13$ ，和计算结果一致，验证了定义的合理性。