似然函数和极大似然估计的总结

原创已于 2026-05-30 18:44:51 修改 · 227 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2026-05-30 18:35:07 首次发布

数学专栏收录该内容

4 篇文章

订阅专栏

似然函数

概率用于在已知一些参数的情况下，预测接下来在观测上所得到的结果。而似然性则是用于在已知某些观测所得到的结果时，对有关事物之性质的参数进行估值。
似然函数是对参数的函数，其定义为在给定参数值的条件下，观察到某个特定数据的概率。换句话说，似然函数是一个关于参数的函数，而不是关于数据的函数。
如果我们有一个参数化的概率模型P(X|θ)，其中X是观测数据，θ是模型参数，似然函数L(θ|X)定义为：
L(θ|X)=P(X|θ)
这里，P(X|θ) 表示在参数为θ的情况下，观察到数据X的概率。
设有一组独立同分布的观测数据X=( $x1,x2,…,xnx_1, x_2, \dots, x_n$ )，并且这些数据服从某个分布（例如正态分布、二项分布等），比如服从参数为θ的某个分布，那么似然函数可以写作：
$L(θ∣X)=P(X∣θ)=∏i=1nP(xi∣θ)L(\theta \mid X) = P(X \mid \theta) = \prod_{i=1}^{n} P(x_i \mid \theta)$
针对其中存在的乘法，可以使对数函数将其转化为加法：
$log⁡L(θ∣X)=log⁡∏i=1nP(xi∣θ)=∑i=1nlog⁡P(xi∣θ)\log L(\theta \mid X) = \log \prod_{i=1}^{n} P(x_i \mid \theta) = \sum_{i=1}^{n} \log P(x_i \mid \theta)$

什么是极大似然估计

极大似然估计，也叫最大似然估计，英文名称统一为：“ ‌Maximum Likelihood Estimation”，简称 (MLE)‌。
一句话总结：最大似然估计，就是找一组参数，让「当前已经发生的样本」出现的概率最大。
似然函数常用于极大似然估计。我们希望找到使似然函数最大化的参数θ。这意味着在给定观测数据的情况下，选择最可能生成这些数据的参数值。

例如，掷硬币3次，2次正面1次背面，能否依据此结果逆推出正面的概率；正面概率为0.5的概率为多少、正面概率为0.6的概率为多少；最有可能的正面概率是多少？
此处的：正面概率为0.5的概率为多少，这个问题是什么意思呢，这里的0.5指的是假设每次抛掷，正面朝上的概率为0.5，在此情况下，掷硬币3次，2次正面1次背面的概率是多少。
同理，正面概率为0.6的概率为多少，是说的，假设每次抛掷，正面朝上的概率为0.6，在此情况下，掷硬币3次，2次正面1次背面的概率是多少。
我们用θ代表硬币正面朝上的概率，用X代表2次正面1次背面的结果
$L(θ∣X)=P(X∣θ)=C32θ2(1−θ)L(\theta|X)=P(X|\theta)=C_3^2\theta^2(1-\theta)$
当正面概率为0.5时： $P(X∣θ=0.5)=C32×0.52×(1−0.5)=0.375P(X|\theta=0.5)=C_3^2 \times 0.5^2 \times (1-0.5)=0.375$
当正面概率为0.6时： $P(X∣θ=0.6)=C32×0.62×(1−0.6)=0.432P(X|\theta=0.6)=C_3^2 \times 0.6^2 \times (1-0.6)=0.432$
2次正面1次背面对应的已发生的样本可能有三种情况：[正面，正面，背面]，[正面，背面，正面]，[背面，正面，正面]。这三种情况，每一种的情况的概率，也就是联合概率，都是 $θ2(1−θ)\theta^2(1-\theta)$ 。所以要加上组合数 $C_3^2$ 。
为了找出极大似然估计，对似然函数取对数并求导，使其等于0
$log⁡L(θ∣X)=log⁡[C32⋅θ2(1−θ)]=log⁡3+2log⁡θ+log⁡(1−θ)\log L(\theta|X)=\log\left[C_3^2 \cdot \theta^2(1-\theta)\right]=\log 3+2\log\theta+\log(1-\theta)$
$dlog⁡L(θ∣X)dθ=2θ−11−θ=0\frac{d\log L(\theta|X)}{d\theta}=\frac{2}{\theta}-\frac{1}{1-\theta}=0$
解得θ= $23\frac{2}{3}$ ，意味着当掷硬币3次，出现2次正面1次背面的结果时，硬币正面朝上的概率最有可能为 $23\frac{2}{3}$ 。如何确定这个点是极大值点，而不是极小值点，需要通过求二阶导数，将θ值带进去，判断此处二阶导数的值，进而判断是极大值还是极小值，在这里就没有再求，因为只有一个极值点，
根据经验判断，必然是极大值点，如果求出多个极值点，必须要进行二阶导数判断。
$P(X∣θ=23)P(X|\theta= \frac{2}{3})$ 的值要和 $P(X∣θ=0)P(X|\theta= 0)$ ，以及 $P(X∣θ=1)P(X|\theta= 1)$ 的比较，谁求出的似然函数的值大，最合适的那个θ
在这里插入图片描述

$log⁡L(θ∣X)\log L(\theta|X)$ 没有底数？

一句话总结：上面 $log⁡L(θ∣X)\log L(\theta|X)$ ，默认指的就是 $ln⁡L(θ∣X)\ln L(\theta|X)$
在这里插入图片描述
$\ln x$ 函数特点是单调递增的，此处的 $y$ = $L(θ∣X)L(\theta|X)$ , $x$ = $C32θ2(1−θ)C_3^2\theta^2(1-\theta)$ ,这是一个对数复合函数，也就是当 $θ\theta$ 取什么值时，使 $x值最大(即C32θ2(1−θ)x值最大(即C_3^2\theta^2(1-\theta)$ 的值最大)，同时也就是使 $y最大，也即L(θ∣X)y最大，也即L(\theta|X)$ 的值最大。这也就说明了两边取对数后，求导，使导数为0，其极值点的位置，也就是对应的 $θ\theta$ 值是不变的。
也就是使 $L(θ∣X)L(\theta|X)$ 取得极大值的点和使 $ln⁡L(θ∣X)\ln L(\theta|X)$ 取得极大值的点的 $θ\theta$ 是同一个。
在这里插入图片描述

样本的独立同分布怎么理解

在这里插入图片描述

似然函数 = 所有样本联合概率，也就是 $[X1,X2,…,Xn][X_1, X_2, \dots, X_n]$ 中，每一个样本元素同时发生的概率。
其中的 $X_1$ 是第一次抛硬币时的情况, $X_2$ 是第二次抛硬币时的情况，依次类推，它们可能是正面，也可能时反面，但是一旦发生了，样本固定了，它就只能时其中一个中情况。而我们之前说的抛硬币3次，2次正面，一次背面，其实这里是3种样本的情况，然后把每种样本发生的概率都加起来求和。(因为只要有一个样本发生就满足了条件)。[正面, 正面, 反面] + [正面, 反面, 正面]+[反面, 正面, 正面] 这三种概率（每种样本内是求联合概率）的情况之和就是要求的似然函数值。
如果仅仅是为了求待估参数，可以省略掉组合数，因为其是常数，不影响求导，如果是要求似然函数的真是值，则必然要带着组合数。
在这里插入图片描述