机器学习-----数学 ----最大似然估计

最新推荐文章于 2025-02-23 11:04:13 发布

原创最新推荐文章于 2025-02-23 11:04:13 发布 · 427 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#最大似然估计 #机器学习

机器学习同时被 2 个专栏收录

4 篇文章

订阅专栏

最大似然估计

1 篇文章

订阅专栏

最大似然估计

最大似然估计是机器学习中比较重要的概率统计问题，这里将介绍比较重要几个和易混淆的问题：

1.首先确定采样是独立同分布的（i.i.d.）。
2. 在这里先假设，样本分布符合高斯分布。

独立性：

$P(AB)=P(A)⋅P(B)\mathbb P (AB)=\mathbb P (A) \cdot \mathbb P (B)$

同分布：

保证了所有的样本点符合同一分布，这里假设为高斯分布,连续性分布，即 $X∼N(μ,σ2)X\sim N(\mu,\sigma^2)$ 。注：非连续性分布，过程类似。

样本

假设抽样了 $X_1,X_2,X_3....,X_1=\{x_1,x_2,...x_n\}$ ,所以 $f(x1;μ,σ)=12πσ2e−12σ2(x1−μ)2,P(x1;μ,σ)=12πσ2e−12σ2(x1−μ)2dx1P(X;μ,σ)=∏i=1nP(xi;μ,σ)=∏i=1nf(x1;μ,σ)dxi=∏i=1n12πσ2e−12σ2(xi−μ)2⋅∏i=1ndxi\Large f(x_1;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_1-\mu)^2},\\P(x_1;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_1-\mu)^2} dx_1 \\ \Large P(X;\mu,\sigma)= \prod_{i=1}^{n}P(x_i;\mu,\sigma) =\prod_{i=1}^{n}f(x_1;\mu,\sigma) dx_i\\ =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2} (x_i-\mu)^2} \cdot \prod_{i=1}^{n}dx_i$

\
\

似然函数(Likelihood function，`似乎是这样的函数`)

\
由独立性和同分布性可得,这里我们用 $L_m$ 表示联合概率密度分布,因为 $∏i=1ndxi\prod_{i=1}^{n}dx_i$ 为定值与 $μ,σ\mu,\sigma$ 无关这里说明了在最大似然估计中为啥不是概率分布，而是概率密度函数：

$Lm(μ,σ;X1)=∏i=1nf(x1;μ,σ)=∏i=1n12πσ2e−12σ2(xi−μ)2\Large L_m(\mu,\sigma;X_1) = \prod_{i=1}^{n}f(x_1;\mu,\sigma) =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2} (x_i-\mu)^2}$

由于连乘形式不好运算，所以我们两边同时取对数得，用$ l_m$ 取对数后的概率密度分布：

$lm(μ,σ;X1)=∑i=1nlnf(x1;μ,σ)=−n2ln(2πσ2)−12σ2∑i=1n(xi−μ)2\Large l_m(\mu,\sigma;X_1) = \sum_{i=1}^{n}lnf(x_1;\mu,\sigma) = -\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2$

最大似然估计（MLE）

这里我们取 $θ=(μ,σ)\theta = (\mu,\sigma)$ ,我们要得到使得似然函数 $L_m$ 取得最大值的、 $θ\theta$ 的参数估计，即： $θ^\widehat \theta$ ，称为参数 $θ\theta$ 的最大似然估计。
所以对上述似然方程求偏导得，尖帽表示估计值：
$∂l∂σ=∂l∂μ=0μ^=1n∑i=1nxiσ^=1n∑i=1n(xi−μ^)2 \Large \frac{\partial{l}}{\partial\sigma}=\frac{\partial{l}}{\partial\mu} =0\\ \Large \widehat\mu =\frac{1}{n}\sum_{i=1}^{n}x_i\\ \Large \widehat\sigma = \frac{1}{n}\sum_{i=1}^{n}(x_i-\widehat\mu)^2\\$