机器学习-----数学 ----最大似然估计

最大似然估计

最大似然估计是机器学习中比较重要的概率统计问题,这里将介绍比较重要几个和易混淆的问题:

1.首先确定采样是独立同分布的(i.i.d.)。
2. 在这里先假设,样本分布符合高斯分布。

独立性:

P(AB)=P(A)⋅P(B)\mathbb P (AB)=\mathbb P (A) \cdot \mathbb P (B)P(AB)=P(A)P(B)

同分布:

保证了所有的样本点符合同一分布,这里假设为高斯分布,连续性分布,即X∼N(μ,σ2)X\sim N(\mu,\sigma^2)XN(μ,σ2)注: 非连续性分布,过程类似。

样本

假设抽样了X1,X2,X3....,X1={x1,x2,...xn}X_1,X_2,X_3....,X_1=\{x_1,x_2,...x_n\}X1,X2,X3....,X1={x1,x2,...xn},所以f(x1;μ,σ)=12πσ2e−12σ2(x1−μ)2,P(x1;μ,σ)=12πσ2e−12σ2(x1−μ)2dx1P(X;μ,σ)=∏i=1nP(xi;μ,σ)=∏i=1nf(x1;μ,σ)dxi=∏i=1n12πσ2e−12σ2(xi−μ)2⋅∏i=1ndxi\Large f(x_1;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_1-\mu)^2},\\P(x_1;\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_1-\mu)^2} dx_1 \\ \Large P(X;\mu,\sigma)= \prod_{i=1}^{n}P(x_i;\mu,\sigma) =\prod_{i=1}^{n}f(x_1;\mu,\sigma) dx_i\\ =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2} (x_i-\mu)^2} \cdot \prod_{i=1}^{n}dx_if(x1;μ,σ)=2πσ21e2σ21(x1μ)2,P(x1;μ,σ)=2πσ21e2σ21(x1μ)2dx1P(X;μ,σ)=i=1nP(xi;μ,σ)=i=1nf(x1;μ,σ)dxi=i=1n2πσ21e2σ21(xiμ)2i=1ndxi

\
\

似然函数(Likelihood function,似乎是这样的函数)

\
由独立性和同分布性可得,这里我们用LmL_mLm表示联合概率密度分布,因为∏i=1ndxi\prod_{i=1}^{n}dx_ii=1ndxi为定值与μ,σ\mu,\sigmaμ,σ无关这里说明了在最大似然估计中为啥不是概率分布,而是概率密度函数

Lm(μ,σ;X1)=∏i=1nf(x1;μ,σ)=∏i=1n12πσ2e−12σ2(xi−μ)2\Large L_m(\mu,\sigma;X_1) = \prod_{i=1}^{n}f(x_1;\mu,\sigma) =\prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2} (x_i-\mu)^2}Lm(μ,σ;X1)=i=1nf(x1;μ,σ)=i=1n2πσ21e2σ21(xiμ)2

由于连乘形式不好运算,所以我们两边同时取对数得,用$ l_m$ 取对数后的概率密度分布:

lm(μ,σ;X1)=∑i=1nlnf(x1;μ,σ)=−n2ln(2πσ2)−12σ2∑i=1n(xi−μ)2\Large l_m(\mu,\sigma;X_1) = \sum_{i=1}^{n}lnf(x_1;\mu,\sigma) = -\frac{n}{2}ln(2\pi\sigma^2)-\frac{1}{2\sigma^2} \sum_{i=1}^{n}(x_i-\mu)^2lm(μ,σ;X1)=i=1nlnf(x1;μ,σ)=2nln(2πσ2)2σ21i=1n(xiμ)2

最大似然估计(MLE)

这里我们取θ=(μ,σ)\theta = (\mu,\sigma)θ=(μ,σ),我们要得到使得似然函数LmL_mLm取得最大值的 、θ\thetaθ 的参数估计,即:θ^\widehat \thetaθ,称为参数θ\thetaθ的最大似然估计。
所以对上述似然方程求偏导得,尖帽表示估计值:
∂l∂σ=∂l∂μ=0μ^=1n∑i=1nxiσ^=1n∑i=1n(xi−μ^)2 \Large \frac{\partial{l}}{\partial\sigma}=\frac{\partial{l}}{\partial\mu} =0\\ \Large \widehat\mu =\frac{1}{n}\sum_{i=1}^{n}x_i\\ \Large \widehat\sigma = \frac{1}{n}\sum_{i=1}^{n}(x_i-\widehat\mu)^2\\ σl=μl=0μ=n1i=1nxiσ=n1i=1n(xiμ)2

所以可得参数θ\thetaθ的最大似然估计值为(μ^,σ^)(\widehat\mu,\widehat\sigma)(μ,σ)
参数的θ\thetaθ最大估计量:

μ^=Xˉσ^=1n∑i=1n(xi−Xˉ)2 \Large \widehat\mu =\bar X\\ \Large \widehat\sigma = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar X)^2\\ μ=Xˉσ=n1i=1n(xiXˉ)2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值