从极大既然估计的角度推导均方误差最小化

本文探讨了在曲线拟合问题中,如何从极大似然估计的角度理解均方误差最小化。通过假设输出值遵循以参数为均值的正态分布,推导出均方误差最小化等价于正态分布的极大似然估计,这一过程在机器学习和概率论中有重要应用。

问题背景

曲线拟合问题,给定参数www和输入xxx,用多项式函数来拟合曲线,其中MMM表示多项式的次数:
y(x,w)=w0+w1x+w2x2+...+wMxM y(x,w) = w_0 + w_1x+w_2x^2+...+w_Mx^M y(x,w)=w0+w1x+w2x2+...+wMxM
如下图所示:
在这里插入图片描述

推导

我们都知道曲线拟合问题,可以用均方误差最小化来解决,也就是使以下函数的值最小化:
E(w)=12∑n=1N(y(xn,w)−tn)2 E(\textbf{w}) = \frac{1}{2}\sum_{n=1}^{N}{(y(x_n,\textbf{w} )-t_n)}^2 E(w)=21n=1N(y(xn,w)tn)2

下面推导:均方误差最小化等价于正态分布的极大似然估计。
我们假设对于输入值xxx,输出值ttt出现的概率服从均值为y(x,w)y(x,w)y(x,w),方差为1β\frac{1}{β}β1的正态分布,其中,β−1=σ2β^{-1} = σ^2β1=σ2,用下列式子表示:
p(t∣x,w,β)=N(t∣y(x,w),β−1) p(t|x,w,β) = Ν(t|y(x,w),β^{-1}) p(tx,w,β)=N(ty(x,w),β1)
这里用{x,t{\textbf{x},\textbf{t}}x,t}来表示数据中的所有数据对,似然函数可以表示为:
p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1) p(\textbf{t}|\textbf{x},w,β) = \prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1}) p(tx,w,β)=n=1NN(tny(xn,w),β1)对似然函数取对数,得到:
ln(p(t∣x,w,β))=−β2∑n=1N(y(xn,w)−tn)2+N2lnβ−N2ln(2π) ln(p(t|x,w,β)) = -\frac{β}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2+\frac{N}{2}lnβ -\frac{N}{2}ln(2\pi) ln(p(tx,w,β))=2βn=1N(y(xn,w)tn)2+2Nlnβ2Nln(2π)
先最大化www,可以先消除上面式子的后两项。由于在此时βββ是常数,可以用12\frac{1}{2}21代替β2\frac{β}{2}2β,得到以下式子:
ln(p(t∣x,w,β))=−12∑n=1N(y(xn,w)−tn)2 ln(p(t|x,w,β)) = -\frac{1}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2 ln(p(tx,w,β))=21n=1N(y(xn,w)tn)2
到这一步,我们可以看到,均方误差最小化等价于基于正态分布假设的极大似然估计。

参考文献

《Pattern Recognition And Machine Learning》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值