问题背景
曲线拟合问题,给定参数www和输入xxx,用多项式函数来拟合曲线,其中MMM表示多项式的次数:
y(x,w)=w0+w1x+w2x2+...+wMxM
y(x,w) = w_0 + w_1x+w_2x^2+...+w_Mx^M
y(x,w)=w0+w1x+w2x2+...+wMxM
如下图所示:

推导
我们都知道曲线拟合问题,可以用均方误差最小化来解决,也就是使以下函数的值最小化:
E(w)=12∑n=1N(y(xn,w)−tn)2
E(\textbf{w}) = \frac{1}{2}\sum_{n=1}^{N}{(y(x_n,\textbf{w} )-t_n)}^2
E(w)=21n=1∑N(y(xn,w)−tn)2
下面推导:均方误差最小化等价于正态分布的极大似然估计。
我们假设对于输入值xxx,输出值ttt出现的概率服从均值为y(x,w)y(x,w)y(x,w),方差为1β\frac{1}{β}β1的正态分布,其中,β−1=σ2β^{-1} = σ^2β−1=σ2,用下列式子表示:
p(t∣x,w,β)=N(t∣y(x,w),β−1)
p(t|x,w,β) = Ν(t|y(x,w),β^{-1})
p(t∣x,w,β)=N(t∣y(x,w),β−1)
这里用{x,t{\textbf{x},\textbf{t}}x,t}来表示数据中的所有数据对,似然函数可以表示为:
p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)
p(\textbf{t}|\textbf{x},w,β) = \prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1})
p(t∣x,w,β)=n=1∏NN(tn∣y(xn,w),β−1)对似然函数取对数,得到:
ln(p(t∣x,w,β))=−β2∑n=1N(y(xn,w)−tn)2+N2lnβ−N2ln(2π)
ln(p(t|x,w,β)) = -\frac{β}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2+\frac{N}{2}lnβ -\frac{N}{2}ln(2\pi)
ln(p(t∣x,w,β))=−2βn=1∑N(y(xn,w)−tn)2+2Nlnβ−2Nln(2π)
先最大化www,可以先消除上面式子的后两项。由于在此时βββ是常数,可以用12\frac{1}{2}21代替β2\frac{β}{2}2β,得到以下式子:
ln(p(t∣x,w,β))=−12∑n=1N(y(xn,w)−tn)2
ln(p(t|x,w,β)) = -\frac{1}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2
ln(p(t∣x,w,β))=−21n=1∑N(y(xn,w)−tn)2
到这一步,我们可以看到,均方误差最小化等价于基于正态分布假设的极大似然估计。
参考文献
《Pattern Recognition And Machine Learning》
本文探讨了在曲线拟合问题中,如何从极大似然估计的角度理解均方误差最小化。通过假设输出值遵循以参数为均值的正态分布,推导出均方误差最小化等价于正态分布的极大似然估计,这一过程在机器学习和概率论中有重要应用。
6777

被折叠的 条评论
为什么被折叠?



