从极大既然估计的角度推导均方误差最小化

最新推荐文章于 2025-06-08 14:27:40 发布

原创最新推荐文章于 2025-06-08 14:27:40 发布 · 970 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#概率论 #机器学习 #算法

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文探讨了在曲线拟合问题中，如何从极大似然估计的角度理解均方误差最小化。通过假设输出值遵循以参数为均值的正态分布，推导出均方误差最小化等价于正态分布的极大似然估计，这一过程在机器学习和概率论中有重要应用。

问题背景

曲线拟合问题，给定参数 $w$ 和输入 $x$ ，用多项式函数来拟合曲线，其中 $M$ 表示多项式的次数：
$y(x,w) = w_0 + w_1x+w_2x^2+...+w_Mx^M$
如下图所示：
在这里插入图片描述

推导

我们都知道曲线拟合问题，可以用均方误差最小化来解决，也就是使以下函数的值最小化：
$E(\textbf{w}) = \frac{1}{2}\sum_{n=1}^{N}{(y(x_n,\textbf{w} )-t_n)}^2$

下面推导：均方误差最小化等价于正态分布的极大似然估计。
我们假设对于输入值 $x$ ，输出值 $t$ 出现的概率服从均值为 $y (x, w)$ ，方差为 $1β\frac{1}{β}$ 的正态分布，其中， $β^{-1} = σ^2$ ，用下列式子表示：
$Ν(t|y(x,w),β^{-1})$
这里用{ $x,t{\textbf{x},\textbf{t}}$ }来表示数据中的所有数据对，似然函数可以表示为：
$p(\textbf{t}|\textbf{x},w,β) = \prod_{n=1}^{N}N(t_n|y(x_n,w),β^{-1})$ 对似然函数取对数，得到：
$-\frac{β}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2+\frac{N}{2}lnβ -\frac{N}{2}ln(2\pi)$
先最大化 $w$ ，可以先消除上面式子的后两项。由于在此时 $β$ 是常数，可以用 $12\frac{1}{2}$ 代替 $β2\frac{β}{2}$ ，得到以下式子：
$-\frac{1}{2}\sum_{n=1}^{N}(y(x_n,w)-t_n)^2$
到这一步，我们可以看到，均方误差最小化等价于基于正态分布假设的极大似然估计。