08.第三章点估计(3)

最新推荐文章于 2025-05-19 09:49:35 发布

原创最新推荐文章于 2025-05-19 09:49:35 发布 · 1.4k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#概率论

《数理统计》学习笔记专栏收录该内容

21 篇文章

订阅专栏

本文探讨了点估计中的重要概念，包括一致最小均方误差估计和一致最小方差无偏估计(UMVUE)。介绍了UMVUE的定义、改进方法及寻找策略，如零无偏估计法和充分完全统计量法，并详细解析了Lehmann-Scheff定理的应用。

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

第三章点估计(3)

1.一致最小均方误差估计

均方误差MSE：均方误差值样本偏离参数实际值平方的大小，即 $(g^(X)−g(θ))2(\hat g(X)-g(\theta))^2$ ，它与偏差 $g^(X)−g(X)\hat g(X)-g(X)$ 的区别是，可以消除偏差正负相互抵消的影响，也可以直接用数值大小判断优劣。显然我们希望估计量 $g^(X)\hat g(X)$ 的均方误差越小越好。

如果对于任何 $θ∈Θ\theta\in\Theta$ ，都有 $Eθ(g^1(X)−g(θ))2≤Eθ(g^2(X)−g(θ))2E_\theta(\hat g_1(X)-g(\theta))^2\le E_\theta(\hat g_2(X)-g(\theta))^2$ ，且至少存在一个 $θ0\theta_0$ 使得不等号成立，那么就说估计量 $g^1(X)\hat g_1(X)$ 在MSE意义下优于 $g^2(X)\hat g_2(X)$ ；如果存在某个 $g^∗(X)\hat g^*(X)$ 在MSE意义下优于一切其他估计量 $g^(X)\hat g(X)$ ，就说 $g^∗(X)\hat g^*(X)$ 是参数 $g(θ)g(\theta)$ 的一致最小均方误差估计。

可惜一致最小均方误差估计常常不存在，因此将参与比较的估计量缩小范围，在无偏估计类中寻找。此时
$Eθ(g^(X))=g(θ)Eθ(g^(X)−g(θ))2=Eθ([g^(X)]2+[g(θ)]2−2[g^(X)g(θ)])=Eθ[g^(X)]2−(Eθ[g^(X)])2=Dθ[g^(X)] E_\theta(\hat g(X))=g(\theta)\\ \begin{aligned} &E_\theta(\hat g(X)-g(\theta))^2\\ =&E_\theta([\hat g(X)]^2+[g(\theta)]^2-2[\hat g(X)g(\theta)])\\ =&E_\theta[\hat g(X)]^2-(E_\theta[\hat g(X)])^2\\ =&D_\theta[\hat g(X)] \end{aligned}$
均方误差便成为了方差。只要参数的无偏估计存在，就可以找到这样的无偏估计类，而含有无偏估计的参数称为可估参数，含有无偏估计的参数函数便称为可估函数。

有些参数函数就是不可估的，如二项分布 $b (n, p)$ 中， $1 / p$ 没有无偏估计。

假设存在这样一个估计量 $g (X)$ ，由于二项分布可以取到的样本观测值 $x$ 至多可以为 $,n}\{0,1,2,\cdots,n\}$ ，所以估计量 $g (X)$ 也至多只有 $n + 1$ 个观测值，记 $g(X=i)=a_i$ ，根据题意有
$\sum_{i=0}^nC_n^ip^i(1-p)^{n-i}=\frac1p\\ \sum_{i=1}^nC_n^ip^{i+1}(1-p)^{n-i}-1=0$
这是一个关于 $p$ 的 $n + 1$ 次方程，满足方程的根至多有 $n + 1$ 个，然而 $p$ 可以在 $(0, 1)$ 中任意取值，因此这个方程不可能对任何 $p$ 成立，也就是说 $E_p(g(X))=1/p$ 不可能对所有 $p$ 存在，因此 $1 / p$ 没有无偏估计。

2.一致最小方差无偏估计

将一致最小MSE估计的估计类进行无偏的限制，就得到了一致最小方差无偏估计UMVUE的定义。

设 $F={f(x,θ),θ∈Θ}\mathscr F=\{f(x,\theta),\theta\in\Theta\}$ 是一个参数分布族， $g(θ)g(\theta)$ 是定义在 $Θ\Theta$ 上的可估函数，设 $g^∗(X)=g^∗(X1,⋯ ,Xn)\hat g^*(X)=\hat g^*(X_1,\cdots,X_n)$ 是 $g(θ)g(\theta)$ 的一个无偏估计，如果对任何 $g(θ)g(\theta)$ 的无偏估计 $g^(X)\hat g(X)$ ，都有 $Dθ(g^∗(X))≤Dθ(g^(X)),∀θ∈ΘD_\theta(\hat g^*(X))\le D_\theta(\hat g(X)),\forall \theta \in\Theta$ ，则称 $g^∗(X)\hat g^*(X)$ 是 $g(θ)g(\theta)$ 的UMVUE。

在寻找UMVUE之前，有一个基于充分统计量的改进无偏估计的方法。设 $T = T (X)$ 是一个充分统计量， $g^(X)\hat g(X)$ 是 $g(θ)g(\theta)$ 的一个无偏估计，则 $h(T)=E(g^(X)∣T)h(T)=E(\hat g(X)|T)$ 是 $g(θ)g(\theta)$ 的一致最小方差意义下更好的无偏估计。

首先证明 $h (T)$ 是一个统计量，由于 $T$ 是充分的，因此在给定 $T$ 时 $X$ 的条件分布与参数无关，所以 $h(T)=E(g^(X)∣T)h(T)=E(\hat g(X)|T)$ 首先是一个统计量，给定样本观测值就可以求出。且 $Eθ(h(T))=Eθ[E(g^(X)∣T)]=E(g^(X))=g(θ)E_\theta(h(T))=E_\theta[E(\hat g(X)|T)]=E(\hat g(X))=g(\theta)$ （条件期望），是无偏的。
$Dθ(g^(X))=Eθ{[g^(X)−h(T)]+[h(T)−g(θ)]}2=Eθ[g^(X)−h(T)]2+Eθ[h(T)−g(θ)]2+2Eθ[g^(X)−h(T)][h(T)−g(θ)]=Eθ[g^(X)−h(T)]2+Dθ(h(T))+2Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ[g^(X)−h(T)][h(T)−g(θ)]=Eθ{[Eθ[g^(X)−h(T)][h(T)−g(θ)]}=Eθ{[h(T)−g(θ)]Eθ[[g^(X)−h(T)]∣T]}=Eθ{[h(T)−g(θ)]Eθ[g^(X∣T)]−h(T)}=0 \begin{aligned} D_\theta(\hat g(X))=&E_\theta\{[\hat g(X)-h(T)]+[h(T)-g(\theta)]\}^2\\ =&E_\theta[\hat g(X)-h(T)]^2+E_\theta[h(T)-g(\theta)]^2+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ =&E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ \\ &E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ =&E_\theta\{[E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\}\\ =&E_\theta\{[h(T)-g(\theta)]E_\theta[[\hat g(X)-h(T)]|T]\}\\ =&E_\theta\{[h(T)-g(\theta)]E_\theta[\hat g(X|T)]-h(T)\}\\ =&0 \end{aligned}$
所以有 $Dθ(g^(X))=Eθ[g^(X)−h(T)]2+Dθ(h(T))≥Dθ(h(T))D_\theta(\hat g(X))=E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))\ge D_\theta(h(T))$ 。

这个改进方法指出，如果原估计 $g^(X)\hat g(X)$ 不是统计量 $T$ 的函数，则可以改进为方差更小的无偏估计量。因此，UMVUE一定是充分统计量的函数。但这样的改进是否是UMVUE仍不确定，因此需要寻找UMVUE的方法。

3.寻找UMVUE的方法

零无偏估计法是基于零无偏估计量的寻找方法，零无偏估计量即期望为0的统计量 $l(X),Eθl(X)=0,∀θ∈Θl(X),E_\theta l(X)=0,\forall \theta\in\Theta$ 。如果对于任何零无偏估计量 $l (X)$ ，都有
$Covθ(g^(X),l(X))=Eθ[g^(X)⋅l(X)]=0 Cov_\theta(\hat g(X),l(X))=E_\theta[\hat g(X)\cdot l(X)]=0$
成立，则 $g^(X)\hat g(X)$ 是 $g(θ)g(\theta)$ 的UMVUE。即 $Eθ[g^(X),l(X)]=0E_\theta[\hat g(X),l(X)]=0$ 是UMVUE的充分条件，事实上也是必要条件。

假设还有其他的无偏估计 $g (X)$ ，则 $l(X)=g(X)−g^(X)l(X)=g(X)-\hat g(X)$ 是一个零无偏估计量，那么
$Dθ(g(X))=Dθ(g^(X)+l(X))=Dθ(g^(X))+Dθ(l(X))+2Covθ(g^(X),l(X))=Dθ(g^(X))+Dθ(l(X))≥Dθ(g^(X)) \begin{aligned} D_\theta(g(X))=&D_\theta(\hat g(X)+l(X))\\ =&D_\theta(\hat g(X))+D_\theta(l(X))+2Cov_\theta(\hat g(X),l(X))\\ =&D_\theta(\hat g(X))+D_\theta(l(X))\\ \ge &D_\theta(\hat g(X)) \end{aligned}$
说明 $g^(X)\hat g(X)$ 就是UMVUE。

定理的内容并没有提及如何寻找这个 $g^(X)\hat g(X)$ ，只给了验证 $g^(X)\hat g(X)$ 是UMVUE的方法，对于UMVUE的寻找需要用直观的想法提出，如通过矩估计或极大似然估计等方法获得一个估计量，再对其是否为UMVUE加以验证。

在实际应用中，由于UMVUE一定是充分统计量 $T$ 的函数，因此零无偏估计法还可以加以改动。如果 $h (T (X))$ 是 $g(θ)g(\theta)$ 的一个无偏估计， $Dθ(h(T))<∞D_\theta(h(T))<\infty$ ，如果对任何 $Eθδ(T)=0,∀θ∈ΘE_\theta \delta(T)=0,\forall \theta \in\Theta$ 的统计量 $δ(T)\delta(T)$ ，都有 $Covθ(h(T),δ(T))=Eθ[h(T)δ(T)]=0,∀θ∈ΘCov_\theta(h(T),\delta(T))=E_\theta[h(T)\delta(T)]=0,\forall \theta \in\Theta$ ，则 $h (T)$ 是 $g(θ)g(\theta)$ 的UMVUE。

对于零无偏估计的处理，如果是连续的，可以尝试将密度函数对参数求导；如果是离散的，可以尝试写出求和式。

零无偏估计量法适用于验证某一统计量是UMVUE，而充分完全统计量法则是求UMVUE的方法。

Lehmann-Scheff定理（L-S定理）：设 $X∼{f(x,θ),θ∈Θ}X\sim \{f(x,\theta), \theta\in \Theta\}$ ， $T (X)$ 是一个充分完全统计量。如果 $g^(T(X))\hat g(T(X))$ 是 $g(θ)g(\theta)$ 的一个无偏估计，则 $g^(T(X))\hat g(T(X))$ 是 $g(θ)g(\theta)$ 唯一的UMVUE。这里的唯一，指仅存在一个概率为0的集合上有 $g^≠g\hat g\ne g$ ，就将 $g,g^g,\hat g$ 视为同一个统计量。

设 $g^1(T(X))\hat g_1(T(X))$ 是 $g(θ)g(\theta)$ 的任一无偏估计，令 $δ(T(X))=g^(T(X))−g^1(T(X))\delta(T(X))=\hat g(T(X))-\hat g_1(T(X))$ ，则 $Eθδ(T(X))=0E_\theta\delta(T(X))=0$ ，因为 $T (X)$ 是完全统计量，所以 $δ(T(X))=0,a.s.Pθ\delta(T(X))=0, \text{a.s.}P_\theta$ ，即唯一。

现设 $φ(X)\varphi(X)$ 是 $g(θ)g(\theta)$ 的任一无偏估计，令 $h(T(X))=E[φ(X)∣T]h(T(X))=E[\varphi(X)|T]$ ，由于 $T (X)$ 是充分统计量，所以 $h (T (X))$ 与参数无关，是统计量。并且 $h (T (X))$ 是一个比 $φ(X)\varphi(X)$ 更好的无偏估计。由唯一性就得到 $g^(T(X))=h(E(X)) a.e.Pθ\hat g(T(X))=h(E(X)) \text{ a.e.}P_\theta$ 。这样就有
$Dθ(g^(T(X)))=Dθ(h(T(X))≤Dθ(φ(X)) D_\theta(\hat g(T(X)))=D_\theta(h(T(X))\le D_\theta(\varphi(X))$
说明 $g^(T(X))\hat g(T(X))$ 是 $g(θ)g(\theta)$ 的UMVUE。

从正面过程也可以看出，利用充分完全统计量法求UMVUE，需要先找到一个无偏估计 $φ(X)\varphi(X)$ 与一个充分完备统计量 $T (X)$ ，再求 $Eθ[φ(X)∣E]E_\theta[\varphi(X)|E]$ 。

对于自然形式的指数族而言，样本的概率密度函数为
$f(\boldsymbol{x,\theta})=C(\boldsymbol {\theta})\text{exp}\left\{\sum_{j=i}^k\theta_jT_j(\boldsymbol x)\right\}h(\boldsymbol x),\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in\Theta^*$
令 $,Tk(X))T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X))$ （这样 $T$ 是充分统计量），如果自然参数空间 $Θ∗\Theta^*$ 作为 $Rk\mathbf R^k$ 的子集有内点（这样 $T$ 是完备统计量），且 $h(T(X))h(T(\boldsymbol X))$ 为 $g(θ)g(\theta)$ 的无偏估计，则 $h(T(X))h(T(\boldsymbol X))$ 是 $g(θ)g(\boldsymbol \theta)$ 的唯一UMVUE。