第三章 点估计(3)
1.一致最小均方误差估计
均方误差MSE:均方误差值样本偏离参数实际值平方的大小,即(g^(X)−g(θ))2(\hat g(X)-g(\theta))^2(g^(X)−g(θ))2,它与偏差g^(X)−g(X)\hat g(X)-g(X)g^(X)−g(X)的区别是,可以消除偏差正负相互抵消的影响,也可以直接用数值大小判断优劣。显然我们希望估计量g^(X)\hat g(X)g^(X)的均方误差越小越好。
如果对于任何θ∈Θ\theta\in\Thetaθ∈Θ,都有Eθ(g^1(X)−g(θ))2≤Eθ(g^2(X)−g(θ))2E_\theta(\hat g_1(X)-g(\theta))^2\le E_\theta(\hat g_2(X)-g(\theta))^2Eθ(g^1(X)−g(θ))2≤Eθ(g^2(X)−g(θ))2,且至少存在一个θ0\theta_0θ0使得不等号成立,那么就说估计量g^1(X)\hat g_1(X)g^1(X)在MSE意义下优于g^2(X)\hat g_2(X)g^2(X);如果存在某个g^∗(X)\hat g^*(X)g^∗(X)在MSE意义下优于一切其他估计量g^(X)\hat g(X)g^(X),就说g^∗(X)\hat g^*(X)g^∗(X)是参数g(θ)g(\theta)g(θ)的一致最小均方误差估计。
可惜一致最小均方误差估计常常不存在,因此将参与比较的估计量缩小范围,在无偏估计类中寻找。此时
Eθ(g^(X))=g(θ)Eθ(g^(X)−g(θ))2=Eθ([g^(X)]2+[g(θ)]2−2[g^(X)g(θ)])=Eθ[g^(X)]2−(Eθ[g^(X)])2=Dθ[g^(X)]
E_\theta(\hat g(X))=g(\theta)\\
\begin{aligned}
&E_\theta(\hat g(X)-g(\theta))^2\\
=&E_\theta([\hat g(X)]^2+[g(\theta)]^2-2[\hat g(X)g(\theta)])\\
=&E_\theta[\hat g(X)]^2-(E_\theta[\hat g(X)])^2\\
=&D_\theta[\hat g(X)]
\end{aligned}
Eθ(g^(X))=g(θ)===Eθ(g^(X)−g(θ))2Eθ([g^(X)]2+[g(θ)]2−2[g^(X)g(θ)])Eθ[g^(X)]2−(Eθ[g^(X)])2Dθ[g^(X)]
均方误差便成为了方差。只要参数的无偏估计存在,就可以找到这样的无偏估计类,而含有无偏估计的参数称为可估参数,含有无偏估计的参数函数便称为可估函数。
-
有些参数函数就是不可估的,如二项分布b(n,p)b(n,p)b(n,p)中,1/p1/p1/p没有无偏估计。
假设存在这样一个估计量g(X)g(X)g(X),由于二项分布可以取到的样本观测值xxx至多可以为{0,1,2,⋯ ,n}\{0,1,2,\cdots,n\}{0,1,2,⋯,n},所以估计量g(X)g(X)g(X)也至多只有n+1n+1n+1个观测值,记g(X=i)=aig(X=i)=a_ig(X=i)=ai,根据题意有
∑i=0nCnipi(1−p)n−i=1p∑i=1nCnipi+1(1−p)n−i−1=0 \sum_{i=0}^nC_n^ip^i(1-p)^{n-i}=\frac1p\\ \sum_{i=1}^nC_n^ip^{i+1}(1-p)^{n-i}-1=0 i=0∑nCnipi(1−p)n−i=p1i=1∑nCnipi+1(1−p)n−i−1=0
这是一个关于ppp的n+1n+1n+1次方程,满足方程的根至多有n+1n+1n+1个,然而ppp可以在(0,1)(0,1)(0,1)中任意取值,因此这个方程不可能对任何ppp成立,也就是说Ep(g(X))=1/pE_p(g(X))=1/pEp(g(X))=1/p不可能对所有ppp存在,因此1/p1/p1/p没有无偏估计。
2.一致最小方差无偏估计
将一致最小MSE估计的估计类进行无偏的限制,就得到了一致最小方差无偏估计UMVUE的定义。
设F={f(x,θ),θ∈Θ}\mathscr F=\{f(x,\theta),\theta\in\Theta\}F={f(x,θ),θ∈Θ}是一个参数分布族,g(θ)g(\theta)g(θ)是定义在Θ\ThetaΘ上的可估函数,设g^∗(X)=g^∗(X1,⋯ ,Xn)\hat g^*(X)=\hat g^*(X_1,\cdots,X_n)g^∗(X)=g^∗(X1,⋯,Xn)是g(θ)g(\theta)g(θ)的一个无偏估计,如果对任何g(θ)g(\theta)g(θ)的无偏估计g^(X)\hat g(X)g^(X),都有Dθ(g^∗(X))≤Dθ(g^(X)),∀θ∈ΘD_\theta(\hat g^*(X))\le D_\theta(\hat g(X)),\forall \theta \in\ThetaDθ(g^∗(X))≤Dθ(g^(X)),∀θ∈Θ,则称g^∗(X)\hat g^*(X)g^∗(X)是g(θ)g(\theta)g(θ)的UMVUE。
在寻找UMVUE之前,有一个基于充分统计量的改进无偏估计的方法。设T=T(X)T=T(X)T=T(X)是一个充分统计量,g^(X)\hat g(X)g^(X)是g(θ)g(\theta)g(θ)的一个无偏估计,则h(T)=E(g^(X)∣T)h(T)=E(\hat g(X)|T)h(T)=E(g^(X)∣T)是g(θ)g(\theta)g(θ)的一致最小方差意义下更好的无偏估计。
首先证明h(T)h(T)h(T)是一个统计量,由于TTT是充分的,因此在给定TTT时XXX的条件分布与参数无关,所以h(T)=E(g^(X)∣T)h(T)=E(\hat g(X)|T)h(T)=E(g^(X)∣T)首先是一个统计量,给定样本观测值就可以求出。且Eθ(h(T))=Eθ[E(g^(X)∣T)]=E(g^(X))=g(θ)E_\theta(h(T))=E_\theta[E(\hat g(X)|T)]=E(\hat g(X))=g(\theta)Eθ(h(T))=Eθ[E(g^(X)∣T)]=E(g^(X))=g(θ)(条件期望),是无偏的。
Dθ(g^(X))=Eθ{[g^(X)−h(T)]+[h(T)−g(θ)]}2=Eθ[g^(X)−h(T)]2+Eθ[h(T)−g(θ)]2+2Eθ[g^(X)−h(T)][h(T)−g(θ)]=Eθ[g^(X)−h(T)]2+Dθ(h(T))+2Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ[g^(X)−h(T)][h(T)−g(θ)]=Eθ{[Eθ[g^(X)−h(T)][h(T)−g(θ)]}=Eθ{[h(T)−g(θ)]Eθ[[g^(X)−h(T)]∣T]}=Eθ{[h(T)−g(θ)]Eθ[g^(X∣T)]−h(T)}=0
\begin{aligned}
D_\theta(\hat g(X))=&E_\theta\{[\hat g(X)-h(T)]+[h(T)-g(\theta)]\}^2\\
=&E_\theta[\hat g(X)-h(T)]^2+E_\theta[h(T)-g(\theta)]^2+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\
=&E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\
\\
&E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\
=&E_\theta\{[E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\}\\
=&E_\theta\{[h(T)-g(\theta)]E_\theta[[\hat g(X)-h(T)]|T]\}\\
=&E_\theta\{[h(T)-g(\theta)]E_\theta[\hat g(X|T)]-h(T)\}\\
=&0
\end{aligned}
Dθ(g^(X))=======Eθ{[g^(X)−h(T)]+[h(T)−g(θ)]}2Eθ[g^(X)−h(T)]2+Eθ[h(T)−g(θ)]2+2Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ[g^(X)−h(T)]2+Dθ(h(T))+2Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ{[Eθ[g^(X)−h(T)][h(T)−g(θ)]}Eθ{[h(T)−g(θ)]Eθ[[g^(X)−h(T)]∣T]}Eθ{[h(T)−g(θ)]Eθ[g^(X∣T)]−h(T)}0
所以有Dθ(g^(X))=Eθ[g^(X)−h(T)]2+Dθ(h(T))≥Dθ(h(T))D_\theta(\hat g(X))=E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))\ge D_\theta(h(T))Dθ(g^(X))=Eθ[g^(X)−h(T)]2+Dθ(h(T))≥Dθ(h(T))。
这个改进方法指出,如果原估计g^(X)\hat g(X)g^(X)不是统计量TTT的函数,则可以改进为方差更小的无偏估计量。因此,UMVUE一定是充分统计量的函数。但这样的改进是否是UMVUE仍不确定,因此需要寻找UMVUE的方法。
3.寻找UMVUE的方法
零无偏估计法是基于零无偏估计量的寻找方法,零无偏估计量即期望为0的统计量l(X),Eθl(X)=0,∀θ∈Θl(X),E_\theta l(X)=0,\forall \theta\in\Thetal(X),Eθl(X)=0,∀θ∈Θ。如果对于任何零无偏估计量l(X)l(X)l(X),都有
Covθ(g^(X),l(X))=Eθ[g^(X)⋅l(X)]=0
Cov_\theta(\hat g(X),l(X))=E_\theta[\hat g(X)\cdot l(X)]=0
Covθ(g^(X),l(X))=Eθ[g^(X)⋅l(X)]=0
成立,则g^(X)\hat g(X)g^(X)是g(θ)g(\theta)g(θ)的UMVUE。即Eθ[g^(X),l(X)]=0E_\theta[\hat g(X),l(X)]=0Eθ[g^(X),l(X)]=0是UMVUE的充分条件,事实上也是必要条件。
假设还有其他的无偏估计g(X)g(X)g(X),则l(X)=g(X)−g^(X)l(X)=g(X)-\hat g(X)l(X)=g(X)−g^(X)是一个零无偏估计量,那么
Dθ(g(X))=Dθ(g^(X)+l(X))=Dθ(g^(X))+Dθ(l(X))+2Covθ(g^(X),l(X))=Dθ(g^(X))+Dθ(l(X))≥Dθ(g^(X))
\begin{aligned}
D_\theta(g(X))=&D_\theta(\hat g(X)+l(X))\\
=&D_\theta(\hat g(X))+D_\theta(l(X))+2Cov_\theta(\hat g(X),l(X))\\
=&D_\theta(\hat g(X))+D_\theta(l(X))\\
\ge &D_\theta(\hat g(X))
\end{aligned}
Dθ(g(X))===≥Dθ(g^(X)+l(X))Dθ(g^(X))+Dθ(l(X))+2Covθ(g^(X),l(X))Dθ(g^(X))+Dθ(l(X))Dθ(g^(X))
说明g^(X)\hat g(X)g^(X)就是UMVUE。
定理的内容并没有提及如何寻找这个g^(X)\hat g(X)g^(X),只给了验证g^(X)\hat g(X)g^(X)是UMVUE的方法,对于UMVUE的寻找需要用直观的想法提出,如通过矩估计或极大似然估计等方法获得一个估计量,再对其是否为UMVUE加以验证。
在实际应用中,由于UMVUE一定是充分统计量TTT的函数,因此零无偏估计法还可以加以改动。如果h(T(X))h(T(X))h(T(X))是g(θ)g(\theta)g(θ)的一个无偏估计,Dθ(h(T))<∞D_\theta(h(T))<\inftyDθ(h(T))<∞,如果对任何Eθδ(T)=0,∀θ∈ΘE_\theta \delta(T)=0,\forall \theta \in\ThetaEθδ(T)=0,∀θ∈Θ的统计量δ(T)\delta(T)δ(T),都有Covθ(h(T),δ(T))=Eθ[h(T)δ(T)]=0,∀θ∈ΘCov_\theta(h(T),\delta(T))=E_\theta[h(T)\delta(T)]=0,\forall \theta \in\ThetaCovθ(h(T),δ(T))=Eθ[h(T)δ(T)]=0,∀θ∈Θ,则h(T)h(T)h(T)是g(θ)g(\theta)g(θ)的UMVUE。
对于零无偏估计的处理,如果是连续的,可以尝试将密度函数对参数求导;如果是离散的,可以尝试写出求和式。
零无偏估计量法适用于验证某一统计量是UMVUE,而充分完全统计量法则是求UMVUE的方法。
Lehmann-Scheff定理(L-S定理):设X∼{f(x,θ),θ∈Θ}X\sim \{f(x,\theta), \theta\in \Theta\}X∼{f(x,θ),θ∈Θ},T(X)T(X)T(X)是一个充分完全统计量。如果g^(T(X))\hat g(T(X))g^(T(X))是g(θ)g(\theta)g(θ)的一个无偏估计,则g^(T(X))\hat g(T(X))g^(T(X))是g(θ)g(\theta)g(θ)唯一的UMVUE。这里的唯一,指仅存在一个概率为0的集合上有g^≠g\hat g\ne gg^=g,就将g,g^g,\hat gg,g^视为同一个统计量。
设g^1(T(X))\hat g_1(T(X))g^1(T(X))是g(θ)g(\theta)g(θ)的任一无偏估计,令δ(T(X))=g^(T(X))−g^1(T(X))\delta(T(X))=\hat g(T(X))-\hat g_1(T(X))δ(T(X))=g^(T(X))−g^1(T(X)),则Eθδ(T(X))=0E_\theta\delta(T(X))=0Eθδ(T(X))=0,因为T(X)T(X)T(X)是完全统计量,所以δ(T(X))=0,a.s.Pθ\delta(T(X))=0, \text{a.s.}P_\thetaδ(T(X))=0,a.s.Pθ,即唯一。
现设φ(X)\varphi(X)φ(X)是g(θ)g(\theta)g(θ)的任一无偏估计,令h(T(X))=E[φ(X)∣T]h(T(X))=E[\varphi(X)|T]h(T(X))=E[φ(X)∣T],由于T(X)T(X)T(X)是充分统计量,所以h(T(X))h(T(X))h(T(X))与参数无关,是统计量。并且h(T(X))h(T(X))h(T(X))是一个比φ(X)\varphi(X)φ(X)更好的无偏估计。由唯一性就得到g^(T(X))=h(E(X)) a.e.Pθ\hat g(T(X))=h(E(X)) \text{ a.e.}P_\thetag^(T(X))=h(E(X)) a.e.Pθ。这样就有
Dθ(g^(T(X)))=Dθ(h(T(X))≤Dθ(φ(X))
D_\theta(\hat g(T(X)))=D_\theta(h(T(X))\le D_\theta(\varphi(X))
Dθ(g^(T(X)))=Dθ(h(T(X))≤Dθ(φ(X))
说明g^(T(X))\hat g(T(X))g^(T(X))是g(θ)g(\theta)g(θ)的UMVUE。
从正面过程也可以看出,利用充分完全统计量法求UMVUE,需要先找到一个无偏估计φ(X)\varphi(X)φ(X)与一个充分完备统计量T(X)T(X)T(X),再求Eθ[φ(X)∣E]E_\theta[\varphi(X)|E]Eθ[φ(X)∣E]。
对于自然形式的指数族而言,样本的概率密度函数为
f(x,θ)=C(θ)exp{∑j=ikθjTj(x)}h(x),θ=(θ1,⋯ ,θk)∈Θ∗
f(\boldsymbol{x,\theta})=C(\boldsymbol {\theta})\text{exp}\left\{\sum_{j=i}^k\theta_jT_j(\boldsymbol x)\right\}h(\boldsymbol x),\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in\Theta^*
f(x,θ)=C(θ)exp{j=i∑kθjTj(x)}h(x),θ=(θ1,⋯,θk)∈Θ∗
令T(X)=(T1(X),⋯ ,Tk(X))T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X))T(X)=(T1(X),⋯,Tk(X))(这样TTT是充分统计量),如果自然参数空间Θ∗\Theta^*Θ∗作为Rk\mathbf R^kRk的子集有内点(这样TTT是完备统计量),且h(T(X))h(T(\boldsymbol X))h(T(X))为g(θ)g(\theta)g(θ)的无偏估计,则h(T(X))h(T(\boldsymbol X))h(T(X))是g(θ)g(\boldsymbol \theta)g(θ)的唯一UMVUE。
本文探讨了点估计中的重要概念,包括一致最小均方误差估计和一致最小方差无偏估计(UMVUE)。介绍了UMVUE的定义、改进方法及寻找策略,如零无偏估计法和充分完全统计量法,并详细解析了Lehmann-Scheff定理的应用。
363

被折叠的 条评论
为什么被折叠?



