总体方差和样本方差

我们知道,统计学上方差的计算公式如下:
σ2=∑i=1n(xi−μ)n \sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)}{n}σ2=ni=1n(xiμ)
这是统计学中方差的定义,已知条件有总体的均值μ\muμ,以及总体个数nnn,公式的另一种写法为:
σ2=E[(x−μ)2]=∑(x−μ)2p(x)\sigma^2=E[(x-\mu)^2]=\sum{(x-\mu)^2}p(x)σ2=E[(xμ)2]=(xμ)2p(x)
其中p(x)p(x)p(x)xxx出现的概率,所以这个公式只对于离散变量有效


那么,如果总体量很大,不能做到全部采样,那么就需要用样本来估计总体,假设从总体为NNN的总数中抽取nnn个样本,其中(N>>n)(N>>n)(N>>n),采样值为x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn
样本均值为:
xˉ=∑i=1nxin\bar{x}=\frac{\sum_{i=1}^{n}{x_i}}{n}xˉ=ni=1nxi
样本的方差为:
S2=∑i=1n(xi−xˉ)2n S^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}S2=ni=1n(xixˉ)2
但是样本的方差和总体的方差是有差别的,计算样本方差的期望值,来估计样本方差和实际方差σ2\sigma^2σ2之间差了多少:
E[S2]=E[∑i=1n(xi−xˉ)2n] E[S^2]=E[\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}]E[S2]=E[ni=1n(xixˉ)2]
=E[1n∑i=1n((xi−μ)−(xˉ−μ))2]=E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)-(\bar{x}-\mu))^2}]=E[n1i=1n((xiμ)(xˉμ))2]
=E[1n∑i=1n((xi−μ)2−2(xi−μ)(xˉ−μ)+(xˉ−μ)2)]=E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)^2-2(x_i-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^2)}]=E[n1i=1n((xiμ)22(xiμ)(xˉμ)+(xˉμ)2)]
=E[1n∑i=1n(xi−μ)2−2n(xˉ−μ)∑i=1n(xi−μ)+(xˉ−μ)2]=E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2]=E[n1i=1n(xiμ)2n2(xˉμ)i=1n(xiμ)+(xˉμ)2]
其中
∑i=1n(xi−μ)\sum_{i=1}^{n}{(x_i-\mu)}i=1n(xiμ)
=∑i=1nxi−∑i=1nμ=\sum_{i=1}^{n}{x_i}-\sum_{i=1}^{n}{\mu}=i=1nxii=1nμ
=n(xˉ−μ)=n(\bar{x}-\mu)=n(xˉμ)
所以
=E[1n∑i=1n(xi−μ)2−2n(xˉ−μ)∑i=1n(xi−μ)+(xˉ−μ)2]=E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2]=E[n1i=1n(xiμ)2n2(xˉμ)i=1n(xiμ)+(xˉμ)2]
=E[1n∑i=1n(xi−μ)2−2(xˉ−μ)2+(xˉ−μ)2]=E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-2(\bar{x}-\mu)^2+(\bar{x}-\mu)^2]=E[n1i=1n(xiμ)22(xˉμ)2+(xˉμ)2]
=σ2−E[(xˉ−μ)2]=\sigma^2-E[(\bar{x}-\mu)^2]=σ2E[(xˉμ)2]
(这里σ2\sigma^2σ2是因为样本方差的期望值是总体方差)
E[(xˉ−μ)2]E[(\bar{x}-\mu)^2]E[(xˉμ)2]
=E(xˉ−E[xˉ])2=E(\bar{x}-E[\bar{x}])^2=E(xˉE[xˉ])2
=var(xˉ)=var(\bar{x})=var(xˉ)
=1n2var(∑i=1nxi)=\frac{1}{n^2}var(\sum_{i=1}^{n}{x_i})=n21var(i=1nxi)
=1n2∑i=1nvar(xi)=\frac{1}{n^2}\sum_{i=1}^{n}{var(x_i)}=n21i=1nvar(xi)
=nσ2n2=\frac{n\sigma^2}{n^2}=n2nσ2
=σ2n=\frac{\sigma^2}{n}=nσ2
根据上面推导的式子,有以下计算:
σ2−E[(xˉ−μ)2]\sigma^2-E[(\bar{x}-\mu)^2]σ2E[(xˉμ)2]
=σ2−σ2n=\sigma^2-\frac{\sigma^2}{n}=σ2nσ2
=n−1nσ2=\frac{n-1}{n}\sigma^2=nn1σ2
也就是说,样本估计的方差是总体方差的n−1n\frac{n-1}{n}nn1倍,即所谓的有偏估计。要转换成无偏估计,只需要乘以倍数就可以了
nn−1S2=nn−1∑i=1n(xi−xˉ)n=∑i=1n(xi−xˉ)n−1\frac{n}{n-1}S^2=\frac{n}{n-1}\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n-1}n1nS2=n1nni=1n(xixˉ)=n1i=1n(xixˉ)
这即是所谓的无偏估计


当然,还有一种比较直接的解释,由于是求样本中的方差,所以在求解样本均值时,已经用掉了一个自由度的值,所以求方差时,其实有用的值会少一个。例如在只有一个样本时,这时求样本方差是不能估计总体方差的。
所以,总体方差和样本方差的区别是在于信息量,总体的信息是完全确定的,即这时求出来的统计参数都是能确定地表征总体的分布信息。但是用样本的信息去估计总体,则不能确定表征总体的分布信息,之间相差了一个自由度。

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值