总体方差和样本方差

最新推荐文章于 2024-06-09 16:55:15 发布

原创最新推荐文章于 2024-06-09 16:55:15 发布 · 3.4w 阅读

60 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#统计学 #样本方差

数学专栏收录该内容

2 篇文章

订阅专栏

我们知道，统计学上方差的计算公式如下：
$\sigma^2=\frac{\sum_{i=1}^{n}(x_i-\mu)}{n}$
这是统计学中方差的定义，已知条件有总体的均值 $μ\mu$ ，以及总体个数 $n$ ，公式的另一种写法为：
$σ2=E[(x−μ)2]=∑(x−μ)2p(x)\sigma^2=E[(x-\mu)^2]=\sum{(x-\mu)^2}p(x)$
其中 $p (x)$ 是 $x$ 出现的概率，所以这个公式只对于离散变量有效

那么，如果总体量很大，不能做到全部采样，那么就需要用样本来估计总体，假设从总体为 $N$ 的总数中抽取 $n$ 个样本，其中 $(N > > n)$ ，采样值为 $x_1,x_2,...,x_n$
样本均值为：
$xˉ=∑i=1nxin\bar{x}=\frac{\sum_{i=1}^{n}{x_i}}{n}$
样本的方差为：
$S^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}$
但是样本的方差和总体的方差是有差别的，计算样本方差的期望值，来估计样本方差和实际方差 $σ2\sigma^2$ 之间差了多少：
$E[S^2]=E[\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n}]$
$=E[1n∑i=1n((xi−μ)−(xˉ−μ))2]=E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)-(\bar{x}-\mu))^2}]$
$=E[1n∑i=1n((xi−μ)2−2(xi−μ)(xˉ−μ)+(xˉ−μ)2)]=E[\frac{1}{n}\sum_{i=1}^{n}{((x_i-\mu)^2-2(x_i-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^2)}]$
$=E[1n∑i=1n(xi−μ)2−2n(xˉ−μ)∑i=1n(xi−μ)+(xˉ−μ)2]=E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2]$
其中
$∑i=1n(xi−μ)\sum_{i=1}^{n}{(x_i-\mu)}$
$=∑i=1nxi−∑i=1nμ=\sum_{i=1}^{n}{x_i}-\sum_{i=1}^{n}{\mu}$
$=n(xˉ−μ)=n(\bar{x}-\mu)$
所以
$=E[1n∑i=1n(xi−μ)2−2n(xˉ−μ)∑i=1n(xi−μ)+(xˉ−μ)2]=E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-\frac{2}{n}(\bar{x}-\mu)\sum_{i=1}^{n}{(x_i-\mu)}+(\bar{x}-\mu)^2]$
$=E[1n∑i=1n(xi−μ)2−2(xˉ−μ)2+(xˉ−μ)2]=E[\frac{1}{n}\sum_{i=1}^{n}{(x_i-\mu)^2}-2(\bar{x}-\mu)^2+(\bar{x}-\mu)^2]$
$=σ2−E[(xˉ−μ)2]=\sigma^2-E[(\bar{x}-\mu)^2]$
（这里 $σ2\sigma^2$ 是因为样本方差的期望值是总体方差）
$E[(xˉ−μ)2]E[(\bar{x}-\mu)^2]$
$=E(xˉ−E[xˉ])2=E(\bar{x}-E[\bar{x}])^2$
$=var(xˉ)=var(\bar{x})$
$=1n2var(∑i=1nxi)=\frac{1}{n^2}var(\sum_{i=1}^{n}{x_i})$
$=1n2∑i=1nvar(xi)=\frac{1}{n^2}\sum_{i=1}^{n}{var(x_i)}$
$=nσ2n2=\frac{n\sigma^2}{n^2}$
$=σ2n=\frac{\sigma^2}{n}$
根据上面推导的式子，有以下计算：
$σ2−E[(xˉ−μ)2]\sigma^2-E[(\bar{x}-\mu)^2]$
$=σ2−σ2n=\sigma^2-\frac{\sigma^2}{n}$
$=n−1nσ2=\frac{n-1}{n}\sigma^2$
也就是说，样本估计的方差是总体方差的 $n−1n\frac{n-1}{n}$ 倍，即所谓的有偏估计。要转换成无偏估计，只需要乘以倍数就可以了
$nn−1S2=nn−1∑i=1n(xi−xˉ)n=∑i=1n(xi−xˉ)n−1\frac{n}{n-1}S^2=\frac{n}{n-1}\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n}=\frac{\sum_{i=1}^{n}(x_i-\bar{x})}{n-1}$
这即是所谓的无偏估计

当然，还有一种比较直接的解释，由于是求样本中的方差，所以在求解样本均值时，已经用掉了一个自由度的值，所以求方差时，其实有用的值会少一个。例如在只有一个样本时，这时求样本方差是不能估计总体方差的。
所以，总体方差和样本方差的区别是在于信息量，总体的信息是完全确定的，即这时求出来的统计参数都是能确定地表征总体的分布信息。但是用样本的信息去估计总体，则不能确定表征总体的分布信息，之间相差了一个自由度。