假设检验
一、核心思想:先假设,后验证
假设检验的核心逻辑类似于 “无罪推定”:
- 首先,我们假设一个总体的情况(例如:假设这个嫌疑人是无罪的)。
- 然后,我们收集样本数据(寻找证据)。
- 接着,我们看在这些样本数据下,我们最初的假设是否合理。如果样本数据在假设成立的情况下极不可能发生,我们就拒绝原假设;否则,我们没有足够证据拒绝它。
注意: 我们永远不说“接受”原假设,只说“未能拒绝”原假设。这就像证据不足,不能定罪,但也不代表他一定是清白的。
二、假设检验的六步法
我们可以通过一个经典的例子来贯穿整个流程:检验一种新药是否比安慰剂更有效。
第一步:提出假设
首先,我们需要明确要检验什么,并形式化地写成两个对立的假设。
-
零假设 / 原假设 (H₀):通常是我们想要“挑战”或“反驳”的现状、保守的观点。它通常包含等号(=, ≤, ≥)。
- 在我们的例子中:H₀: 新药与安慰剂效果无差异。(μ_新药 = μ_安慰剂)
-
备择假设 / 对立假设 (H₁ 或 Ha):我们希望证实的研究假设。它是当有充分证据拒绝H₀时我们所接受的结论。
- 在我们的例子中:H₁: 新药效果优于安慰剂。(μ_新药 > μ_安慰剂)
注意: 根据H₁的形式,检验可以分为:
- 双侧检验:H₁ 为 μ ≠ μ₀ (关心是否不同,不关心方向)
- 单侧检验:H₁ 为 μ > μ₀ 或 μ < μ₀ (关心变化的方向)
我们的例子是单侧检验。
第二步:选择显著性水平 (α)
显著性水平 α 是我们愿意承担的“错误地拒绝H₀”的风险(即第一类错误)。它是一个概率阈值,通常事先设定。
- 常见选择:α = 0.05 (5%), 0.01 (1%), 0.1 (10%)
- 含义:当H₀实际上为真时,我们仍有α的概率会错误地拒绝它。
- 在我们的例子中:我们选择 α = 0.05。这意味着,如果新药实际上无效,我们错误地得出它有效的结论的风险是5%。
第三步:确定检验统计量
检验统计量是一个根据样本数据计算出来的值,它衡量了样本结果与H₀假设之间的差异程度。选择哪种统计量取决于你的数据(均值、比例、方差)和已知条件(样本量、是否已知总体标准差)。
-
常见检验统计量:
- z统计量:常用于大样本(n>30)的均值检验,或总体标准差σ已知。
- t统计量:常用于小样本(n<30)的均值检验,且总体标准差σ未知。
- χ²统计量:常用于方差检验或拟合优度检验。
- F统计量:常用于比较两个方差。
-
在我们的例子中,假设我们不知道总体标准差,且样本量适中,我们使用 t检验。其统计量计算公式为:
t = (样本均值 - H₀假设的均值) / (标准误)
第四步:制定决策规则(确定拒绝域)
我们需要一个标准来判断计算出的检验统计量是否“极端”到足以拒绝H₀。这个标准就是拒绝域。
-
临界值法:根据α和检验统计量的分布(如t分布、标准正态分布),找到一个临界值。
- 在我们的例子(α=0.05的单侧t检验)中:我们会查找t分布表,找到自由度为(n-1),右侧尾部面积为0.05的临界值,记为
t_critical。 - 决策规则:如果计算出的 t ≥ t_critical,则拒绝H₀。
- 在我们的例子(α=0.05的单侧t检验)中:我们会查找t分布表,找到自由度为(n-1),右侧尾部面积为0.05的临界值,记为
-
P值法(更常用):P值是在H₀成立的前提下,观察到当前样本数据或更极端数据的概率。
- 决策规则:如果 P值 ≤ α,则拒绝H₀。
两种方法是等价的。
第五步:计算检验统计量和P值
现在,我们开始处理真实数据。
-
假设我们进行了临床试验:
- 新药组样本量 n=30
- 新药组疗效评分的样本均值
x̄ = 105 - 已知安慰剂组的总体均值
μ₀ = 100 - 新药组样本标准差
s = 15
-
计算t统计量:
t = (105 - 100) / (15 / √30) ≈ 5 / 2.74 ≈ 1.82 -
查找P值:
- 我们知道这是一个右侧检验(H₁: μ > 100)。
- 我们查找自由度为29 (30-1) 的t分布表,或者使用统计软件。
- 我们发现,t=1.82对应的右侧P值大约为 0.039。
第六步:做出统计决策并给出结论
现在,我们将计算结果与决策规则进行比较。
-
使用P值法:
- 我们计算出 P值 = 0.039。
- 我们设定的 α = 0.05。
- 因为 0.039 < 0.05,所以 我们拒绝零假设 (H₀)。
-
最终结论:
- 在0.05的显著性水平下,我们有足够的统计证据得出结论:新药的疗效显著优于安慰剂。
三、重要概念与常见误区
1. 第一类错误 vs. 第二类错误
| 错误类型 | 定义 | 概率 | 类比(法庭) |
|---|---|---|---|
| 第一类错误 (Type I Error) | H₀ 为真时,错误地拒绝了H₀ | α (显著性水平) | 冤枉好人 (嫌疑人无罪,但判有罪) |
| 第二类错误 (Type II Error) | H₀ 为假时,错误地没有拒绝H₀ | β | 放过坏人 (嫌疑人有罪,但判无罪) |
- 功效 (Power):正确拒绝一个错误H₀的概率,等于 1 - β。我们希望检验的功效越高越好。
2. 常见误区
- P值不是H₀为真的概率。P值是基于H₀为真这个前提计算出来的。
- “不拒绝H₀”不等于“证明H₀为真”。可能只是我们的样本数据还不够有力,或者样本量太小。
- 统计显著 ≠ 实际显著。一个非常微小的差异(比如销售额增加0.1%),在大样本下也可能呈现出统计显著性,但这个差异在商业上可能毫无意义。
总结流程图

graph TD
A[提出假设: H₀ vs H₁] --> B[选择显著性水平 α];
B --> C[确定检验统计量与分布];
C --> D{制定决策规则: <br> 确定拒绝域或P值标准};
D --> E[收集数据并计算: <br> 检验统计量 & P值];
E --> F{做出决策: <br> P值 ≤ α ?};
F -- 是 --> G[拒绝H₀, 支持H₁];
F -- 否 --> H[未能拒绝H₀];
G --> I[给出实际语境下的结论];
H --> I;
典型例题

假设检验流程
步骤1: 提出假设
- 零假设 (H₀): μ = 0.5(机器正常)
- 备择假设 (H₁): μ ≠ 0.5(机器不正常,双尾检验)
步骤2: 选择显著性水平 α = 0.05
- 这里就确定了整个检验的标准! α决定了我们愿意承担的第一类错误风险
步骤3: 确定检验统计量与分布
- 使用z检验:(z=xˉ−μσ/n∼N(0,1))( z = \frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \sim N(0,1) )(z=σ/nxˉ−μ∼N(0,1))
步骤4: 制定决策规则(关键步骤,基于α)
- 查标准正态分布表,对于α=0.05的双尾检验:
- ( z_{\alpha/2} = z_{0.025} = 1.96 )
- 决策规则:
- 如果 ( |z| > 1.96 ),则拒绝H₀
- 如果 ( |z| ≤ 1.96 ),则不能拒绝H₀
步骤5: 收集数据并计算
- 样本数据:0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512
- 计算:(xˉ=0.5112)( \bar{x} = 0.5112 )(xˉ=0.5112),(z=0.5112−0.50.015/9=2.24)( z = \frac{0.5112-0.5}{0.015/\sqrt{9}} = 2.24 )(z=0.015/90.5112−0.5=2.24)
步骤6: 做出决策
- 应用步骤4的规则:比较 ( |z| = 2.24 > 1.96 )
- 结论:拒绝H₀
步骤7: 实际结论
- 机器工作不正常,需要调整
流程图

flowchart TD
A[提出假设:<br>H₀: μ=0.5 vs H₁: μ≠0.5] --> B[选择显著性水平 α=0.05]
B --> C[确定检验统计量:<br>z检验, 标准正态分布]
C --> D[基于α制定决策规则:<br>查表得 z₀.₀₂₅=1.96<br>拒绝域: |z|>1.96]
D --> E[收集数据并计算:<br>x̄=0.5112, z=2.24]
E --> F{应用决策规则:<br>|z|=2.24 > 1.96 ?}
F -- 是 --> G[拒绝H₀, 支持H₁]
F -- 否 --> H[未能拒绝H₀]
G --> I[结论: 机器工作不正常]
H --> I
style B fill:#fff3e0
style D fill:#e8f5e8
style F fill:#fce4ec
关键理解点
-
α的作用时机:在步骤2就确定了α=0.05,然后在步骤4中用它来查表确定临界值z=1.96
-
决策规则的制定:在收集数据之前就已经基于α确定了决策标准(|z|>1.96)
-
实际计算后的比较:在步骤6中,只是应用预先制定好的规则,而不是临时去比较
3622

被折叠的 条评论
为什么被折叠?



