概率论假设检验

原创已于 2025-11-25 14:40:14 修改 · 961 阅读

24 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#概率论

于 2025-11-25 14:11:30 首次发布

概率论专栏收录该内容

1 篇文章

订阅专栏

假设检验

一、核心思想：先假设，后验证

假设检验的核心逻辑类似于 “无罪推定”：

首先，我们假设一个总体的情况（例如：假设这个嫌疑人是无罪的）。
然后，我们收集样本数据（寻找证据）。
接着，我们看在这些样本数据下，我们最初的假设是否合理。如果样本数据在假设成立的情况下极不可能发生，我们就拒绝原假设；否则，我们没有足够证据拒绝它。

注意： 我们永远不说“接受”原假设，只说“未能拒绝”原假设。这就像证据不足，不能定罪，但也不代表他一定是清白的。

二、假设检验的六步法

我们可以通过一个经典的例子来贯穿整个流程：检验一种新药是否比安慰剂更有效。

第一步：提出假设

首先，我们需要明确要检验什么，并形式化地写成两个对立的假设。

零假设 / 原假设 (H₀)：通常是我们想要“挑战”或“反驳”的现状、保守的观点。它通常包含等号（=, ≤, ≥）。
- 在我们的例子中：H₀: 新药与安慰剂效果无差异。（μ_新药 = μ_安慰剂）
备择假设 / 对立假设 (H₁ 或 Ha)：我们希望证实的研究假设。它是当有充分证据拒绝H₀时我们所接受的结论。
- 在我们的例子中：H₁: 新药效果优于安慰剂。（μ_新药 > μ_安慰剂）

注意： 根据H₁的形式，检验可以分为：

双侧检验：H₁ 为 μ ≠ μ₀ （关心是否不同，不关心方向）
单侧检验：H₁ 为 μ > μ₀ 或 μ < μ₀ （关心变化的方向）

我们的例子是单侧检验。

第二步：选择显著性水平 (α)

显著性水平 α 是我们愿意承担的“错误地拒绝H₀”的风险（即第一类错误）。它是一个概率阈值，通常事先设定。

常见选择：α = 0.05 (5%), 0.01 (1%), 0.1 (10%)
含义：当H₀实际上为真时，我们仍有α的概率会错误地拒绝它。
在我们的例子中：我们选择 α = 0.05。这意味着，如果新药实际上无效，我们错误地得出它有效的结论的风险是5%。

第三步：确定检验统计量

检验统计量是一个根据样本数据计算出来的值，它衡量了样本结果与H₀假设之间的差异程度。选择哪种统计量取决于你的数据（均值、比例、方差）和已知条件（样本量、是否已知总体标准差）。

常见检验统计量：
- z统计量：常用于大样本(n>30)的均值检验，或总体标准差σ已知。
- t统计量：常用于小样本(n<30)的均值检验，且总体标准差σ未知。
- χ²统计量：常用于方差检验或拟合优度检验。
- F统计量：常用于比较两个方差。
在我们的例子中，假设我们不知道总体标准差，且样本量适中，我们使用 t检验。其统计量计算公式为：
t = (样本均值 - H₀假设的均值) / (标准误)

第四步：制定决策规则（确定拒绝域）

我们需要一个标准来判断计算出的检验统计量是否“极端”到足以拒绝H₀。这个标准就是拒绝域。

临界值法：根据α和检验统计量的分布（如t分布、标准正态分布），找到一个临界值。
- 在我们的例子（α=0.05的单侧t检验）中：我们会查找t分布表，找到自由度为(n-1)，右侧尾部面积为0.05的临界值，记为 t_critical。
- 决策规则：如果计算出的 t ≥ t_critical，则拒绝H₀。
P值法（更常用）：P值是在H₀成立的前提下，观察到当前样本数据或更极端数据的概率。
- 决策规则：如果 P值 ≤ α，则拒绝H₀。

两种方法是等价的。

第五步：计算检验统计量和P值

现在，我们开始处理真实数据。

假设我们进行了临床试验：
- 新药组样本量 n=30
- 新药组疗效评分的样本均值 x̄ = 105
- 已知安慰剂组的总体均值 μ₀ = 100
- 新药组样本标准差 s = 15
计算t统计量：
t = (105 - 100) / (15 / √30) ≈ 5 / 2.74 ≈ 1.82
查找P值：
- 我们知道这是一个右侧检验（H₁: μ > 100）。
- 我们查找自由度为29 (30-1) 的t分布表，或者使用统计软件。
- 我们发现，t=1.82对应的右侧P值大约为 0.039。

第六步：做出统计决策并给出结论

现在，我们将计算结果与决策规则进行比较。

使用P值法：
- 我们计算出 P值 = 0.039。
- 我们设定的 α = 0.05。
- 因为 0.039 < 0.05，所以 我们拒绝零假设 (H₀)。
最终结论：
- 在0.05的显著性水平下，我们有足够的统计证据得出结论：新药的疗效显著优于安慰剂。

三、重要概念与常见误区

1. 第一类错误 vs. 第二类错误

错误类型	定义	概率	类比（法庭）
第一类错误 (Type I Error)	H₀ 为真时，错误地拒绝了H₀	α (显著性水平)	冤枉好人 (嫌疑人无罪，但判有罪)
第二类错误 (Type II Error)	H₀ 为假时，错误地没有拒绝H₀	β	放过坏人 (嫌疑人有罪，但判无罪)

功效 (Power)：正确拒绝一个错误H₀的概率，等于 1 - β。我们希望检验的功效越高越好。

2. 常见误区

P值不是H₀为真的概率。P值是基于H₀为真这个前提计算出来的。
“不拒绝H₀”不等于“证明H₀为真”。可能只是我们的样本数据还不够有力，或者样本量太小。
统计显著 ≠ 实际显著。一个非常微小的差异（比如销售额增加0.1%），在大样本下也可能呈现出统计显著性，但这个差异在商业上可能毫无意义。

总结流程图

在这里插入图片描述

graph TD
    A[提出假设： H₀ vs H₁] --> B[选择显著性水平 α]；
    B --> C[确定检验统计量与分布]；
    C --> D{制定决策规则： <br> 确定拒绝域或P值标准}；
    D --> E[收集数据并计算： <br> 检验统计量 & P值]；
    E --> F{做出决策： <br> P值 ≤ α ?}；
    F -- 是 --> G[拒绝H₀， 支持H₁]；
    F -- 否 --> H[未能拒绝H₀]；
    G --> I[给出实际语境下的结论]；
    H --> I；

典型例题
在这里插入图片描述

假设检验流程

步骤1: 提出假设

零假设 (H₀): μ = 0.5（机器正常）
备择假设 (H₁): μ ≠ 0.5（机器不正常，双尾检验）

步骤2: 选择显著性水平 α = 0.05

这里就确定了整个检验的标准！ α决定了我们愿意承担的第一类错误风险

步骤3: 确定检验统计量与分布

使用z检验： $\frac{\bar{x} - \mu}{\sigma / \sqrt{n}} \sim N(0,1) )$

步骤4: 制定决策规则（关键步骤，基于α）

查标准正态分布表，对于α=0.05的双尾检验：
- ( z_{\alpha/2} = z_{0.025} = 1.96 )
决策规则：
- 如果 ( |z| > 1.96 )，则拒绝H₀
- 如果 ( |z| ≤ 1.96 )，则不能拒绝H₀

步骤5: 收集数据并计算

样本数据：0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512
计算： $\bar{x} = 0.5112 )$ ， $\frac{0.5112-0.5}{0.015/\sqrt{9}} = 2.24 )$

步骤6: 做出决策

应用步骤4的规则：比较 ( |z| = 2.24 > 1.96 )
结论：拒绝H₀

步骤7: 实际结论

机器工作不正常，需要调整

流程图

在这里插入图片描述

flowchart TD
    A[提出假设:<br>H₀: μ=0.5 vs H₁: μ≠0.5] --> B[选择显著性水平 α=0.05]
    B --> C[确定检验统计量:<br>z检验, 标准正态分布]
    C --> D[基于α制定决策规则:<br>查表得 z₀.₀₂₅=1.96<br>拒绝域: |z|>1.96]
    D --> E[收集数据并计算:<br>x̄=0.5112, z=2.24]
    E --> F{应用决策规则:<br>|z|=2.24 > 1.96 ?}
    F -- 是 --> G[拒绝H₀, 支持H₁]
    F -- 否 --> H[未能拒绝H₀]
    G --> I[结论: 机器工作不正常]
    H --> I
    
    style B fill:#fff3e0
    style D fill:#e8f5e8
    style F fill:#fce4ec