【Python实战】从方差齐性到结果解读：stats.ttest_ind 独立样本T检验全流程解析

最新推荐文章于 2026-06-17 19:24:15 发布

原创

最新推荐文章于 2026-06-17 19:24:15 发布 · 307 阅读

标签

#Python #独立样本T检验 #数据分析 #统计检验

1. 独立样本T检验入门：为什么需要它？

假设你是一家电商公司的数据分析师，老板突然问你："咱们上周做的A/B测试，新版页面和旧版页面的平均订单金额到底有没有区别？"这时候你该怎么办？这就是独立样本T检验（Independent Samples t-test）大显身手的时候了。

简单来说，独立样本T检验就是用来比较两组独立数据的平均值是否存在显著差异。这里的"独立"很关键，比如比较男女用户的身高、不同地区店铺的销售额、两种药物治疗效果等，这些都是典型的独立样本场景。

我在实际工作中发现，很多新手容易犯一个错误：拿到两组数据就直接跑T检验，完全跳过前期检查步骤。这就像不量体温就直接吃退烧药，很可能吃错药！正确的流程应该是：先检查数据是否符合T检验的前提条件，特别是方差齐性（两组数据的波动程度是否相近），然后再选择合适的检验方法。

Python里的scipy.stats.ttest_ind就是专门做这个的，但要用好它，得先理解几个关键概念：

原假设（H0）：默认认为两组数据没有差异（均值相等）
备择假设（H1）：认为两组数据存在差异（均值不等）
p值：判断差异是否显著的金标准，一般以0.05为界

举个例子，我们团队去年分析用户停留时间时，先用直方图发现两组数据都近似正态分布（这是T检验的另一前提），然后用Levene检验确认方差齐性，最后才跑T检验。结果发现p值=0.03，说明改版确实提升了停留时间。整个过程就像侦探破案，每个环节都不能跳过。

2. 数据准备：你的数据"健康"吗？

记得我刚开始做数据分析时，曾经拿着两组用户年龄数据就直接跑T检验，结果被导师当场叫停。原来T检验对数据有些"洁癖"，必须满足三个条件：

独立性：两组数据互不影响（比如不是同一个用户测试前后）
正态性：每组数据最好近似正态分布（样本量>30时可放宽）
方差齐性：两组数据的离散程度相近

先说说怎么生成模拟数据。Python的scipy.stats.norm.rvs()是个神器，比如模拟A/B测试的转化率：

from scipy import stats
import numpy as np

# 生成A组数据（均值1.2，标准差0.5）
group_A = stats.norm.rvs(loc=1.2, scale=0.5, size=100, random_state=42)

# 生成B组数据（均值1.5，标准差0.6）
group_B = stats.norm.rvs(loc=1.5, scale=0.6, size=120, random_state=42)

实际工作中更常见的是从文件读取数据。比如分析癫痫患者的脑电数据：

# 加载脑电数据和标签
X = np.load("eeg_data.npy", allow_pickle=True)
y = np.load("labels.npy", allow_pickle=True)

# 分离癫痫组和非癫痫组
epilepsy = X[y == 'epilepsy']
non_epilepsy = X[y == 'no_epilepsy']

重要提示：永远先做探索性分析！我习惯用这个组合拳：