特征选择三剑客：Fisher Score vs 卡方检验 vs 互信息，场景对比与代码实战

最新推荐文章于 2026-07-04 13:10:38 发布

原创

最新推荐文章于 2026-07-04 13:10:38 发布 · 439 阅读

特征选择三剑客：Fisher Score、卡方检验与互信息的深度解析与实战指南

在数据科学和机器学习的日常工作中，我们常常面对成百上千个特征。这些特征中，有些是预测目标的“神兵利器”，有些则是混淆视听的“噪声制造者”。如何从这纷繁复杂的特征海洋中，精准地筛选出最具价值的子集，是提升模型性能、降低计算成本、增强模型可解释性的关键一步。这就是特征选择技术的核心使命。

今天，我们将聚焦于特征选择领域的三位“过滤式”明星选手：Fisher Score、卡方检验和互信息。它们不依赖于特定的机器学习模型，仅通过统计指标对特征进行独立评分和排序，因此计算效率高，常作为数据预处理的“先锋部队”。但这三位“剑客”的“剑法”各有千秋，适用的“战场”（数据类型）也截然不同。盲目使用，可能事倍功半；精准匹配，方能事半功倍。

本文将带你深入剖析这三种方法的数学内核、适用边界，并通过Python代码实战，在经典的鸢尾花数据集上，让你亲眼见证它们如何“拔剑出鞘”，筛选特征。无论你是刚入门的数据分析师，还是希望优化流程的算法工程师，这篇文章都将为你提供一份清晰、实用、可操作的对比指南。

1. 核心思想与数学原理：三位剑客的“剑法”拆解

过滤式特征选择的核心，在于为每个特征计算一个与目标变量相关的“得分”。得分越高，通常意味着该特征与目标变量的关联性越强，区分能力越好。但“关联性”的定义，正是三种方法的分水岭。

1.1 Fisher Score：追求“内聚外分”的方差大师

Fisher Score 的核心思想非常直观：一个好的特征，应该能让不同类别的样本尽可能分开（类间方差大），同时让同一类别的样本尽可能聚集（类内方差小）。这就像优秀的班级管理，既要让不同班级的学生特点鲜明（类间差异大），又要让同一个班级的学生团结一致（类内差异小）。

其数学公式清晰地体现了这一思想。对于第 k 个特征，其Fisher Score J(k) 定义为类间方差 S_B(k) 与类内方差 S_W(k) 的比值：

J(k) = S_B(k) / S_W(k)

其中：

类间方差 S_B(k)：衡量不同类别中心（均值）的差异。计算时，对每个类别，取其样本均值与总体均值的差值的平方，并按该类样本数加权求和。差异越大，说明该特征在不同类别间的区分度越好。
类内方差 S_W(k)：衡量同一类别内部样本的离散程度。计算每个样本与其所属类别均值的差值的平方，再对所有样本平均。离散度越小，说明该特征在同一类别内的稳定性越高。