[DA45] 使用SVM进行乳腺癌检测

最新推荐文章于 2026-05-18 12:38:56 发布

原创最新推荐文章于 2026-05-18 12:38:56 发布 · 2.5k 阅读

27 ·

本内容遵循CC 4.0 BY-SA版权协议

DA45 专栏收录该内容

11 篇文章

订阅专栏

这篇博客介绍了如何利用SVM进行乳腺癌检测，通过美国威斯康星州的乳腺癌数据集，进行了数据预处理，包括相关性分析和主成分分析（PCA）两种降维方法。相关性分析选择了radius_mean和compactness_mean作为代表特征，PCA降维保留了98%以上的数据贡献率。最终，PCA降维后的模型得分0.9357，优于手动降维的0.9298。

数据集来自美国威斯康星州的乳腺癌诊断数据集. 由于数据特征较多, 本例使用相关性分析与主成分分析两种方法进行降维了处理, 再通过SVM支持向量机模型对数据进行了分类.

一. 数据预处理

加载数据后对数据进行探索, 可以看到数据可以分为5类:

(一) ID

(二) diagnose

诊断结果. 其中'B'代表良性, 包含357例; 'M'代表恶性, 包含212例.

(三) 包含mean的数据

radius_mean	半径平均值
texture_mean	文理平均值
perimeter_mean	周长平均值
area_mean	面积平均值
smoothness_mean	平滑程度平均值
compactness_mean	紧密度平均值
concavity_mean	凹度平均值
concave points_mean	凹缝平均值
symmetry_mean	对称性平均值
fractal_dimension_mean	分形维数平均值

(四) 包含se的数据

内容与包含mean的数据大致相同, 为各个数据的方差.

(五) 包含worst的数据

内容与包含mean的数据大致相同, 为最严重的数据样例(最坏值).

数据不包含缺失值, 由于包含平均值mean的数据可反应数据的一般情况, 故使用包含平均值的10列进行分析, diagnose列用数字0代表良性, 数字1代表恶性, 作为数据的标签.

(二) 通过相关性分析手动降维

首先对提取出来的data_mean求得各特征之间的相关性系数, 使用seaborn绘制相关性热力图如下:

在图中我们看到, radius_mean与texture_mean, area_mean呈现了非常强的正相关性, compactness_mean也与convavity_mean和concave points_mean有较强的正相关性, 在此我们手动选取 radius_mean 和 compactness_mean 作为各自的代表特征, 把数据从10维降到6维. 在通过sklearn中的StandardScaler与train_test_split方法进行标准化及训练-测试集分割, 最后使用线性支持向量机分类模型进行预测, 模型的评分为0.9298.

(三) 主成分分析法降维

使用sklearn中的管线pipeline连接Z-Score规范化模型与主成分分析模型, 使原数据在进行标准化后PCA降维, 为保证和相关性分析降维方法的可比性, 在PCA模型中设置参数n_components=6使数据降为6维, 在训练-测试集分割时使用相同随机种子数random_state=33.

通过打印pca.explained_variance_ratio_可以看到经过主成分分析降维后新的维度的贡献率分别为:

[ 0.5478588 0.25187136 0.08806152 0.04990094 0.03725392 0.01241417]

6个新维度的贡献率之和大于98%, 已经可以很好地代表原数据.

PCA降维后的LinearSVC模型评分为0.9357, 表明在此特定条件下, 使用主成分分析降维方法要好于通过相关性分析手动降维的方法.