K-means聚类算法实战：原理、实现与可视化全解析

原创于 2026-07-01 11:18:35 发布 · 279 阅读 ·

本内容遵循CC 4.0 BY-SA版权协议

代码可运行

1. K-means聚类算法实战：从原理到可视化全解析

在数据分析领域，聚类算法一直扮演着重要角色。作为一名长期从事数据挖掘工作的从业者，我发现K-means算法因其简单高效的特点，成为实际项目中最常用的聚类方法之一。今天我将分享一个完整的K-means实战案例，重点讲解如何科学确定最佳聚类数，以及如何将结果直观呈现。

K-means算法的核心思想是通过迭代计算，将n个数据点划分到k个簇中，使得每个数据点都属于离它最近的均值（即聚类中心）对应的簇。这个看似简单的算法背后，其实蕴含着丰富的数学原理和实用技巧。在实际应用中，我们通常会遇到三个关键问题：如何准备数据、如何确定最佳聚类数、如何评估和展示聚类效果。接下来，我将结合代码实例，详细解答这些问题。

2. 数据准备与预处理

2.1 数据标准化的重要性

在应用K-means算法前，数据预处理是至关重要的一步。由于K-means是基于距离的算法，不同特征量纲的差异会严重影响聚类结果。例如，一个特征的取值范围是0-1，而另一个是1000-10000，后者将在距离计算中占据主导地位。

from sklearn.preprocessing import StandardScaler

# 假设原始数据存储在data变量中
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

标准化处理将每个特征的值转换为均值为0、标准差为1的分布。这种处理不仅消除了量纲影响，还能提高算法的收敛速度。在实际项目中，我建议总是先进行标准化处理，除非你有充分理由不这样做。

2.2 处理缺失值与异常值

数据质量问题会直接影响聚类效果。对于缺失值，简单的处理方法包括删除含有缺失值的记录或用均值/中位数填充。对于异常值，可以使用Z-score方法或IQR（四分位距）方法进行检测和处理。

# 使用Z-score检测异常值
from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(scaled_data))
filtered_data = scaled_data[(z_scores < 3).all(axis=1)]

处理后的数据更加"干净"，能够提高聚类结果的可靠性。在我的经验中，这一步往往被初学者忽视，导致后续分析结果出现偏差。

3. 确定最佳聚类数的三种方法

3.1 手肘法：直观的初步判断

手肘法是最常用的确定聚类数的方法之一，它通过观察误差平方和（SSE）随聚类数变化的曲线来寻找"拐点"。

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

sse = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(filtered_data)
    sse.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), sse, marker='o')
plt.title('Elbow Method for Optimal k')
plt.xlabel('Number of clusters')
plt.ylabel('SSE')
plt.grid(True)
plt.show()

在实际应用中，真正的"肘点"有时并不明显。我的经验是：当SSE下降速度明显变缓时，对应的k值就是合理选择。此外，建议将k的取值范围设得稍大一些（比如1-15），以便更全面地观察趋势。

3.2 轮廓系数法：量化聚类质量

轮廓系数综合考虑了样本的簇内紧密度和簇间分离度，取值范围在[-1,1]之间，值越大表示聚类效果越好。

from sklearn.metrics import silhouette_score

silhouette_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(filtered_data)
    score = silhouette_score(filtered_data, kmeans.labels_)
    silhouette_scores.append(score)

plt.figure(figsize=(10, 6))
plt.plot(range(2, 11), silhouette_scores, marker='o')
plt.title('Silhouette Scores for Different k Values')
plt.xlabel('Number of clusters')
plt.ylabel('Silhouette Score')
plt.grid(True)
plt.show()

轮廓系数法的优势在于给出了明确的量化指标。在实际项目中，我通常会结合手肘法和轮廓系数法，选择轮廓系数较高且位于"肘部"附近的k值。

3.3 Calinski-Harabasz指数：另一种评估标准

Calinski-Harabasz指数（简称CH指数）通过计算簇间离散度与簇内离散度的比值来评估聚类效果，值越大表示聚类效果越好。

from sklearn.metrics import calinski_harabasz_score

ch_scores = []
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(filtered_data)
    score = calinski_harabasz_score(filtered_data, kmeans.labels_)
    ch_scores.append(score)

plt.figure(figsize=(10, 6))
plt.plot(range(2, 11), ch_scores, marker='o')
plt.title('Calinski-Harabasz Scores for Different k Values')
plt.xlabel('Number of clusters')
plt.ylabel('CH Score')
plt.grid(True)
plt.show()

CH指数对大簇数量有一定偏好，因此最好与其他方法结合使用。在我的实践中，当三种方法得出的最佳k值不一致时，会优先考虑轮廓系数的建议，同时结合业务理解做出最终决定。

4. K-means聚类实现与结果分析

4.1 模型训练与参数调优

确定最佳聚类数后，就可以进行最终的聚类分析了。K-means有几个重要参数需要注意：

n_clusters：最佳聚类数，由前述方法确定
init：初始化方法，推荐使用'k-means++'
max_iter：最大迭代次数，通常300足够
n_init：不同初始化的运行次数，建议10-20
random_state：随机种子，保证结果可复现

optimal_k = 3  # 假设通过前述方法确定的最佳k值
final_kmeans = KMeans(n_clusters=optimal_k, init='k-means++', 
                     max_iter=300, n_init=20, random_state=42)
final_kmeans.fit(filtered_data)

在实际应用中，适当增加n_init可以提高找到全局最优解的几率，但也会增加计算时间。对于大型数据集，需要在精度和效率之间做出权衡。

4.2 聚类结果解读与可视化

聚类结果的可视化是理解数据分布的关键。对于二维或三维数据，可以直接绘制散点图；对于高维数据，可以先进行降维处理。

# 将聚类标签添加到原始数据
import pandas as pd
results = pd.DataFrame(filtered_data, columns=data.columns)
results['Cluster'] = final_kmeans.labels_

# 保存结果到Excel
results.to_excel('final_cluster_results.xlsx', index=False)

# 可视化（假设数据是二维的）
plt.figure(figsize=(10, 8))
for cluster in range(optimal_k):
    cluster_data = results[results['Cluster'] == cluster]
    plt.scatter(cluster_data.iloc[:, 0], cluster_data.iloc[:, 1], 
               label=f'Cluster {cluster}', alpha=0.6)

plt.scatter(final_kmeans.cluster_centers_[:, 0], 
           final_kmeans.cluster_centers_[:, 1],
           s=200, c='black', marker='X', label='Centroids')
plt.title('Final Clustering Results with Centroids')
plt.xlabel('Feature 1 (Standardized)')
plt.ylabel('Feature 2 (Standardized)')
plt.legend()
plt.grid(True)
plt.show()

在解读聚类结果时，不仅要看可视化效果，还应该分析每个簇的统计特征。例如，计算每个簇在各个特征上的均值、标准差等，这有助于理解不同簇的业务含义。

5. 高级技巧与常见问题解决

5.1 处理高维数据的方法

当数据维度较高时，直接应用K-means可能会遇到"维度灾难"问题。这时可以考虑：

使用PCA等降维方法先降低数据维度
使用特征选择方法筛选重要特征
采用更适合高维数据的聚类算法，如谱聚类

from sklearn.decomposition import PCA

# 降维到2维便于可视化
pca = PCA(n_components=2)
reduced_data = pca.fit_transform(filtered_data)

# 在降维后的数据上应用K-means
kmeans_pca = KMeans(n_clusters=optimal_k, random_state=42)
kmeans_pca.fit(reduced_data)

降维虽然会损失部分信息，但往往能揭示数据的主要结构。在我的项目中，这种方法经常能帮助发现原本难以观察到的数据模式。

5.2 评估聚类效果的补充指标

除了前述方法，还有其他指标可以评估聚类质量：

Davies-Bouldin指数：值越小越好
同质性(Homogeneity)和完整性(Completeness)：当有真实标签时使用
轮廓分析：观察每个样本的轮廓系数分布

from sklearn.metrics import davies_bouldin_score

db_score = davies_bouldin_score(filtered_data, final_kmeans.labels_)
print(f"Davies-Bouldin Index: {db_score:.3f}")

这些指标可以从不同角度评估聚类效果，建议在重要项目中综合使用多个指标。

5.3 K-means的局限性与替代方案

虽然K-means应用广泛，但它也有明显局限性：

需要预先指定k值
对初始中心点敏感
只能发现球状簇
对噪声和异常值敏感

针对这些问题，可以考虑以下替代方案：

GMM（高斯混合模型）：可以处理非球状簇
DBSCAN：基于密度的聚类，能自动确定簇数量
层次聚类：不需要预先指定k值

在实际项目中，我通常会尝试多种算法，比较它们的结果，选择最适合当前数据和业务需求的方案。

6. 实战经验分享与避坑指南

6.1 参数选择的经验法则

经过多个项目的实践，我总结了一些参数选择的经验：

对于初始化方法，'k-means++'几乎总是优于随机初始化
n_init的值一般设为10-20，数据量大时可适当减少
max_iter通常设为300，除非数据特别复杂
随机种子(random_state)固定有助于结果复现，但在生产环境中可能需要多次运行选择最佳结果

重要提示：K-means的结果可能因初始中心点不同而变化，即使设置了random_state。因此，对于关键应用，建议多次运行并选择最佳结果。

6.2 常见问题及解决方法

在K-means应用中，经常遇到以下问题：

问题1：算法收敛速度慢

解决方法：检查数据是否已标准化；尝试减小max_iter；考虑使用MiniBatchKMeans

问题2：聚类结果不稳定

解决方法：增加n_init；尝试不同的random_state；检查数据是否有明显异常值

问题3：手肘法拐点不明显

解决方法：尝试更大的k范围；结合轮廓系数和CH指数判断；考虑业务实际需求

问题4：高维数据可视化困难

解决方法：使用t-SNE或UMAP等非线性降维方法；平行坐标图也是展示高维聚类结果的好方法

6.3 性能优化技巧

对于大规模数据集，可以采用以下优化策略：

使用MiniBatchKMeans替代标准K-means
对数据进行采样，先在小样本上确定最佳k值
利用并行计算（设置n_jobs参数）
对于超大数据集，可以考虑分布式实现（如Spark MLlib）

from sklearn.cluster import MiniBatchKMeans

mbk = MiniBatchKMeans(n_clusters=optimal_k, init='k-means++',
                     n_init=10, random_state=42)
mbk.fit(filtered_data)

这些技巧在处理海量数据时可以显著提高效率，同时保持较好的聚类质量。

7. 完整案例演示

为了帮助大家更好地理解整个流程，我将演示一个完整的案例，使用经典的鸢尾花数据集。

from sklearn.datasets import load_iris

# 加载数据
iris = load_iris()
data = pd.DataFrame(iris.data, columns=iris.feature_names)

# 数据标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

# 确定最佳k值
silhouette_scores = []
for k in range(2, 6):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(scaled_data)
    score = silhouette_score(scaled_data, kmeans.labels_)
    silhouette_scores.append(score)

optimal_k = np.argmax(silhouette_scores) + 2  # +2因为range从2开始

# 最终聚类
final_kmeans = KMeans(n_clusters=optimal_k, random_state=42)
final_kmeans.fit(scaled_data)

# 可视化（使用前两个特征）
plt.figure(figsize=(10, 8))
for cluster in range(optimal_k):
    cluster_data = scaled_data[final_kmeans.labels_ == cluster]
    plt.scatter(cluster_data[:, 0], cluster_data[:, 1], 
               label=f'Cluster {cluster}', alpha=0.6)

plt.scatter(final_kmeans.cluster_centers_[:, 0], 
           final_kmeans.cluster_centers_[:, 1],
           s=200, c='black', marker='X', label='Centroids')
plt.title('Iris Dataset Clustering Results')
plt.xlabel('Sepal Length (Standardized)')
plt.ylabel('Sepal Width (Standardized)')
plt.legend()
plt.show()

这个案例展示了从数据加载到最终可视化的完整流程。在实际项目中，你可能还需要进行更详细的结果分析和业务解释。

标签