探索16 - AP聚类算法：仿射传播的神奇聚类之旅

最新推荐文章于 2026-07-02 17:49:38 发布

原创最新推荐文章于 2026-07-02 17:49:38 发布 · 432 阅读

本内容遵循CC 4.0 BY-SA版权协议

16-AP聚类算法称为仿射传播聚类算法，近邻传播聚类算法、亲和传播聚类算法，是根据数据点之间的相似度来进行聚类，可以是对称的，也可以是不对称的。该算法不需要先确定聚类的数目，而是把所有的数据点都看成潜在意义上的聚类中心（exemplar）.这有别于K-means等聚类。精品代码，可修改性高

在数据挖掘和机器学习的广袤领域中，聚类算法就像是一把把神奇的钥匙，帮助我们将杂乱无章的数据整理得井井有条。今天，咱们来深入聊聊16 - AP聚类算法，也就是仿射传播聚类算法（也叫近邻传播聚类算法、亲和传播聚类算法）。

16 - AP聚类算法的独特之处

16 - AP聚类算法的特别之处在于它依据数据点之间的相似度来聚类，而且这个相似度既可以是对称的，也能是不对称的。和常见的K - means聚类不同，它无需预先确定聚类的数目，而是把所有的数据点都当作潜在意义上的聚类中心（exemplar）。这就好比在一个陌生的城市，一开始所有的地点都有可能成为你旅行的核心据点，随着探索的深入，才慢慢确定真正的“中心”。

代码实现与分析

下面咱们来看一段Python实现16 - AP聚类算法的精品代码，而且它的可修改性非常高哦。

from sklearn.cluster import AffinityPropagation
import numpy as np

# 生成一些随机数据作为示例
data = np.array([[1, 1], [1.5, 2], [3, 4], [5, 7], [3.5, 5], [4.5, 5], [3.5, 4.5]])

# 创建并拟合AffinityPropagation模型
af = AffinityPropagation(preference=-50).fit(data)
cluster_centers_indices = af.cluster_centers_indices_
labels = af.labels_

n_clusters_ = len(cluster_centers_indices)

print('估计的聚类数量: %d' % n_clusters_)

代码分析

数据生成：

data = np.array([[1, 1], [1.5, 2], [3, 4], [5, 7], [3.5, 5], [4.5, 5], [3.5, 4.5]])

这里我们使用numpy创建了一个简单的二维数组来模拟一些数据点。在实际应用中，你可以从文件读取真实数据，或者从数据库获取相关数据集，然后转换为这种格式。

模型创建与拟合：

af = AffinityPropagation(preference=-50).fit(data)
cluster_centers_indices = af.cluster_centers_indices_
labels = af.labels_

我们创建了一个AffinityPropagation模型实例，并设置了preference参数为-50。preference参数很关键，它影响着最终聚类中心的选择。较小的preference值会倾向于产生较少的聚类中心，而较大的值则可能导致更多的聚类中心。然后使用fit方法将模型拟合到我们的数据上。之后获取聚类中心的索引clustercentersindices以及每个数据点所属的聚类标签labels。

聚类数量统计与输出：

n_clusters_ = len(cluster_centers_indices)
print('估计的聚类数量: %d' % n_clusters_)

通过计算聚类中心索引的长度，我们得到了估计的聚类数量，并打印输出。

16 - AP聚类算法以其独特的聚类方式，为我们处理数据聚类问题提供了一种新的视角和强大工具。无论是在图像识别、文本分类还是其他领域，它都有可能发挥重要作用。希望通过这段代码和分析，能让大家对16 - AP聚类算法有更深入的了解，也能在实际项目中灵活运用它。

标签

#swift