轮廓系数是评估聚类效果的指标,取值范围为[-1,1],越接近1表示聚类效果越好。
在聚类时可用于聚类个数的选择。通过遍历簇数,计算对应轮廓系数,选择轮廓系数最大时对应的聚类模型。
- Kmeans聚类:对于初始的中心个数进行遍历,寻找使得轮廓系数最大的聚类模型。
- 层次聚类:每一层合并时计算一次轮廓系数,直到所有样本合并为一簇,选择轮廓系数最大时对应的簇数对聚类结果进行剪枝。
轮廓系数计算方法
-
单一样本iii的轮廓系数:s(i)=b(i)−a(i)max{ a(i),b(i)}s(i)=\frac{b(i)-a(i)}{\max\{a(i),b(i)\}}s(i)=max{ a(i),b(i)}b(i)−a(i)
其中
a(i)a(i)a(i): iii</

本文探讨了如何利用轮廓系数评估聚类效果,特别强调了在K-means和层次聚类中如何通过遍历不同簇数来选择最佳模型。介绍了单样本和总体轮廓系数的计算方法,并揭示了在实际聚类任务中的实用策略。
4万+

被折叠的 条评论
为什么被折叠?



