聚类个数的选择:轮廓系数(计算公式和原理)

本文探讨了如何利用轮廓系数评估聚类效果,特别强调了在K-means和层次聚类中如何通过遍历不同簇数来选择最佳模型。介绍了单样本和总体轮廓系数的计算方法,并揭示了在实际聚类任务中的实用策略。

轮廓系数是评估聚类效果的指标,取值范围为[-1,1],越接近1表示聚类效果越好。

在聚类时可用于聚类个数的选择。通过遍历簇数,计算对应轮廓系数,选择轮廓系数最大时对应的聚类模型。

  • Kmeans聚类:对于初始的中心个数进行遍历,寻找使得轮廓系数最大的聚类模型。
  • 层次聚类:每一层合并时计算一次轮廓系数,直到所有样本合并为一簇,选择轮廓系数最大时对应的簇数对聚类结果进行剪枝。

轮廓系数计算方法

  • 单一样本iii的轮廓系数:s(i)=b(i)−a(i)max⁡{ a(i),b(i)}s(i)=\frac{b(i)-a(i)}{\max\{a(i),b(i)\}}s(i)=max{ a(i),b(i)}b(i)a(i)

    其中
    a(i)a(i)a(i): iii</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值