聚类个数的选择：轮廓系数（计算公式和原理）

最新推荐文章于 2026-04-30 13:55:00 发布

原创

最新推荐文章于 2026-04-30 13:55:00 发布 · 1.4w 阅读

收录于

当前文章被以下社区和专栏收录：

本文探讨了如何利用轮廓系数评估聚类效果，特别强调了在K-means和层次聚类中如何通过遍历不同簇数来选择最佳模型。介绍了单样本和总体轮廓系数的计算方法，并揭示了在实际聚类任务中的实用策略。

轮廓系数是评估聚类效果的指标，取值范围为[-1,1]，越接近1表示聚类效果越好。

在聚类时可用于聚类个数的选择。通过遍历簇数，计算对应轮廓系数，选择轮廓系数最大时对应的聚类模型。

Kmeans聚类：对于初始的中心个数进行遍历，寻找使得轮廓系数最大的聚类模型。
层次聚类：每一层合并时计算一次轮廓系数，直到所有样本合并为一簇，选择轮廓系数最大时对应的簇数对聚类结果进行剪枝。

轮廓系数计算方法

单一样本 $i$ 的轮廓系数： $a(i),b(i)}s(i)=\frac{b(i)-a(i)}{\max\{a(i),b(i)\}}$

其中
$a (i)$ : $i </$

标签

#聚类 #机器学习 #算法

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

M-1015

关注关注

6
点赞
踩
69

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

聚类效果评估指标总结

Magician的博客

08-30

4万+

前言实际工作中经常会用到一些聚类算法对一些数据进行聚类处理，如何评估每次聚类效果的好坏？可选的方法有1、根据一些聚类效果的指标来评估；2、直接打点。今天就主要总结下这段时间了解的聚类效果评估指标。废话少说，直接上干货。针对数据有类别标签的情况 Adjusted Rand index (ARI) 优点： 1.1 对任意数量的聚类中心和样本数，随机聚类的ARI都非常接近于0； 1.2 取值在［－1，1］之间，负数代表结果不好，越接近于1越好； 1.3 可用于聚类算法之间的比较缺点： 1.4 ARI需要真实

聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码

最新发布

qq_41176800的博客

04-30

553

它通过比较样本到自己簇内样本的平均距离 a(i)，以及到最近其他簇的平均距离 b(i)，判断样本当前归属是否合理。换句话说，轮廓系数是在回答：聚类结果到底是“簇内相似、簇间分离”，还是只是把样本勉强分成了几组。因此，轮廓系数常用于 K 均值聚类、层次聚类、DBSCAN、聚类模型评估、聚类数量选择和无监督学习结果分析，在人工智能中具有重要基础意义。如果 b(i) 明显大于 a(i)，说明样本更接近自己簇、远离其他簇，聚类效果好。因为它需要比较“自己簇”和“最近其他簇”，如果只有一个簇，就无法定义 b(i)。

机器学习：聚类算法的模型评估指标：轮廓系数

The Zen of Data Analysis

10-14

9906

不同于分类模型和回归，聚类算法的模型评估不是一件简单的事。在分类中，有直接结果（标签）的输出，并且分类的结果有正误之分，所以使用预测的准确度，混淆矩阵，ROC曲线等指标来进行评估。但无论如何评估，都是在”模型找到正确答案“的能力。而回归中，由于要拟合数据，我们有MSE均方误差，有损失函数来衡量模型的拟合程度。但这些衡量指标都不适用于聚类。如何衡量聚类算法的效果聚类模型的结果不是某种标签输出，...

【零基础学习机器学习】k-means

qq_42994177的博客

07-11

7062

聚类介绍 k-means属于非监督学习算法：只有特征值，没有目标值 k-means的原理距离的计算可以用欧式距离 k-means API sklearn.cluster.KMeans n_clusters：表示分类的个数，多少个类别 k-means对Instacart Market用户聚类 1、降维之后的数据 2、k-means聚类 3、聚类结果显示数据链接：https://www.kaggle.com/c/instacart-market-basket-analysi

机器学习数据分析之-轮廓系数（评估聚类结果）

coding乐园

05-14

4万+

在学习使用k-means算法进行负载聚类分析时看到了这样的图，查了之后大仙是用轮廓系数来评估分类结果的准确度或者称合适度。定义 轮廓系数结合了凝聚度和分离度，其计算步骤如下： 1.对于第i个对象，计算它到所属簇中所有其他对象的平均距离，记为ai（体现凝聚度） 2.对于第i个对象和不包含该对象的任意簇，记为bi（体现分离度） 3.第i个对象的轮廓系数为si=（bi-ai）/max(a...

tfidf和word2vec构建文本词向量并做文本聚类

m0_45827246的博客

11-18

1万+

一、相关方法原理 1、tfidf 2、word2vec 3、文本聚类代码实现

聚类数k的确定(间隔统计量,轮廓系数,Canopy算法)及Kmeans++聚类，高斯混合聚类，密度聚类，层次聚类的原理及python实现(文末附有相关代码)

qq_45153782的博客

04-28

6312

多种聚类方法原理及实现数据集说明聚类的数目clusters=kclusters = kclusters=k肘部法则（Elbow Method）间隔统计量(Gap Statistic)新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导

聚类评估指标有哪些？

学习与分享人工智能技术

09-26

3829

本文详细介绍了常见的聚类指标概念、原理及应用方式。

轮廓系数详解：如何用它选择最佳聚类数？（含R语言示例）

weixin_28223453的博客

03-23

437

本文详细解析了轮廓系数(Silhouette Coefficient)在聚类分析中的应用，通过数学原理和R语言实战演示，指导如何选择最佳聚类数。轮廓系数量化评估数据点的内聚度与分离度，帮助数据科学家克服主观判断的局限性，适用于各类数据集分析。

K-Means和轮廓系数

qq_38785977的博客

04-24

4492

观察上图，乍一看，数据应该能被分成4簇，但有的人觉得分成2簇（左下1簇，右上1簇），或者分成3簇（最下面1簇，中间1簇，右上1簇）也是合理的。由公式可知，S取值范围为（-1, 1），当S越接近于1，则聚类效果越好，越接近-1，聚类效果越差。计算公式如上图所示，其中，a表示样本点与同一簇中所有其他点的平均距离，即样本点与同一簇中其他点的相似度；K-means（K均值）是机器学习中一种常见的无监督算法，它能够将未知标签的数据，根据它们的特征分成不同组，每一组数据又称为“簇”，每一簇的中心点称为“质心”。

《机器学习》K-means 聚类原理、参数解析、案例实现

loveting99的博客

08-30

1950

生成示例数据# 可视化数据plt.title("生成的数据")plt.xlabel("特征 1")plt.ylabel("特征 2")plt.show()# 设置簇的数量k = 4# 创建 K-means 模型# 拟合模型# 获取聚类结果# 可视化结果plt.title("K-means 聚类结果")plt.xlabel("特征 1")plt.ylabel("特征 2")plt.show()# 计算轮廓系数。

超越K-Means：轮廓系数在DBSCAN与层次聚类中的跨界应用实战

salt9的博客

02-07

965

本文探讨了轮廓系数在DBSCAN和层次聚类中的创新应用，帮助评估复杂数据分布的聚类质量。通过scikit-learn实现，详细解析了轮廓系数的计算逻辑及其在参数调优中的实践价值，包括电商用户分群和地理信息聚类等实战案例，为无监督聚类提供了量化评估工具。

【Sklearn驯化-聚类指标】搞懂机器学习中聚类算法评估指标，轮廓系数、戴维森堡丁指数

志在创建优质博客、通俗易懂、助力大家提高学习效率！

06-27

1631

聚类作为无监督学习的核心任务之一，旨在将数据集中的样本划分为若干个簇，使得簇内的样本相似度高，簇间的样本相似度低。然而，由于缺乏真实标签，聚类效果的评估成为一个挑战。scikit-learn（简称sklearn）提供了多种聚类指标来量化聚类效果。聚类指标是评估聚类效果的重要工具。在sklearn中，我们可以使用轮廓系数和戴维森堡丁指数等指标来量化聚类的性能。通过理解这些指标的计算方法和适用场景，我们可以更好地评估和优化聚类模型。

KMeans实战——聚类和轮廓系数评估啤酒数据集

weixin_68114439的博客

03-12

732

轮廓系数是一种用于评估聚类质量的指标，其值介于-1和1之间。轮廓系数越接近1，表示聚类结果越好；越接近-1，则表示聚类结果可能存在问题。轮廓系数的计算公式如下：本文介绍了如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数来评估聚类结果的质量。通过尝试不同的簇数并计算轮廓系数，我们可以选择一个合适的簇数，从而得到较好的聚类结果。轮廓系数是一个非常有用的指标，可以帮助我们判断聚类结果的好坏。

肘部法则和轮廓系数(用于确定簇类数目）

xiaziqiqi的博客

08-23

1万+

主要用于结果机器学习常见监督学习方法中确定合适的簇类数目，如果有不懂的地方可以私信博主or评论。本文主要介绍的是肘部法则和轮廓系数去判断聚类质量忧优劣

K-means聚类学习：原理、实践与API解析

2201_75607087的博客

08-09

1715

K-means 聚类算法以其简单、高效的特点，在数据分析领域有着重要的地位。通过本文的学习，我们了解了 K-means 的基本原理、优势与局限性，并结合啤酒数据进行了实战演练，同时也深入解析了 sklearn 中 KMeans 的 API。合理选择 K 值，可以结合多种评估指标进行综合判断。对数据进行预处理，如标准化或归一化，消除量纲对距离计算的影响。

聚类算法之Kmeans聚类详解

kate的博客

01-15

2746

它根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧氏距离法。通过计算相似度（默认欧氏距离），将相似度大的样本聚集到同一个类别，K表示聚成K个类别，means表示每个类别的聚类中心点是通过簇中所有样本点的均值得到。根据分好的类别，计算每个类别的新的聚类中心点（每个点的坐标的平均值），如果得到了新的聚类中心点则停止聚类，否则继续执行第3步，直到聚类中心点不再变化。随着类别的增加，SSE 是会逐渐变小的，因为每个点都是它所在的簇中心本身。

K-Means 聚类：K值选择与模型评估

Wei_sx的博客

12-25

6515

对于每个数据点，轮廓系数CH 指数的公式如下：其中：是簇间离散度（Between-cluster dispersion）。是簇内离散度（Within-cluster dispersion）。是聚类的数量（簇的数量）。是样本的数量。选择 K 值的过程并不是单一的，可以结合以上多种方法得到更好的结果。在实际应用中，最好结合经验、领域知识和多种评估指标来选择 K 值，以提高聚类效果。

K-means聚类实战：如何用肘部法和轮廓系数法快速找到最佳k值（附Python代码）

android的专栏

02-16

976

本文详细介绍了K-means聚类中确定最佳k值的两种实用方法——肘部法和轮廓系数法，并附有完整的Python代码实现。通过实战案例演示如何应用这些技术，帮助数据科学从业者快速找到最优聚类数量，提升模型效果。文章特别强调了肘部法在SSE曲线分析中的关键作用，以及轮廓系数法提供的量化评估指标。