均值漂移与K均值算法非常相似,但有一个非常重要的区别:你不需要在训练前指定组的数量。均值漂移算法会自动找到聚类。因此,它比K均值算法更“无监督”。均值漂移算法的工作原理是遍历每个特征集(图上的数据点),并进行爬山操作。爬山正如其名:想法是不断增加或上升,直到无法再上升。我们不能确定只有一个局部最大值。可能只有一个,也可能十个。在这种情况下,我们的“山峰”将是给定半径内特征集/数据点的数量。半径也称为带宽,整个窗口是你的核。窗口内的数据越多越好。当我们无法再向前一步而不会减少半径内的特征集/数据点数时,我们取该区域内所有数据的平均值,我们就定位了一个聚类中心。我们从每个数据点开始进行此操作。许多数据点将导致相同的聚类中心,这是可以预期的,但也有可能其他数据点会把你带到一个完全不同的聚类中心。
均值漂移简介 - 使用 Python 的实用机器学习教程 p.39
最新推荐文章于 2026-06-24 20:10:14 发布
3881

被折叠的 条评论
为什么被折叠?



