均值漂移简介 - 使用 Python 的实用机器学习教程 p.39

最新推荐文章于 2026-06-24 20:10:14 发布

原创最新推荐文章于 2026-06-24 20:10:14 发布 · 219 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #scikit-learn

收录于

均值漂移与K均值算法非常相似，但有一个非常重要的区别：你不需要在训练前指定组的数量。均值漂移算法会自动找到聚类。因此，它比K均值算法更“无监督”。均值漂移算法的工作原理是遍历每个特征集（图上的数据点），并进行爬山操作。爬山正如其名：想法是不断增加或上升，直到无法再上升。我们不能确定只有一个局部最大值。可能只有一个，也可能十个。在这种情况下，我们的“山峰”将是给定半径内特征集/数据点的数量。半径也称为带宽，整个窗口是你的核。窗口内的数据越多越好。当我们无法再向前一步而不会减少半径内的特征集/数据点数时，我们取该区域内所有数据的平均值，我们就定位了一个聚类中心。我们从每个数据点开始进行此操作。许多数据点将导致相同的聚类中心，这是可以预期的，但也有可能其他数据点会把你带到一个完全不同的聚类中心。