[无监督学习] 12.详细图解NMF

最新推荐文章于 2025-04-07 09:25:22 发布

原创

最新推荐文章于 2025-04-07 09:25:22 发布 · 1.2k 阅读

NMF
NMF（Non-negative Matrix Factorization，非负矩阵分解）是一种降维算法，它的特点是输入数据和输出数据的值都是非负的。
这个特点在处理图像等数据时有一个优点，那就是模型的可解释性强。

概述
NMF 是一种矩阵分解方法，在计算机视觉、文本挖掘、推荐等各个领域都有应用。与 LSA 一样，它也可以找到矩阵的潜在变量，但 NMF 只适用于原始矩阵的所有元素都是非负数（即大于等于 0）的情况。NMF 具有以下特点。

原始矩阵的元素是非负数。
分解后矩阵的元素是非负数。
没有“潜在语义空间的每一个维度都是正交的”这一约束条件。

在将 NMF 应用于真实数据时，这些特点会带来几个优点。一个优点是分析结果的可解释性强。例如，在将 NMF 应用于文本数据时，由于文本能够以潜在变量的加法来表示，所以可以使用 NMF 对文本进行降维，然后将潜在变量视为主题，这样就能使用“某个文本的主题 A 为 0.5、主题 B 为 0.3……”的方式描述文本的信息。由于实际的文本（如新闻文章和论文）也可能包含多个主题，这就使得它们的文本建模结果的可解释性更强。但如果潜在变量为负值，比如主题 A 为 -0.3、主题 B 为 0.6……就比较难解释。
另外，NMF 没有“潜在变量必须正交”的约束条件，所以各个潜在变量可能有一定程度的信息重复。
拿前面的文本主题的例子来说，这就意味着各个主题有一定程度的信息重复。这也是符合真实数据情况的建模。
图 3-8 所示为对二维数据分别应用 NMF 和 PCA 的结果。从图中可以看出，NMF 的潜在空间的每个轴都有重复信息。这一特性使得我们可以捕捉到多个数据块的特征。而 PCA 等算法则由于其潜在空间的维度是正交的，

标签