NMF
NMF(Non-negative Matrix Factorization,非负矩阵分解)是一种降维算法,它的特点是输入数据和输出数据的值都是非负的。
这个特点在处理图像等数据时有一个优点,那就是模型的可解释性强。
概述
NMF 是一种矩阵分解方法,在计算机视觉、文本挖掘、推荐等各个领域都有应用。与 LSA 一样,它也可以找到矩阵的潜在变量,但 NMF 只适用于原始矩阵的所有元素都是非负数(即大于等于 0)的情况。NMF 具有以下特点。
- 原始矩阵的元素是非负数。
- 分解后矩阵的元素是非负数。
- 没有“潜在语义空间的每一个维度都是正交的”这一约束条件。
在将 NMF 应用于真实数据时,这些特点会带来几个优点。一个优点是分析结果的可解释性强。例如,在将 NMF 应用于文本数据时,由于文本能够以潜在变量的加法来表示,所以可以使用 NMF 对文本进行降维,然后将潜在变量视为主题,这样就能使用“某个文本的主题 A 为 0.5、主题 B 为 0.3……”的方式描述文本的信息。由于实际的文本(如新闻文章和论文)也可能包含多个主题,这就使得它们的文本建模结果的可解释性更强。但如果潜在变量为负值,比如主题 A 为 -0.3、主题 B 为 0.6……就比较难解释。
另外,NMF 没有“潜在变量必须正交”的约束条件,所以各个潜在变量可能有一定程度的信息重复。
拿前面的文本主题的例子来说,这就意味着各个主题有一定程度的信息重复。这也是符合真实数据情况的建模。
图 3-8 所示为对二维数据分别应用 NMF 和 PCA 的结果。从图中可以看出,NMF 的潜在空间的每个轴都有重复信息。这一特性使得我们可以捕捉到多个数据块的特征。而 PCA 等算法则由于其潜在空间的维度是正交的,

1万+

被折叠的 条评论
为什么被折叠?



