使用NMF模型进行消费者行为分析.

最新推荐文章于 2026-02-27 05:18:07 发布

原创

最新推荐文章于 2026-02-27 05:18:07 发布 · 3.4k 阅读

标签

#NMF #数据挖掘 #聚类 #biclustering #matrix factorization

本文介绍了Non-negative Matrix Factorization (NMF)模型，通过将矩阵V分解为W和H两个非负矩阵，用于数据降维和聚类。特别地，文章探讨了如何使用NMF进行双聚类（biclustering）分析，以理解消费者购买行为。在案例研究中，利用R包`bayesm`中的Scotch数据集进行分析。

什么是NMF模型?

NMF = Non-negative Matrix Factorization.

V= WH

V, W , H 三个矩阵里的值都大于等于0.

NMF 的目的就是将矩阵V分解为较小的两个矩阵H和W。

我们把 V 称为Visible units , H 称作为 Hidden units, W 为 weights . V 通过 W 连接到H. H 被称为Hidden Factor, latent variables 或者basis.

NMF 可以用来降维或者聚类。在此文中，我们将把NMF模型应用到市场数据中，进行聚类分析。这种聚类一般被称为双聚类 biclustering .

我们的数据：

我们将使用 R package "bayesm" 中的Scotch 数据

library(bayesm)

data(Scotch)

该数据中包含了一年中2218名顾客购买21种威士忌酒的数据：

以下是Raw data:

Chivas.Regal Dewar.s.White.Label Johnnie.Walker.Black.Label J...B
1 1 0 0 0
2 0 0 1 0
3 0 0 0 0
4 1 0 1 0
5 1 0 1 0
6 0 0 0 0
7 0 0 0 0
8 0 1 0 1

我们可以看到我们这里的V 是一个2218 * 21 的二进制矩阵（我们在这里忽略了同一顾客对同一种酒的购买次数，只记录是否购买过）。从下表中我们可以看到V中有5085 个 1 （#Users colum的和）。因此我们可以看到我们的矩阵是个非常稀疏的矩阵 sparse matrix. 在2218名顾客中，有47%的顾客只购买过一种酒，有23%的顾客光顾过两种品牌，只有不到6%的人买过五种或五种以上的威士忌。