机器学习之：LLE （locally linear embedding）局部线性嵌入降维算法

最新推荐文章于 2024-05-22 07:45:00 发布

原创

最新推荐文章于 2024-05-22 07:45:00 发布 · 1.9w 阅读

240

LLE是一种非线性降维算法，能较好保持原有流形结构。该文详细介绍了LLE算法原理，包括如何找到近邻点，求解线性关系权重，及如何利用奇异值分解进行优化。

文章目录

LLE

1. LLE 是什么

Locally linear embedding（LLE）[1] 是一种非线性降维算法，它能够使降维后的数据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很多后续的流形学习、降维方法都与LLE有密切联系

一个形象的流形降维过程如下图。我们有一块卷起来的布，我们希望将其展开到一个二维平面，我们希望展开后的布能够在局部保持布结构的特征，其实也就是将其展开的过程，就想两个人将其拉开一样
在这里插入图片描述

2. LLE 的主要思想

LLE首先假设数据在较小的局部是线性的，也就是说，某一个数据可以由它邻域中的几个样本来线性表示。

比如我们有一个样本 $x_1$ ,我们在它的原始高维邻域里用 K-近邻思想 找到和它最近的三个样本 $x_2$ , $x_3$ , $x_4$ . 然后我们假设 $x_1$ 可以由 $x_2$ , $x_3$ , $x_4$ 线性表示，即：
- 其中， $w_{12}$ ， $w_{13}$ ， $w_{14}$ 为权重系数。
在我们通过LLE降维后，我们希望 $x_1$ 在低维空间对应的投影 $x^′_1$ 和 $x_2$ , $x_3$ , $x_4$ 对应的投影 $x^′_2$ , $x^′_3$ , $x^′_4$ 也尽量保持同样的线性关系，即：
也就是说，投影前后线性关系的权重系数 $w_{12}$ ， $w_{13}$ ， $w_{14}$ 是尽量不变或者最小改变的。
从上面可以看出，线性关系只在样本的附近起作用，离样本远的样本对局部的线性关系没有影响，因此降维的复杂度降低了很多。这句话的意思是： 如果表示原来高维空间中的点（假设高维空间中一共有 $D$ 个点），他们和每一个其他的点之间（其他 $D - 1$ 个点）都存在 $w_{ij}$ 的表示关系，通过 LLE 降维的方法之后，使每个点只与周围的最近的 $k$ 个点之间存在线性表示关系，只能被周围的 $k$ 个点通过 $w_{ij}$ 来表示，这样的话，相当于计算量和维度都减少了很多。

3. LLE 算法推导过程

3.1 如何找到 k 个近邻

假设空间中一共有 $D$ 个点，现有一个点 $x_i$ ，对于整个空间中其他所有的点（ $D - 1$ 个）都进行距离运算；这里使用的距离是欧氏距离。然后，我们将这 $D - 1$ 个点与 $x_i$ 距离最小的 $k$ 个点选出来，这就是 $k$ 近邻的思想

3.2 找 $x_i$ 与这 k 个近邻的线性关系

在前面我们说到了，我们如何将原来的高维数据降维到低维空间？或者说，“维度” 这个概念，指的到底是什么？

维度在这里就是由 $w_{ij}$ 的权重矩阵决定的，如果什么处理也不做，这个时候，一个 $x_i$ 就和整个空间中所有的点有关，要通过其他的每一个点来决定这个 $x_i$ 但是，假设我们只用最近的 $k$ 个点，就相当于我们只计算 $k$ 个 $w_{ij}$ ，然后利用求得的权重矩阵来对新的维度的数据进行生成，由于权重矩阵减小了，所以新的数据的维度也减小了。

现在来实际的推导步骤：

假设我们有 $m$ 个 $n$ 维样本 $X=\{x_1,x_2,...,x_m\}$ （每个样本都有 $n$ 行），代表了整个高维空间中所有的样本点。
我们要找到 $x_i$ 与 $k$ 个近邻之间的线性关系，这显然是个回归问题，所以我们用回归问题常用的 均方误差 来作为损失函数：
- 其中， $Q (i)$ 表示i的 $k$ 个近邻样本集合
- 一般我们也会对权重系数 $w_{ij}$ 做归一化的限制，即权重系数需要满足所有系数相加为 $1$ ：
- 根据上面说的，我们只用最近 $k$ 个点来描述 $x_i$ ，即：所有不属于 $Q (i)$ 的点的 $w_{ij}=0$