主成分分析系列(一)概览及为什么数据要中心化

一、概览

主成分分析(Principle Component Analysis,PCA)算法属于数据降维算法里面的一种。数据降维算法的主要想法是从高维度数据中找到一种结构,这种结构蕴含了数据中的大部分信息,从而将高维数据降维到低维数据,方便观察、可视化与后续处理。准确地说,PCA算法是在较低维空间中寻求原始数据最准确的数据表示。

二、PCA算法在2维上的一个例子

图一展示将数据 x\mathbf{x}x 投影到一维子空间(一条直线,但其实这里说一维子空间有些不严谨,但是不影响理解,后文有说明),以最小化投影误差。投影误差是点到直线的距离(左图是红色虚线,右图是绿色虚线)。
请注意,从图一上观察到,用于投影的直线,右图中的比左图中的好,因为数据 x\mathbf{x}x 在后者上投影误差更小。
直观上看,用于投影的最小化数据 x\mathbf{x}x投影误差的方向同时就是使得数据 x\mathbf{x}x方差最大的方向。这个在后面的文章会有数学推导证明。

在这里插入图片描述

图 1:

选取图一右侧的直线作为投影直线。数据投影到投影线上后的结果如图2右侧所示。

  • 请注意,投影得到的新数据 y\mathbf{y}y 与旧数据 x\mathbf{x}x投影方向(绿色直线)方向上具有相同的方差
  • PCA 保留数据中最大的方差。 我们将证明这个结论,目前这只是 PCA 将做什么的直觉。

在这里插入图片描述

图 2:

为推导PCA算法需要的线性代数知识准备

V\mathbf{V}Vd{d}d线性空间W\mathbf{W}WV\mathbf{V}Vkkk线性子空间
我们总能找到一组 ddd 维向量 { e1,e2,…,ek}\{\mathbf {e_1,e_2,…,e_k}\}{ e1,e2,,ek},它形成 W\mathbf {W}W的一组正交基 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

培之

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值