本文中一些数学公式敲出来的有引用自Vay-keen(github)的笔记
数据的预处理
- 某些时候,可能数据不符合模型输入要求,需要对数据进行处理。
- 连续值:一般符合,有时候可能需要归一化
- 离散值:
- 若属性间存在序关系,可以将其转化为连续值,例如 身高(高,中,低)转为(1,0.5,0)
- 若属性间不存在序关系,可以转化为向量形式,例如 (身高,体重,肤色)转为(1,0,0)
线性回归一些推导原理


- 根据解,写代码时注意,x是添加了一列为1的数据矩阵
引入正则化项
- 在多元线性回归中解w须满满秩矩阵,生活中很多不满足,此时解出多个w,此时最好引入正则化项。
广义线性模型
- 当 y与x可能不具有线性关系,而g(y)与x具有线性关系,此时如图1下公式
对数几率回归


- y/(1 - y) 是几率
- 本质:用线性回归模型逼近真实对数几率
- 优点:任意阶可导,凸函数,直接对分类建模
LDA线性判别分析
- 找到一条直线,将所有数据投射到直线上,使得同类样例尽可能近,不同类样例尽可能远。(类内小,类间大)

- 若将W 看作投影矩阵,根据PCA的思想,可将N维数据映射到N-1维中,因为投影过程中使用了类别信息,所以LDA视为有监督降维方法。
本文探讨了数据预处理技术,包括连续值归一化和离散值转换,重点介绍了线性回归的原理与正则化应用,广义线性模型、对数几率回归和LDA线性判别分析的模型。这些方法展示了如何将非线性问题转化为线性可处理的形式,并强调了在实际项目中的适用性和降维技巧。
1467

被折叠的 条评论
为什么被折叠?



