大多数数据集需要我们对之进行“清洗”工作,包括数据转换、数据离散化、数据缺失替换和数据异常点处理
在实际的挖掘分析中,过多的变量对模型精度的提升十分有限,但是对于挖掘速度的影响确实十分巨大的,维数灾难就是描述这一情况的。
我们需要多少变量来进行分析挖掘?
特征规约:特征规约即针对特定数据集进行变量数目的减少,在P较大时,特征规约显得有很强的必要性
特征规约方法:
- 主成分分析:较为常用的特征规约方法,可以在保留数据集一定信息的同时大规模减少变量数目,应用较广
- 主要细节:决定主成分分析结果的是我们要保留多少百分比的方差贡献度
- 特征选择:可以在不破坏数据结构的前提下精简变量,目前越来越流行,是主成分分析的一个极佳的补充
- 向前选择+向后淘汰
主成分分析是对变量的重新组合,特征选择是对变量的单纯意义上的精简。
特征选择评

数据挖掘过程中,变量过多可能导致维数灾难,影响模型速度而不利于精度提升。特征规约成为必要,包括主成分分析和特征选择。主成分分析通过保留一定比例的方差贡献度来减少变量,而特征选择如向前选择和向后淘汰策略,可在不破坏数据结构下精简变量。
417

被折叠的 条评论
为什么被折叠?



