当采样数据维度过大,如何进行降维处理、缺失值处理等都是要解决的问题
数据预处理主要包括:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等
数据质量分析
常见的脏数据:
*缺失值
*异常值
*不一致的值
*重复数据及含有特殊符号(如#,¥,*的数据)
解决办法:
*缺失值
is.na()
complete.cases()
1)删除法 data[,-p]
2)替换法 均值、中位数或众数
3)插补法 回归模型、多重插补
*异常值
1)简单统计量分析----------最大值、最小值-------------判断变量取值是否在正常范围内
2)3σ原则---------------------异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值
3)箱型图---------------------小于下四分位数-1.5四分位数间距或
大于上四分位数+1.5四分位数间距
&

数据预处理包括数据筛选、变量转换、缺失值和异常值处理等。缺失值可通过删除、替换或插补方法处理,异常值可通过统计量分析、3σ原则或箱型图识别并处理。数据集成使用merge(),标准化方法有最小-最大规范化、0-均值规范化和小数定标规范化。主成分分析用于变量降维。
4485

被折叠的 条评论
为什么被折叠?



