22、统计与机器学习数据挖掘中的变量选择与探索性数据分析

统计与机器学习数据挖掘中的变量选择与探索性数据分析

在统计与机器学习数据挖掘领域,变量选择和探索性数据分析(EDA)是至关重要的环节。它们对于构建准确有效的模型起着关键作用。

变量选择相关要点

变量在统计模型中有着重要的表达形式,例如可以定义为加权变量的总和,如(Y = b0 + b1 X1 + b2 X2 + b3*X3) 。这里的权重或系数((b0),(b1),(b2)和(b3))是为了满足某些标准而得出的,比如在普通最小二乘回归中最小化均方误差,或在逻辑回归中最小化联合概率函数。而且,所有自变量之间的直线关系是一种理想的属性,因为直线关系易于解释,一个变量增加一个单位会导致另一个变量产生预期的恒定增加或减少。

变量选择方法还应具备构建变量的能力。构建变量主要有两种类型:
- 简单构建变量 :是原始变量和简单算术函数的数学混合。变量选择方法应能够构建原始变量的简单重新表达式。例如,在分析汽车发动机效率时,行驶里程和燃油使用量(加仑)是两个重要变量,但每加仑英里数这个比率变量才是评估发动机性能的最佳变量。
- 复杂构建变量 :是使用一组函数(如算术、三角或布尔函数)对原始变量进行的数学混合。变量选择方法应能够用数学函数构建复杂的重新表达式,以捕捉数据中的复杂关系,并提供比原始变量本身更多的信息。例如,在直角三角形中,斜边是另外两条边平方和的平方根,强大的变量选择程序应能识别出这种关系。

总之,变量选择方法应具备生成候选预测变量增强子集的能力。

探索性数据分析(EDA)

EDA由三个关键部分组成,分别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值