马氏距离与欧式距离

本文介绍了欧式距离和马氏距离的概念。首先讲解了欧式距离,它是两点间直线距离的直观扩展。接着深入探讨了马氏距离,它考虑了变量间的协方差,适用于不同尺度或单位的数据比较。

一、欧式距离

欧式距离就是在m维空间中两个点之间的真实距离。二维空间中的欧式距离就是两点之间的直线距离。大家对欧式距离比较熟悉,也就不多介绍了。

欧式距离缺点:

1.它不考虑总体分布对个体距离的影响,将数据不同维度之间的统计差异、物理意义等同看待。比如现在有两套房子,我们把房子的价值按:大小、新旧、位置、家具来进行数据表达,A房子:大小200平方、使用10年、坐落市中心0、没有家具0。 B房子:大小50平方、使用10年、坐落市中心0、屋内有一张价值10万元的画。显然就房子价值来说A房子比B房子价值高,因为画很可能不是房子的附属物品,但是就计算欧式距离来说,二者的价格距离可能很近,这就是因为欧式距离忽略了不同属性之间的差异。

2.由1可以理解,欧氏距离受变量的量纲影响。

二、马氏距离

马氏距离解决了上述欧式距离的两个缺点,列举两个图来说明问题:


假设A,B为两个在同一分布下的两个样本,A,B到中心u的距离在一个以u为圆心的圆上,A,B到中心的距离相同



而在马氏距离下:考虑了总体样本分布后,A,B到样本中心u的距离在一个椭圆上,B立中心较远

马氏距离公式:

对于一个均值为μ=(μ1,μ2,…,μp)T,协方差矩阵为Σ的多变量矢量x=(x1,x2,…,xp)T,其马氏距离为:
     (点x到中心u之间的马氏距离)

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的两个随机变量的差异程度:
        (点x和y之间的马氏距离:在同一分布下)

如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离

缺点:

1.马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,比如下边这个例子:





2.在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可(通常情况下,样本数是很容易大于样本的维数的)

3.如果样本的维数非常大,那么计算它的协方差矩阵是十分耗时的!


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值