转载:矩阵L2,1范数及矩阵L2,p范数的求导

本文探讨了在机器学习中常用的矩阵范数,包括L1、L2、∞∞范数、F范数及L2,1范数,并详细解释了它们在特征选择中的应用。通过对矩阵范数的优化,实现特征的稀疏化,从而提高模型的效率和准确性。

常见的矩阵范数有L1,L2,范数,F范数和引申出的L2,1范数。而在机器学习的特征选择中,利用选择矩阵的范数对选择矩阵进行约束,即是正则化技术,是一种稀疏学习。

L0L0向量范数

  • L0L0 范数

L0L0,也描述了向量的稀疏性。


这里写图片描述

从图中可以看出,pp范数,或者是其他可优化的范数。

矩阵的L1L1范数

为了度量稀疏矩阵的稀疏性,则定义矩阵的一种范数,为:

W1=i,j|Wi,j|‖W‖1=∑i,j|Wi,j|

即为矩阵所有元素的绝对值之和,能够描述接矩阵的稀疏性,但是在优化时,难度较大,是将情况向矩阵中元素尽可能是0的方向优化。

矩阵的L2,1L2,1范数

而为了进一步说明矩阵的稀疏性,来说明特征选择中矩阵L2,1L2,1范数的作用。


这里写图片描述

在特征选择中,通过稀疏化的特征选择矩阵来选取特征,即相当于是一种线性变换。


这里写图片描述

矩阵L2,1L2,1范数的求导

对于特征选择矩阵WW范数满足矩阵范数的自反性、非负性、对称性和三角不等式关系,是一个范数,这里不予证明。

那么,在线性学习模型,损失函数如:

minW,bXW+enbTY2F+λW2,1minW,b‖XW+enbT−Y‖F2+λ‖W‖2,1

那么:
W2,1W=⎛⎝⎜⎜⎜⎜(i=1dwi2)wj⎞⎠⎟⎟⎟⎟d×1=⎛⎝⎜⎜⎜⎜(i=1d(wiwiT)12)wj⎞⎠⎟⎟⎟⎟d×1=(wjwj2)d×1=⎛⎝⎜⎜⎜⎜⎜⎜⎜1w121w221wd2⎞⎠⎟⎟⎟⎟⎟⎟⎟⎛⎝⎜⎜⎜⎜w1w2wd⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜⎜⎜⎜1w121w221wd2⎞⎠⎟⎟⎟⎟⎟⎟
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值