转载：矩阵L2,1范数及矩阵L2,p范数的求导

最新推荐文章于 2024-10-23 14:35:26 发布

转载最新推荐文章于 2024-10-23 14:35:26 发布 · 1.9k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://blog.csdn.net/lqzdreamer/article/details/79676305

本文探讨了在机器学习中常用的矩阵范数，包括L1、L2、∞∞范数、F范数及L2,1范数，并详细解释了它们在特征选择中的应用。通过对矩阵范数的优化，实现特征的稀疏化，从而提高模型的效率和准确性。

常见的矩阵范数有L1，L2，∞范数，F范数和引申出的L2,1范数。而在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，即是正则化技术，是一种稀疏学习。

L0向量范数

L0 范数

L0，也描述了向量的稀疏性。

这里写图片描述

从图中可以看出，p范数，或者是其他可优化的范数。

矩阵的L1范数

为了度量稀疏矩阵的稀疏性，则定义矩阵的一种范数，为：

∥ W ∥ 1 = \sum i, j | W i, j |

即为矩阵所有元素的绝对值之和，能够描述接矩阵的稀疏性，但是在优化时，难度较大，是将情况向矩阵中元素尽可能是0的方向优化。

矩阵的L2,1范数

而为了进一步说明矩阵的稀疏性，来说明特征选择中矩阵L2,1范数的作用。

这里写图片描述

在特征选择中，通过稀疏化的特征选择矩阵来选取特征，即相当于是一种线性变换。

这里写图片描述

矩阵L2,1范数的求导

对于特征选择矩阵W范数满足矩阵范数的自反性、非负性、对称性和三角不等式关系，是一个范数，这里不予证明。

那么，在线性学习模型，损失函数如：

min W, b ∥ X W + e n b T - Y ∥ 2 F + λ ∥ W ∥ 2, 1

那么：

\partial ∥ W ∥ 2 , 1 \partial W = ⎛⎝⎜⎜⎜⎜ \partial ( \sum i = 1 d ∥ w i ∥ 2 ) \partial w j ⎞⎠⎟⎟⎟⎟ d \times 1 = ⎛⎝⎜⎜⎜⎜ \partial ( \sum i = 1 d ( w i w i T ) 1 2 ) \partial w j ⎞⎠⎟⎟⎟⎟ d \times 1 = (w j ∥ w j ∥ 2) d \times 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜ 1 ∥ w 1 ∥ 2 1 ∥ w 2 ∥ 2 ⋱ 1 ∥ w d ∥ 2 ⎞⎠⎟⎟⎟⎟⎟⎟⎟ ⎛⎝⎜⎜⎜⎜ w 1 w 2 ⋮ w d ⎞⎠⎟⎟⎟⎟ = ⎛⎝⎜⎜⎜⎜⎜⎜⎜ 1 ∥ w 1 ∥ 2 1 ∥ w 2 ∥ 2 ⋱ 1 ∥ w d ∥ 2 ⎞⎠⎟⎟⎟⎟⎟⎟

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。