机器学习中常用的矩阵求导公式

最新推荐文章于 2023-05-26 06:21:33 发布

转载最新推荐文章于 2023-05-26 06:21:33 发布 · 2.9w 阅读

标签

#机器学习

algorithm_statistic 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了机器学习中常用的矩阵求导基础知识，包括实值函数对向量和矩阵的求导定义，以及一些用于简化计算的重要公式。这些内容对于理解机器学习算法背后的数学原理至关重要。

主要copy自新浪微博MachineLearner的博客希望作为自己学习机器学习的工具。

矩阵求导好像从来没有学过，讲矩阵的课不讲求导，讲求导的课不讲矩阵。像维基百科什么的查找起来又费劲。其实在实际机器学习工作中，最常用的就是实值函数 $y$ 对向量 $\bf x$ 求导。定义如下：

\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 1 \partial y \partial x 2 ⋮ \partial y \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial \bf x}=\left[ \begin {array}{c} \frac{\partial y}{\partial x_1}\\ \frac{\partial y}{\partial x_2}\\ \vdots\\ \frac{\partial y}{\partial x_n} \end {array}\right ]$
实值函数

y $y$ 对矩阵

X $\bf X$ 求导：

\partial y \partial X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y \partial x 11 \partial y \partial x 21 ⋮ \partial y \partial x n 1 \partial y \partial x 12 \partial y \partial x 22 ⋮ \partial y \partial x n 2 \dots \dots ⋱ \dots \partial y \partial x 1 n \partial y \partial x 2 n ⋮ \partial y \partial x n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\frac{\partial y}{\partial \bf X}=\left[ \begin {array}{c} \begin{array}{ccc} \frac{\partial y}{\partial x_{11}} & \frac{\partial y}{\partial x_{12}}& \cdots &\frac{\partial y}{\partial x_{1n}}\\ \frac{\partial y}{\partial x_{21}} & \frac{\partial y}{\partial x_{22}}&\cdots &\frac{\partial y}{\partial x_{2n}}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial y}{\partial x_{n1}} & \frac{\partial y}{\partial x_{n2}}&\cdots &\frac{\partial y}{\partial x_{nn}}\\ \end{array} \end {array}\right ]$
因为有监督的机器学习的一般套路是给定输入

x $\bf x$ ，选择一个模型

f $f$ 作为决策函数，由

f(x $f(\bf{x}$

) $)$ 预测出

y¯ $\bar {y}$ 。而要得到

f $f$ 的参数

θ $\bf{\theta}$ ，需要定义一个loss函数来定义当前的预测值

y¯ $\bar {y}$ 和实际值

y $y$ 之间的接近程度，模型学习的过程就是求使得loss函数

L(f(x $L(f(\bf x$ ),

y) $y)$ 最小的参数

θ $\theta$ 。这是一个最优化的问题，实际应用中都是用和梯度相关的最优化方法，如梯度下降，共轭梯度，拟牛顿法等等。
为方便推倒有以下公式：