机器学习中矩阵求导公式

阳光明媚大男孩

1069人浏览 · 2025-03-18 18:03:33

阳光明媚大男孩 · 2025-03-18 18:03:33 发布

A.2 导数

向量 $a\mathbf{a}$ 相对于标量 $x$ 的导数(derivative)，以及 $x$ 相对于 $a\mathbf{a}$ 的导数都是向量，其第 $i$ 个分量分别为

$\left( \frac{\partial \mathbf{a}}{\partial x} \right)_i = \frac{\partial a_i}{\partial x}, \tag{A.16}$

$\left( \frac{\partial x}{\partial \mathbf{a}} \right)_i = \frac{\partial x}{\partial a_i}. \tag{A.17}$

类似的，矩阵 $A\mathbf{A}$ 对于标量 $x$ 的导数，以及 $x$ 对于 $A\mathbf{A}$ 的导数都是矩阵，其第 i$ 行第 $j$ 列上的元素分别为

$\left( \frac{\partial \mathbf{A}}{\partial x} \right)_{ij} = \frac{\partial A_{ij}}{\partial x}, \tag{A.18}$

$\left( \frac{\partial x}{\partial \mathbf{A}} \right)_{ij} = \frac{\partial x}{\partial A_{ij}}. \tag{A.19}$

对于函数 $f(x)f(\mathbf{x})$ ，假定其对向量的元素可导，则 $f(x)f(\mathbf{x})$ 关于 $x\mathbf{x}$ 的一阶导数是一个向量，其第 $i$ 个分量为

$\left( \nabla f(\mathbf{x}) \right)_i = \frac{\partial f(\mathbf{x})}{\partial x_i}, \tag{A.20}$

$f(x)f(\mathbf{x})$ 关于 $x\mathbf{x}$ 的二阶导数是称为海森矩阵(Hessian matrix)的一个方阵，其第 $i$ 行第 $j$ 列上的元素为

$\left( \nabla^2 f(\mathbf{x}) \right)_{ij} = \frac{\partial^2 f(\mathbf{x})}{\partial x_i \partial x_j}. \tag{A.21}$

向量和矩阵的导数满足乘法法则(product rule)

$\frac{\partial \mathbf{a}^T \mathbf{x}}{\partial \mathbf{x}} = \frac{\partial \mathbf{a}^T \mathbf{x}}{\partial \mathbf{x}} = \mathbf{a}, \tag{A.22}$

$\frac{\partial \mathbf{A} \mathbf{B}}{\partial \mathbf{x}} = \frac{\partial \mathbf{A}}{\partial \mathbf{x}} \mathbf{B} + \mathbf{A} \frac{\partial \mathbf{B}}{\partial \mathbf{x}}. \tag{A.23}$

由 $A−1A=I\mathbf{A}^{-1} \mathbf{A} = \mathbf{I}$ 和式(A.23)，逆矩阵的导数可表示为

$\frac{\partial \mathbf{A}^{-1}}{\partial \mathbf{x}} = -\mathbf{A}^{-1} \frac{\partial \mathbf{A}}{\partial \mathbf{x}} \mathbf{A}^{-1}. \tag{A.24}$

若求导的标量是矩阵 $ \mathbf{A} $ 的元素，则有

$\frac{\partial \text{tr}(\mathbf{AB})}{\partial A_{ij}} = B_{ji}, \tag{A.25}$

$\frac{\partial \text{tr}(\mathbf{AB})}{\partial \mathbf{A}} = \mathbf{B}^T. \tag{A.26}$

进而有

$\frac{\partial \text{tr}(\mathbf{A}^T \mathbf{B})}{\partial \mathbf{A}} = \mathbf{B}, \tag{A.27}$

$\frac{\partial \text{tr}(\mathbf{A})}{\partial \mathbf{A}} = \mathbf{I}, \tag{A.28}$

$\frac{\partial \text{tr}(\mathbf{ABA}^T)}{\partial \mathbf{A}} = \mathbf{A}(\mathbf{B} + \mathbf{B}^T). \tag{A.29}$

由式(A.15)和(A.29)有

$\frac{\partial \|\mathbf{A}\|_F^2}{\partial \mathbf{A}} = \frac{\partial \text{tr}(\mathbf{A}\mathbf{A}^T)}{\partial \mathbf{A}} = 2\mathbf{A}. \tag{A.30}$

链式法则(chain rule)是计算复杂导数时的重要工具。简单地说，若函数 $ f $ 是 $ g $ 和 $ h $ 的复合，即 $ f(x) = g(h(x)) $ ，则有

$\frac{\partial f(x)}{\partial x} = \frac{\partial g(h(x))}{\partial h(x)} \cdot \frac{\partial h(x)}{\partial x}. \tag{A.31}$

例如在计算下式时，将 $Ax−b\mathbf{A}\mathbf{x} - \mathbf{b}$ 看作一个整体可简化计算：

$\frac{\partial}{\partial \mathbf{x}} (\mathbf{A}\mathbf{x} - \mathbf{b})^T \mathbf{W} (\mathbf{A}\mathbf{x} - \mathbf{b}) = \frac{\partial (\mathbf{A}\mathbf{x} - \mathbf{b})}{\partial \mathbf{x}} \cdot 2\mathbf{W} (\mathbf{A}\mathbf{x} - \mathbf{b})$

$2\mathbf{A}^T \mathbf{W} (\mathbf{A}\mathbf{x} - \mathbf{b}). \tag{A.32}$

机器学习中 $W\mathbf{W}$ 通常是对称矩阵。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿