开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习中的数学：求导技术 -> 正文阅读

[人工智能]机器学习中的数学：求导技术

符号约定

$x$ ：标量

$\boldsymbol{x}$ ：向量

$\boldsymbol{X}$ ：矩阵

$tr(\boldsymbol{A})$ ：矩阵 $\boldsymbol{A}$ 的迹

$\langle \boldsymbol{A},\boldsymbol{B} \rangle$ ：矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的内积（数量积）

$\boldsymbol{A}*\boldsymbol{B}$ ：矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的元素积（Hadamard积）

$\boldsymbol{A}\otimes\boldsymbol{B}$ ：矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的张量积（Kronecker积）

$vec(\boldsymbol{A})$ ：矩阵 $\boldsymbol{A}$ 的（列）向量化

注：本文在实数范围内进行讨论。

一、求导定义与布局方式

1、求导定义

根据求导的自变量和因变量是标量、向量还是矩阵，有9种可能的求导定义：

自变量/因变量	标量 $y$	向量 $\boldsymbol{y}$	矩阵 $\boldsymbol{Y}$
标量 $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial \boldsymbol{y}}{\partial x}$	$\frac{\partial \boldsymbol{Y}}{\partial x}$
向量 $\boldsymbol{x}$	$\frac{\partial y}{\partial \boldsymbol{x}}$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}$	$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{x}}$
矩阵 $\boldsymbol{X}$	$\frac{\partial y}{\partial \boldsymbol{X}}$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{X}}$	$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}$

在高等数学里，我们学习了标量对标量的求导，而其他的任何一种求导，最终都是转化成标量之间的求导，并把结果按照一定的方式排列，以向量或者矩阵的形式表达出来。

2、分子布局和分母布局

以一个 $m$ 维向量 $\boldsymbol{y}$ 对标量 $x$ 的求导为例，它的结果 $\frac{\partial \boldsymbol{y}}{\partial x}$ 也是一个 $m$ 维向量，其每一维对应向量 $\boldsymbol{y}$ 的每一维对标量 $x$ 的导数。问题是， $\frac{\partial \boldsymbol{y}}{\partial x}$ 究竟应该表示成行向量，还是列向量呢？答案是都可以。但是在一系列的计算中，任意书写会带来阅读和求解的困难，为此引入布局的约定概念：

分子布局（numerator layout）：导数的维度以分子为主。
分母布局（denominator layout）：导数的维度以分母为主。

由此，我们有（表中分子布局简写为N，分母布局简写为D）：

自变量/因变量	标量 $y$	$m$ 维列向量 $\boldsymbol{y}$	$\times q$ 矩阵 $\boldsymbol{Y}$
标量 $x$	/	N: $m$ 维列向量 D: $m$ 维行向量	N: $\times q$ 矩阵 D: $\times p$ 矩阵
$n$ 列向量 $\boldsymbol{x}$	N: $n$ 维行向量 D: $n$ 维列向量	N: $\times n$ 矩阵 D: $\times m$ 矩阵	/
$\times t$ 矩阵 $\boldsymbol{X}$	N: $\times s$ 矩阵 D: $\times t$ 矩阵	/	/

注1： $m$ 维列向量 $\boldsymbol{y}$ 对 $n$ 维列向量 $\boldsymbol{x}$ 求导的结果，若按分子布局排列，即为一个 $\times n$ 维的Jacobian矩阵，

注2：分子布局和分母布局的结果相差一个转置。

注3：在机器学习的算法推导里，通常遵循以下布局的规范（本文采用）：

向量/矩阵对标量求导，采用分子布局
标量对向量/矩阵求导，采用分母布局
向量对向量求导，采用分母布局

二、标量对矩阵的求导

1、定义法

设 $y$ 为标量， $\boldsymbol{X}$ 是 $\times n$ 维矩阵，那么 $y$ 对 $\boldsymbol{X}$ 的导数为：
$\frac{\partial y}{\partial \boldsymbol{X}}=\bigg[\frac{\partial y}{\partial x_{ij}}\bigg]_{i=1,j=1}^{m,n}$

例1： $f=\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}$ ，用定义法求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{a}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{b}$ 是 $\times 1$ 列向量， $f$ 是标量。

解：有如下等式：
$\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}=\sum_{i=1}^{m}\sum_{j=1}^{n}a_ix_{ij}b_j$
从而有：
$\frac{\partial f}{\partial x_{ij}}=\frac{\partial \boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}}{\partial x_{ij}}=a_ib_j$
所以：
$\frac{\partial f}{\partial \boldsymbol{X}}=\boldsymbol{a}\boldsymbol{b}^T$

2、微分法

在一元微积分中，导数（标量对标量的导数）与微分有联系：

$d f = f^{'} (x) d x$
在多元微积分中，梯度（标量对向量的导数）也与微分有联系：

$df=\sum_{i=1}^{n}\frac{\partial f}{\partial x_i}dx_i=\frac{\partial f}{\partial \boldsymbol{x}}^Td\boldsymbol{x}$
把多元微积分中的梯度与微分之间的联系拓展到矩阵，则有：

$df=\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{\partial f}{\partial x_{ij}}dx_{ij}=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$
也就是说，全微分 $d f$ 是导数 $\frac{\partial f}{\partial \boldsymbol{X}}(m \times n)$ 与微分矩阵 $d\boldsymbol{X}(m \times n)$ 的内积（数量积）。同时，根据矩阵的内积和矩阵的迹之间的关系，我们可以如下求出标量 $f$ 对矩阵 $\boldsymbol{X}$ 的导数：

(1)根据给定的 $f$ 求出 $d f$ 。
(2)给 $d f$ 套上迹 $t r$ ，由于 $d f$ 是标量，故有 $d f = t r (d f)$ 。
(3)化简 $t r (d f)$ ，根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ 求得 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。

例2： $f=\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}$ ，用微分法求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{a}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{b}$ 是 $\times 1$ 列向量， $f$ 是标量。

解：(1)求出 $d f$ ：
$df=d\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}+\boldsymbol{a}^Td\boldsymbol{X}\boldsymbol{b}+\boldsymbol{a}^T\boldsymbol{X}d\boldsymbol{b}=\boldsymbol{a}^Td\boldsymbol{X}\boldsymbol{b}$
(2)给 $d f$ 套上迹 $t r$ 并化简：
$df=tr(df)=tr(\boldsymbol{a}^Td\boldsymbol{X}\boldsymbol{b})=tr(\boldsymbol{b}\boldsymbol{a}^Td\boldsymbol{X})=tr((\boldsymbol{a}\boldsymbol{b}^T)^Td\boldsymbol{X})$
(3)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{X}}=\boldsymbol{a}\boldsymbol{b}^T$

例3： $f=\boldsymbol{a}^Texp(\boldsymbol{X}\boldsymbol{b})$ ，求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{a}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{b}$ 是 $\times 1$ 列向量， $e x p$ 是逐元素求指数函数， $f$ 是标量。

解：(1)求出 $d f$ ：
$df=\boldsymbol{a}^T(exp(\boldsymbol{X}\boldsymbol{b})*(d\boldsymbol{X}\boldsymbol{b}))$
(2)给 $d f$ 套上迹 $t r$ 并化简：
$\begin{aligned} df & =tr(df)=tr(\boldsymbol{a}^T(exp(\boldsymbol{X}\boldsymbol{b})*(d\boldsymbol{X}\boldsymbol{b}))) \\ & = tr((\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))^Td\boldsymbol{X}\boldsymbol{b}) \\ & = tr(\boldsymbol{b}(\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))^Td\boldsymbol{X}) \\ & = tr(((\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))\boldsymbol{b}^T)^Td\boldsymbol{X}) \end{aligned}$
(3)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{X}}=(\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))\boldsymbol{b}^T$

例4： $\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y} ||^2$ ，求 $\boldsymbol{w}$ 的最小二乘估计，即求 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零点。其中 $\boldsymbol{y}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{w}$ 是 $\times 1$ 列向量， $l$ 是标量。

解：(1)求出 $d l$ ：

易知：
$\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y} ||^2=(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})$
从而有：
$dl=(\boldsymbol{X}d\boldsymbol{w})^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})+(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}d\boldsymbol{w})$
(2)给 $d l$ 套上迹 $t r$ 并化简：
$\begin{aligned} dl & =tr(dl)=tr((\boldsymbol{X}d\boldsymbol{w})^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})+(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}d\boldsymbol{w})) \\ & = tr(2(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}d\boldsymbol{w})) \\ & = tr((2\boldsymbol{X}^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y}))^Td\boldsymbol{w}) \end{aligned}$
(3)根据导数与微分的联系 $dl=tr\bigg(\frac{\partial l}{\partial \boldsymbol{w}}^Td\boldsymbol{w}\bigg)$ ，有：
$\frac{\partial l}{\partial \boldsymbol{w}}=2\boldsymbol{X}^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})$
(4)求 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零点：

令 $\frac{\partial l}{\partial \boldsymbol{w}}=\boldsymbol{0}$ ，有：
$\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{w}=\boldsymbol{X}^T\boldsymbol{y}$
得到 $\boldsymbol{w}$ 的最小二乘估计为：
$\boldsymbol{w}=(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}$

例5： $l=-\boldsymbol{y}^Tln(softmax(\boldsymbol{W}\boldsymbol{x}))$ ，求 $\frac{\partial l}{\partial \boldsymbol{W}}$ 。其中 $\boldsymbol{y}$ 是除一个元素为 $1$ 外其他元素为 $0$ 的 $\times 1$ 列向量， $\boldsymbol{W}$ 是 $\times n$ 矩阵， $\boldsymbol{x}$ 是 $\times 1$ 列向量， $l$ 是标量； $l n$ 表示逐元素求自然对数， $softmax(\boldsymbol{a})=\frac{exp(\boldsymbol{a})}{\boldsymbol{1}^Texp(\boldsymbol{a})}$ ，其中 $exp(\boldsymbol{a})$ 表示逐元素求指数函数， $\boldsymbol{1}$ 表示全 $1$ 的列向量。

解：(1)求出 $d l$ ：

注意到： $ln(\boldsymbol{u}/c)=ln(\boldsymbol{u})-\boldsymbol{1}ln(c)$ ，以及 $\boldsymbol{y}^T\boldsymbol{1}=1$ ，有：
$\begin{aligned} l & =-\boldsymbol{y}^Tln(exp(\boldsymbol{W}\boldsymbol{x}))+\boldsymbol{y}^T\boldsymbol{1}ln(\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})) \\ & = -\boldsymbol{y}^T\boldsymbol{W}\boldsymbol{x}+ln(\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})) \end{aligned}$
从而：
$\begin{aligned} dl & = -\boldsymbol{y}^Td\boldsymbol{W}\boldsymbol{x}+\frac{\boldsymbol{1}^T(exp(\boldsymbol{W}\boldsymbol{x})*(d\boldsymbol{W}\boldsymbol{x}))}{\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})} \\ & = -\boldsymbol{y}^Td\boldsymbol{W}\boldsymbol{x}+\frac{exp(\boldsymbol{W}\boldsymbol{x})^T(d\boldsymbol{W}\boldsymbol{x})}{\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})} \\ & = (softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})^Td\boldsymbol{W}\boldsymbol{x} \end{aligned}$
(2)给 $d l$ 套上迹 $t r$ 并化简：
$\begin{aligned} dl & = tr(dl)=tr((softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})^Td\boldsymbol{W}\boldsymbol{x}) \\ & = tr(\boldsymbol{x}(softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})^Td\boldsymbol{W}) \\ & = tr(((softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})\boldsymbol{x}^T)^Td\boldsymbol{W}) \end{aligned}$
(3)根据导数与微分的联系 $dl=tr\bigg(\frac{\partial l}{\partial \boldsymbol{W}}^Td\boldsymbol{W}\bigg)$ ，有：
$\frac{\partial l}{\partial \boldsymbol{W}}=(softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})\boldsymbol{x}^T$

例6： 求 $tr(\boldsymbol{A}\boldsymbol{B})$ 对矩阵 $\boldsymbol{A}$ 的导数，其中矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}^T$ 的形状相同。

解：(1)令 $f=tr(\boldsymbol{A}\boldsymbol{B})$ ，求出 $d f$ ：
$df=d(tr(\boldsymbol{A}\boldsymbol{B}))=tr(d(\boldsymbol{A}\boldsymbol{B}))=tr((d\boldsymbol{A})\boldsymbol{B})=tr(\boldsymbol{B}d\boldsymbol{A})$
(2)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{A}}^Td\boldsymbol{A}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{A}}=\boldsymbol{B}^T$

三、向量对向量的求导

1、定义法

设 $\boldsymbol{y}$ 为 $\times 1$ 列向量， $\boldsymbol{x}$ 是 $\times 1$ 列向量，那么 $\boldsymbol{y}$ 对 $\boldsymbol{x}$ 的导数（分母布局）为 $\times m$ 维矩阵：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}= \begin{pmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \dots & \frac{\partial y_m}{\partial x_1} \\ \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \dots & \frac{\partial y_m}{\partial x_2} \\ \dots & \dots & \dots & \dots \\ \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \dots & \frac{\partial y_m}{\partial x_n} \\ \end{pmatrix}$

2、微分法

列向量 $\boldsymbol{f}$ 对列向量 $\boldsymbol{x}$ 的导数（分母布局）与微分有如下联系：
$d\boldsymbol{f}=\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}^Td\boldsymbol{x}$

四、求导的链式法则

有时候并不需要使用链式法则，比如下面的例子：

例7： $f=tr(\boldsymbol{Y}^T\boldsymbol{M}\boldsymbol{Y}),Y=\sigma(\boldsymbol{W}\boldsymbol{X})$ ，求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{W}$ 是 $\times m$ 矩阵， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{Y}$ 是 $\times n$ 矩阵， $\boldsymbol{M}$ 是 $\times l$ 对称矩阵， $\sigma$ 是逐元素函数， $f$ 是标量。

解：先求出 $\frac{\partial f}{\partial \boldsymbol{Y}}$ ：

(1)求出 $d f$ （自变量 $\boldsymbol{Y}$ ）：
$\begin{aligned} df & = tr((d\boldsymbol{Y})^T\boldsymbol{M}\boldsymbol{Y})+tr(\boldsymbol{Y}^T\boldsymbol{M}d\boldsymbol{Y}) \\ & = tr(\boldsymbol{Y}^T\boldsymbol{M}^Td\boldsymbol{Y})+tr(\boldsymbol{Y}^T\boldsymbol{M}d\boldsymbol{Y}) \\ & = tr(\boldsymbol{Y}^T(\boldsymbol{M}+\boldsymbol{M}^T)d\boldsymbol{Y}) \end{aligned}$
(2)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}^Td\boldsymbol{Y}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{Y}}=(\boldsymbol{M}^T+\boldsymbol{M})\boldsymbol{Y}=2\boldsymbol{M}\boldsymbol{Y}$
再求 $\frac{\partial f}{\partial \boldsymbol{X}}$ ：

(3)求出 $d f$ （自变量 $\boldsymbol{X}$ ）：
$\begin{aligned} df & = tr\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}^Td\boldsymbol{Y}\bigg) \\ & = tr\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}^T(\sigma'(\boldsymbol{W}\boldsymbol{X})*(\boldsymbol{W}d\boldsymbol{X}))\bigg) \\ & = tr\Bigg(\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}*\sigma'(\boldsymbol{W}\boldsymbol{X})\bigg)^T\boldsymbol{W}d\boldsymbol{X}\Bigg) \end{aligned}$
(4)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{X}} =\boldsymbol{W}^T\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}*\sigma'(\boldsymbol{W}\boldsymbol{X})\bigg) =\boldsymbol{W}^T((2\boldsymbol{M}\sigma(\boldsymbol{W\boldsymbol{X}}))*\sigma'(\boldsymbol{W}\boldsymbol{X}))$

但是很多时候，求导的自变量和因变量间有复杂的链式求导关系，若不使用链式法则计算会有些麻烦。

1、向量对向量求导的链式法则

设向量 $\boldsymbol{x}(m \times 1),\boldsymbol{y}(n \times 1),\boldsymbol{z}(p \times 1)$ 存在如下依赖关系：
$\boldsymbol{x}\rightarrow\boldsymbol{y}\rightarrow\boldsymbol{z}$
则我们有如下链式法则：
$\frac{\partial \boldsymbol{z}}{\partial\boldsymbol{x}}=\frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}}\frac{\partial \boldsymbol{z}}{\partial\boldsymbol{y}}$
从维度的角度可以验证上述做法的合理性：

等式左侧是一个 $\times p$ 维的矩阵，等式右侧是一个 $\times n$ 维矩阵和一个 $\times p$ 维矩阵的积，因此维度是相容的。

2、标量对多个向量求导的链式法则

设有依赖关系：
$\boldsymbol{y}_1\rightarrow\boldsymbol{y}_2\rightarrow\dots\rightarrow\boldsymbol{y}_n\rightarrow z$
则我们有如下链式法则：
$\frac{\partial z}{\partial\boldsymbol{y}_1}=\frac{\partial \boldsymbol{y}_2}{\partial\boldsymbol{y}_1}\frac{\partial \boldsymbol{y}_3}{\partial\boldsymbol{y}_2}\dots\frac{\partial \boldsymbol{y}_n}{\partial\boldsymbol{y}_{n-1}}\frac{\partial z}{\partial\boldsymbol{y}_n}$

3、标量对多个矩阵求导的链式法则

设有依赖关系：
$\boldsymbol{X}\rightarrow\boldsymbol{Y}\rightarrow z$
则我们有如下链式法则：
$\frac{\partial z}{\partial x_{ij}} =\sum_{k,l}\frac{\partial z}{\partial y_{kl}}\frac{\partial y_{kl}}{\partial x_{ij}} =tr\bigg((\frac{\partial z}{\partial \boldsymbol{Y}})^T\frac{\partial \boldsymbol{Y}}{\partial x_{ij}}\bigg)$
矩阵对矩阵的求导比较复杂，我们在下一节专门讨论。这里只是给出了对矩阵中的任一标量的链式求导方法，即如何求解 $\frac{\partial z}{\partial x_{ij}}$ ，而没有给出如何求解整体 $\frac{\partial z}{\partial \boldsymbol{X}}$ 。不过对于 $\frac{\partial z}{\partial \boldsymbol{X}}$ 的求解，还是有一些有用的结论容易获得，比如下面这个例子。

例8： $z=f(\boldsymbol{Y}),\boldsymbol{Y}=\boldsymbol{A}\boldsymbol{X}+\boldsymbol{B}$ ，求 $\frac{\partial z}{\partial\boldsymbol{X}}$ 其中 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{X},\boldsymbol{Y}$ 都是矩阵， $z$ 是标量。

解：(1)由标量对矩阵的导数与微分的关系以及矩阵微分运算，有：
$tr\bigg(\frac{\partial z}{\partial \boldsymbol{Y}}^Td\boldsymbol{Y}\bigg) =tr\bigg(\frac{\partial z}{\partial \boldsymbol{Y}}^T\boldsymbol{A}d\boldsymbol{X}\bigg)$

(2)再由 $dz=tr\bigg(\frac{\partial z}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial z}{\partial\boldsymbol{X}}=\boldsymbol{A}^T\frac{\partial z}{\partial \boldsymbol{Y}}$

五、矩阵对矩阵的求导

1、基本方法

我们首先对这2个矩阵 $\boldsymbol{Y}(p \times q)$ 和 $\boldsymbol{X}(m \times n)$ 进行向量化：
$\begin{aligned} vec(\boldsymbol{Y}) & = [y_{11},\dots,y_{p1},y_{12},\dots,y_{p2},\dots,y_{1q},\dots,y_{pq}]^T \\ vec(\boldsymbol{X}) & = [x_{11},\dots,x_{m1},x_{12},\dots,x_{m2},\dots,x_{1n},\dots,x_{mn}]^T \end{aligned}$
从而我们可以把矩阵对矩阵的导数转化为向量对向量的导数（分母布局）：
$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}=\frac{\partial vec(\boldsymbol{Y})}{\partial vec(\boldsymbol{X})}$
其中， $\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}$ 是一个 $mn \times pq$ 维的矩阵。并且，根据向量对向量的导数和微分的关系，我们有：
$vec(d\boldsymbol{Y})=\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$
按此定义， $\frac{\partial f}{\partial \boldsymbol{X}}$ 的定义会产生歧义，设 $\boldsymbol{X}$ 是 $\times n$ 维矩阵，则：

按照标量对矩阵求导的原则，结果应该是一个 $\times n$ 维矩阵。
按照矩阵对矩阵求导的原则，结果应该是一个 $mn \times 1$ 维矩阵。

为了避免混淆，用记号 $\nabla_{\boldsymbol{X}}f$ 表示标量对矩阵导数，而 $\frac{\partial f}{\partial \boldsymbol{X}}=vec(\nabla_{\boldsymbol{X}}f)$ 。

标量对矩阵的二阶导数，又称为Hessian矩阵，定义如下：
$\nabla_{\boldsymbol{X}}^2f=\frac{\partial^2 f}{\partial \boldsymbol{X}^2}=\frac{\partial \nabla_{\boldsymbol{X}}f}{\partial \boldsymbol{X}}$
其中， $\nabla_{\boldsymbol{X}}^2f$ 是一个 $mn \times mn$ 维的对称矩阵。

微分法求矩阵 $\boldsymbol{F}$ 对矩阵 $\boldsymbol{X}$ 的导数的一般步骤概括如下：

(1)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ 。
(2)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简。
(3)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。

2、链式法则

设有依赖关系：
$\boldsymbol{X}\rightarrow\boldsymbol{Y}\rightarrow\boldsymbol{Z}$
根据导数与微分的联系，有：
$vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}^Tvec(d\boldsymbol{Y}) =\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}^T\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$
从而有链式法则：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}$

例9： $\boldsymbol{F}=\boldsymbol{A}\boldsymbol{X}$ ， $\boldsymbol{X}$ 是 $\times n$ 维矩阵，求 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。

解：(1)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ ：
$d\boldsymbol{F}=\boldsymbol{A}d\boldsymbol{X}$
(2)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简：
$vec(d\boldsymbol{F})=vec(\boldsymbol{A}d\boldsymbol{X})=(\boldsymbol{I}_n \otimes \boldsymbol{A})vec(d\boldsymbol{X})$
(3)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ ：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=\boldsymbol{I}_n \otimes \boldsymbol{A}^T$

例10： $f=ln|\boldsymbol{X}|$ ， $\boldsymbol{X}$ 是 $\times n$ 矩阵，求 $\nabla_{\boldsymbol{X}}f$ 和 $\nabla_{\boldsymbol{X}}^2f$ 。

解：(1)首先求 $\nabla_{\boldsymbol{X}}f$ ：

$df=tr(\boldsymbol{X}^{-1}d\boldsymbol{X})$ ，故 $\nabla_{\boldsymbol{X}}f=(\boldsymbol{X}^{-1})^T$ 。于是问题转化为： $\boldsymbol{F}=(\boldsymbol{X}^{-1})^T$ ，求 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。

(2)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ ：
$d\boldsymbol{F}=-(\boldsymbol{X}^{-1}d\boldsymbol{X}\boldsymbol{X}^{-1})^T$
(3)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简：
$vec(d\boldsymbol{F})=-\boldsymbol{K}_{nn}vec(\boldsymbol{X}^{-1}d\boldsymbol{X}\boldsymbol{X}^{-1})=-\boldsymbol{K}_{nn}((\boldsymbol{X}^{-1})^T*\boldsymbol{X}^{-1})vec(d\boldsymbol{X})$
其中 $\boldsymbol{K}_{nn}$ 是一个交换矩阵。

(4)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ ：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^T =-\boldsymbol{K}_{nn}((\boldsymbol{X}^{-1})^T*\boldsymbol{X}^{-1})$

例11： $\boldsymbol{F}=\boldsymbol{A}exp(\boldsymbol{X}\boldsymbol{B})$ ，求 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{A}$ 是 $\times m$ 矩阵， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{B}$ 是 $\times p$ 矩阵， $e x p$ 为逐元素求指数函数。

解：(1)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ ：
$d\boldsymbol{F}=\boldsymbol{A}(exp(\boldsymbol{X}\boldsymbol{B})*(d\boldsymbol{X}\boldsymbol{B}))$
(2)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简：
$\begin{aligned} vec(d\boldsymbol{F}) & = (\boldsymbol{I}_p \otimes \boldsymbol{A})vec(exp(\boldsymbol{X}\boldsymbol{B})*(d\boldsymbol{X}\boldsymbol{B})) \\ & = (\boldsymbol{I}_p \otimes \boldsymbol{A})diag(exp(\boldsymbol{X}\boldsymbol{B}))vec(d\boldsymbol{X}\boldsymbol{B}) \\ & = (\boldsymbol{I}_p \otimes \boldsymbol{A})diag(exp(\boldsymbol{X}\boldsymbol{B}))(\boldsymbol{B}^T \otimes \boldsymbol{I}_m)vec(d\boldsymbol{X}) \end{aligned}$
其中 $diag(\boldsymbol{A})$ 是用 $\boldsymbol{A}$ 的元素（按列优先）排成的对角阵。

(3)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ ：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=(\boldsymbol{B} \otimes \boldsymbol{I}_m)diag(exp(\boldsymbol{X}\boldsymbol{B}))(\boldsymbol{I}_p \otimes \boldsymbol{A}^T)$

例12： $l=-y\boldsymbol{x}^T\boldsymbol{w}+ln(1+exp(\boldsymbol{x}^T\boldsymbol{w}))$ ，求 $\nabla_{\boldsymbol{w}}l$ 和 $\nabla_{\boldsymbol{w}}^2l$ 。其中 $y$ 是取值为 $0$ 或 $1$ 的标量， $\boldsymbol{x},\boldsymbol{w}$ 是 $\times 1$ 列向量。

解：(1) $\nabla_{\boldsymbol{w}}l$ 是个标量对向量的导数，有：
$dl=-y\boldsymbol{x}^Td\boldsymbol{w}+(1+exp(\boldsymbol{x}^T\boldsymbol{w}))^{-1}*exp(\boldsymbol{x}^T\boldsymbol{w})*(\boldsymbol{x}^Td\boldsymbol{w})$
所以：
$\nabla_{\boldsymbol{w}}l=\boldsymbol{x}(\sigma(\boldsymbol{x}^T\boldsymbol{w})-y)$
其中， $\sigma(a)=\frac{exp(a)}{1+exp(a)}$ 是sigmoid函数。

(2) $\nabla_{\boldsymbol{w}}^2l$ 是个向量对向量的导数，有：
$d\nabla_{\boldsymbol{w}}l=\boldsymbol{x}\sigma'(\boldsymbol{x}^T\boldsymbol{w})\boldsymbol{x}^Td\boldsymbol{w}$
所以：
$\nabla_{\boldsymbol{w}}^2l=\boldsymbol{x}\sigma'(\boldsymbol{x}^T\boldsymbol{w})\boldsymbol{x}^T$

例13： $l=\sum_{i=1}^{N}(-y_i\boldsymbol{x}_i^T\boldsymbol{w}+ln(1+exp(\boldsymbol{x}_i^T\boldsymbol{w})))$ ，求 $\nabla_{\boldsymbol{w}}l$ 和 $\nabla_{\boldsymbol{w}}^2l$ 。其中 $y_i$ 是标量， $\boldsymbol{x}_i,\boldsymbol{w}$ 是 $\times 1$ 列向量。

解：(1)求 $\nabla_{\boldsymbol{w}}l$ （标量对向量的导数）：

定义矩阵 $\boldsymbol{X}=[\boldsymbol{x}_1^T,\dots,\boldsymbol{x}_N^T]^T(N \times n)$ ，向量 $\boldsymbol{y}=[y_1,\dots,y_N]^T$ ，从而可以将 $l$ 写成矩阵形式：
$l=-\boldsymbol{y}^T\boldsymbol{X}\boldsymbol{w}+\boldsymbol{1}^Tln(\boldsymbol{1}+exp(\boldsymbol{X}\boldsymbol{w}))$
其中 $\boldsymbol{1}$ 是全 $1$ 的 $\times 1$ 列向量。

求 $l$ 的微分有：
$\begin{aligned} dl & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+\boldsymbol{1}^T\bigg(\frac{1}{\boldsymbol{1}+exp(\boldsymbol{X}\boldsymbol{w})}*exp(\boldsymbol{X}\boldsymbol{w})*(\boldsymbol{X}d\boldsymbol{w})\bigg) \\ & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+\boldsymbol{1}^T(\sigma(\boldsymbol{X}\boldsymbol{w})*(\boldsymbol{X}d\boldsymbol{w})) \\ & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+(\boldsymbol{1}*\sigma(\boldsymbol{X}\boldsymbol{w}))^T\boldsymbol{X}d\boldsymbol{w} \\ & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+\sigma(\boldsymbol{X}\boldsymbol{w})^T\boldsymbol{X}d\boldsymbol{w} \end{aligned}$
故：
$\nabla_{\boldsymbol{w}}l=\boldsymbol{X}^T(\sigma(\boldsymbol{X}\boldsymbol{w})-\boldsymbol{y})$
(2)求 $\nabla_{\boldsymbol{w}}^2l$ （向量对向量的导数）：

求 $\nabla_{\boldsymbol{w}}l$ 的微分有：
$d\nabla_{\boldsymbol{w}}l=\boldsymbol{X}^T(\sigma'(\boldsymbol{X}\boldsymbol{w})*(\boldsymbol{X}d\boldsymbol{w}))=\boldsymbol{X}^Tdiag(\sigma'(\boldsymbol{X}\boldsymbol{w}))\boldsymbol{X}d\boldsymbol{w}$
从而：
$\nabla_{\boldsymbol{w}}^2l=\boldsymbol{X}^Tdiag(\sigma'(\boldsymbol{X}\boldsymbol{w}))\boldsymbol{X}$

附录

1、矩阵的迹

1.1迹的定义

$\times n$ 矩阵 $\boldsymbol{A}$ 的对角线元素之和称为 $\boldsymbol{A}$ 的迹(trace)，记作 $tr(\boldsymbol{A})$ ，非正方矩阵无迹的定义。

1.2关于迹的等式

(1)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $\times n$ 矩阵，则 $tr(\boldsymbol{A} \pm \boldsymbol{B})=tr(\boldsymbol{A}) \pm tr(\boldsymbol{B})$ 。

(2)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $\times n$ 矩阵，且 $c_1$ 和 $c_2$ 为常数，则 $tr(c_1\boldsymbol{A} \pm c_2\boldsymbol{B})=c_1tr(\boldsymbol{A}) \pm c_2tr(\boldsymbol{B})$ 。

(3) $tr(\boldsymbol{A}^T)=tr(\boldsymbol{A})$ 。

(4)若矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}^T$ 形状相同，则 $tr(\boldsymbol{A}\boldsymbol{B})=tr(\boldsymbol{B}\boldsymbol{A})$ 。

(5)若矩阵 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{C}$ 均为 $\times n$ 矩阵，则 $tr(\boldsymbol{A}^T(\boldsymbol{B}*\boldsymbol{C}))=tr((\boldsymbol{A}*\boldsymbol{B})^T\boldsymbol{C})$ 。

(6)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为方阵，则 $tr(\boldsymbol{A}\otimes\boldsymbol{B})=tr(\boldsymbol{A})tr(\boldsymbol{B})$ 。

(7)若矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 形状相同，则 $tr(\boldsymbol{A}^T\boldsymbol{B})=(vec(\boldsymbol{A}))^Tvec(\boldsymbol{B})=\langle \boldsymbol{A},\boldsymbol{B} \rangle$ 。

2、Hadamard积

2.1Hadamard积的定义

$\times n$ 矩阵 $\boldsymbol{A}=[a_{ij}]$ 与 $\times n$ 矩阵 $\boldsymbol{B}=[b_{ij}]$ 的Hadamard积记作 $\boldsymbol{A}*\boldsymbol{B}$ ，它仍然是一个 $\times n$ 矩阵，其元素定义为两个矩阵对应元素的乘积：
$(\boldsymbol{A}*\boldsymbol{B})_{ij}=a_{ij}b_{ij}$
Hadamard积也称Schur积或者对应元素乘积（简称元素积）。

2.2Hadamard积的性质

(1)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $\times n$ 矩阵，则 $(\boldsymbol{A}*\boldsymbol{B})^T=(\boldsymbol{A}^T*\boldsymbol{B}^T)$ 。

(2)若 $c$ 为常数，则 $c(\boldsymbol{A}*\boldsymbol{B})=(c\boldsymbol{A})*\boldsymbol{B}=\boldsymbol{A}*(c\boldsymbol{B})$ 。

(3)若 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{C},\boldsymbol{D}$ 均为 $\times n$ 矩阵，则 $(\boldsymbol{A}+\boldsymbol{B})*(\boldsymbol{C}+\boldsymbol{D})=\boldsymbol{A}*\boldsymbol{C}+\boldsymbol{A}*\boldsymbol{D}+\boldsymbol{B}*\boldsymbol{C}+\boldsymbol{B}*\boldsymbol{D}$ 。

3、Kronecker积

3.1Kronecker积的定义

两个矩阵的Kronecker积分为右Kronecker积和左Kronecker积。

(1)右Kronecker积： $\times n$ 矩阵 $\boldsymbol{A}$ 和 $\times q$ 矩阵 $\boldsymbol{B}$ 的右Kronecker积 $\boldsymbol{A}\otimes\boldsymbol{B}$ 是一个 $mp \times nq$ 矩阵，定义为：
$\boldsymbol{A}\otimes\boldsymbol{B}=[a_{ij}\boldsymbol{B}]_{i=1,j=1}^{m,n}$
(2)左Kronecker积： $\times n$ 矩阵 $\boldsymbol{A}$ 和 $\times q$ 矩阵 $\boldsymbol{B}$ 的左Kronecker积 $\boldsymbol{A}\otimes\boldsymbol{B}$ 是一个 $mp \times nq$ 矩阵，定义为：
$\boldsymbol{A}\otimes\boldsymbol{B}=[\boldsymbol{A}b_{ij}]_{i=1,j=1}^{p,q}$
通常多采用右Kronecker积，为避免混淆，本文一律采用右Kronecker积，简称为Kronecker积（张量积）。

3.2Kronecker积的性质

(1)若 $\alpha$ 和 $\beta$ 为常数，则 $(\alpha\boldsymbol{A})\otimes(\beta\boldsymbol{B})=\alpha\beta(\boldsymbol{A}\otimes\boldsymbol{B})$ 。

(2)单位矩阵间的Kronecker积满足： $\boldsymbol{I}_m \otimes \boldsymbol{I}_n=\boldsymbol{I}_{mn}$ 。

(3)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{n \times k},\boldsymbol{C}_{l \times p},\boldsymbol{D}_{p \times q}$ ，有 $(\boldsymbol{AB})\otimes(\boldsymbol{CD})=(\boldsymbol{A}\otimes\boldsymbol{C})(\boldsymbol{B}\otimes\boldsymbol{D})$ 。

(4)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q},\boldsymbol{C}_{p \times q}$ ，有
$\begin{aligned} \boldsymbol{A}\otimes(\boldsymbol{B}\pm\boldsymbol{C}) & = \boldsymbol{A}\otimes\boldsymbol{B}\pm\boldsymbol{A}\otimes\boldsymbol{C} \\ (\boldsymbol{B}\pm\boldsymbol{C})\otimes \boldsymbol{A}& = \boldsymbol{B}\otimes\boldsymbol{A}\pm\boldsymbol{C}\otimes\boldsymbol{A} \end{aligned}$
(5)Kronecker积的转置满足： $(\boldsymbol{A}\otimes\boldsymbol{B})^T=\boldsymbol{A}^T\otimes\boldsymbol{B}^T$ 。

(6)Kronecker积的逆矩阵满足： $(\boldsymbol{A}\otimes\boldsymbol{B})^{-1}=\boldsymbol{A}^{-1}\otimes\boldsymbol{B}^{-1}$ 。

(7)Kronecker积的行列式满足： $det(\boldsymbol{A}_{n \times n}\otimes\boldsymbol{B}_{m \times m})=(det\boldsymbol{A})^m(det\boldsymbol{B})^n$ 。

(8)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{m \times n},\boldsymbol{C}_{p \times q},\boldsymbol{D}_{p \times q}$ ，有 $(\boldsymbol{A}+\boldsymbol{B})\otimes(\boldsymbol{C}+\boldsymbol{D})=\boldsymbol{A}\otimes\boldsymbol{C}+\boldsymbol{A}\otimes\boldsymbol{D}+\boldsymbol{B}\otimes\boldsymbol{C}+\boldsymbol{B}\otimes\boldsymbol{D}$ 。

(9)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q},\boldsymbol{C}_{k \times l}$ ，有 $(\boldsymbol{A}\otimes\boldsymbol{B})\otimes\boldsymbol{C}=\boldsymbol{A}\otimes(\boldsymbol{B}\otimes\boldsymbol{C})$ 。

(10)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{k \times l},\boldsymbol{C}_{p \times q},\boldsymbol{D}_{r \times s}$ ，有 $(\boldsymbol{A}\otimes\boldsymbol{B})\otimes(\boldsymbol{C}\otimes\boldsymbol{D})=\boldsymbol{A}\otimes\boldsymbol{B}\otimes\boldsymbol{C}\otimes\boldsymbol{D}$ 。

(11)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q}$ ，有 $exp(\boldsymbol{A}\otimes\boldsymbol{B})=exp(\boldsymbol{A})\otimes exp(\boldsymbol{B})$ 。

(12))对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q}$ ，有
$\begin{aligned} \boldsymbol{K}_{pm}(\boldsymbol{A}\otimes\boldsymbol{B}) &= (\boldsymbol{B}\otimes\boldsymbol{A})\boldsymbol{K}_{qn} \\ \boldsymbol{K}_{pm}(\boldsymbol{A}\otimes\boldsymbol{B})\boldsymbol{K}_{nq} &= \boldsymbol{B}\otimes\boldsymbol{A} \end{aligned}$

4、置换矩阵

4.1置换矩阵的定义

一个正方矩阵称为置换矩阵，若它的每一行和每一列有且仅有一个非零元素1（其余位置为0）。

4.2置换矩阵的性质

置换矩阵 $\boldsymbol{P}$ 是正交矩阵，即 $\boldsymbol{P}^T\boldsymbol{P}=\boldsymbol{P}\boldsymbol{P}^T=\boldsymbol{I}$ 。

5、矩阵的向量化

5.1向量化算子的定义

$\times n$ 矩阵的（列）向量化 $vec(\boldsymbol{A})$ 将矩阵 $\boldsymbol{A}=[a_{ij}]$ 的元素按列堆栈，排成一个 $mn \times 1$ 向量
$vec(\boldsymbol{A})=[a_{11},\dots,a_{m1},\dots,a_{1n},\dots,a_{mn}]^T$
矩阵也可以按行堆栈为行向量 $rvec(\boldsymbol{A})$ 。称为矩阵的行向量化，定义为
$rvec(\boldsymbol{A})=[a_{11},\dots,a_{1n},\dots,a_{m1},\dots,a_{mn}]$
显然矩阵的向量化和行向量化之间存在如下关系
$vec(\boldsymbol{A}^T)=(rvec(\boldsymbol{A}))^T$

5.2交换矩阵的定义

显然，对于一个 $\times n$ 矩阵 $\boldsymbol{A}$ ，向量 $vec(\boldsymbol{A})$ 和 $vec(\boldsymbol{A}^T)$ 含有相同的元素，但排列次序不同。因此，存在一个唯一的 $mn \times mn$ 置换矩阵，可以将一个矩阵的向量化 $vec(\boldsymbol{A})$ 变为其转置矩阵的向量化 $vec(\boldsymbol{A}^T)$ 。这一置换矩阵称为交换矩阵，记作 $\boldsymbol{K}_{mn}$ ，定义为
$\boldsymbol{K}_{mn}vec(\boldsymbol{A}_{m \times n})=vec(\boldsymbol{A}^T)$
类似地，可以将转置矩阵的向量化 $vec(\boldsymbol{A}^T)$ 变为原矩阵的向量化 $vec(\boldsymbol{A})$ 的交换矩阵是一和 $nm \times nm$ 置换矩阵，记作 $\boldsymbol{K}_{nm}$ ，定义为
$\boldsymbol{K}_{nm}vec(\boldsymbol{A}^T)=vec(\boldsymbol{A}_{m \times n})$
$mn \times mn$ 交换矩阵 $\boldsymbol{K}_{mn}$ 的构造方法如下：每一行只赋一个元素1，其余元素全部为0。首先，第1行第1个元素为1，然后这个1元素右移m位，变成第2行该位置的1元素。第2行该位置的1元素再右移m位，变成第3行该位置的1元素。依此类推，找到所有的1元素。但是，如果右移时超过第mn列，则应该转到下一行第1列继续移位，并多移动1位，再在此位置赋1。

5.3交换矩阵的性质

(1) $\boldsymbol{K}_{nm}\boldsymbol{K}_{mn}=\boldsymbol{K}_{mn}\boldsymbol{K}_{nm}=\boldsymbol{I}_{mn}$ 。

(2) $\boldsymbol{K}_{mn}^T\boldsymbol{K}_{mn}=\boldsymbol{K}_{mn}\boldsymbol{K}_{mn}^T=\boldsymbol{I}_{mn}$ 。

(3) $\boldsymbol{K}_{mn}^T=\boldsymbol{K}_{nm}$ 。

(4) $\boldsymbol{K}_{1n}=\boldsymbol{K}_{n1}=\boldsymbol{I}_n$ 。

5.4向量化算子的性质

(1)矩阵之和的向量化： $vec(\boldsymbol{A}+\boldsymbol{B})=vec(\boldsymbol{A})+vec(\boldsymbol{B})$ 。

(2) $\times n$ 矩阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 的Hadamard积的向量化： $vec(\boldsymbol{A}*\boldsymbol{B})=vec(\boldsymbol{A})*vec(\boldsymbol{B})=diag(vec(\boldsymbol{A}))vec(\boldsymbol{B})$ 。

其中 $diag(vec(\boldsymbol{A}))$ 表示以 $vec(\boldsymbol{A})$ 的各元素（按列排列）为对角元素的对角矩阵。

(3)两个向量的Kronecker积与向量化算子： $\boldsymbol{a}\otimes\boldsymbol{b}=vec(\boldsymbol{b}\boldsymbol{a}^T)$ 。

(4)矩阵 $\boldsymbol{A}_{m \times p}\boldsymbol{B}_{p \times q}\boldsymbol{C}_{q \times n}$ 乘积的向量化与Kronecker积的关系：
$\begin{aligned} vec(\boldsymbol{ABC}) &= (\boldsymbol{C}^T\boldsymbol{B}^T\otimes\boldsymbol{I}_m)vec(\boldsymbol{A}) \\ vec(\boldsymbol{ABC}) &= (\boldsymbol{C}^T\otimes\boldsymbol{A})vec(\boldsymbol{B}) \\ vec(\boldsymbol{ABC}) &= (\boldsymbol{I}_q\otimes\boldsymbol{AB})vec(\boldsymbol{C}) \end{aligned}$
(5)Kronecker积的向量化：设有 $\times m$ 矩阵 $\boldsymbol{X}$ 和 $\times q$ 矩阵 $\boldsymbol{Y}$ ，则：
$vec(\boldsymbol{X}\otimes\boldsymbol{Y})=(\boldsymbol{I}_m\otimes\boldsymbol{K}_{qp}\otimes\boldsymbol{I}_n)(vec(\boldsymbol{X}) \otimes vec(\boldsymbol{Y}))$

6、实矩阵微分运算

6.1矩阵微分的定义

$\times n$ 矩阵 $\boldsymbol{X}$ 的微分用符号 $d\boldsymbol{X}$ 表示，定义为 $d\boldsymbol{X}=[dx_{ij}]_{i=1,j=1}^{m,n}$ 。

6.2矩阵微分的常用计算公式

(1)常数矩阵的微分矩阵为零矩阵，即 $d\boldsymbol{A}=\boldsymbol{O}$ 。

(2)常数 $\alpha$ 与矩阵 $\boldsymbol{X}$ 的乘积的微分矩阵为 $d(\alpha\boldsymbol{X})=\alpha d\boldsymbol{X}$ 。

(3)矩阵转置的微分矩阵为 $d(\boldsymbol{X}^T)=(d\boldsymbol{X})^T$ 。

(4)两个矩阵函数的和（差）的微分矩阵为 $d(\boldsymbol{U}\pm\boldsymbol{V})=d\boldsymbol{U} \pm d\boldsymbol{V}$ 。

(5)两个矩阵函数乘积的微分矩阵为 $d(\boldsymbol{UV})=(d\boldsymbol{U})\boldsymbol{V}+\boldsymbol{U}(d\boldsymbol{V})$ 。

(6)矩阵的迹的微分矩阵为 $d(tr(\boldsymbol{X}))=tr(d\boldsymbol{X})$ 。

(7)行列式的微分为 $d|\boldsymbol{X}|=tr(\boldsymbol{X}^*d\boldsymbol{X})$ ，其中 $\boldsymbol{X}^*$ 表示 $\boldsymbol{X}$ 的伴随矩阵，在 $\boldsymbol{X}$ 可逆时又可以写作 $d|\boldsymbol{X}|=|\boldsymbol{X}|tr(\boldsymbol{X}^{-1}d\boldsymbol{X})$ 。