开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 动手学深度学习笔记（一） -> 正文阅读

[人工智能]动手学深度学习笔记（一）

矩阵计算

1. 标量导数

一般的标量导数表示切线的斜率

2. 亚导数

将导数拓展到不可微的函数。在函数的不可导点，将导数（斜率）取为一个范围内的任意值。

如，对于函数：
$y = ∣ x ∣$

其导数可以记为：
$\frac{\partial |x|}{\partial x}= \begin{cases} 1 & if\ x>0 \\ -1 & if\ x<0 \\ a & if\ x=0,a\in [-1,1] \end{cases}$

函数 $max{(x,0)}$ 的导数可以记为：
$\frac{\partial \max{(x,0)}}{\partial x}= \begin{cases} 1 & if\ x>0 \\ 0 & if\ x<0 \\ a & if\ x=0,a\in [-1,1] \end{cases}$

3. 梯度

导数在向量的拓展。

$\quad$	标量 $x$	向量 $\boldsymbol{x}$
标量 $y$	$\frac{\partial y}{\partial x}（标量）$	$\frac{\partial y}{\partial \boldsymbol{x}}（行向量）$
向量 $\boldsymbol{y}$	$\frac{\partial \boldsymbol{y}}{\partial x}（列向量）$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}（矩阵）$

$y$ 是标量， $\boldsymbol{x}=\left[\begin{matrix} x_1 \\ x_2 \\\vdots \\x_n \end{matrix}\right]$ 是向量，梯度按照如下方法计算，标量相对于一个列向量的导数是一个行向量（分子布局法），所以下面的计算都要转置。
$\frac{\partial y}{\partial \boldsymbol{x}} = \left[\begin{matrix} \dfrac{\partial y}{\partial x_1}, & \dfrac{\partial y}{\partial x_2}, & \cdots, & \dfrac{\partial y}{\partial x_n} \end{matrix}\right]$

如，对于 $y=x_1^2 + 2x_2^2$ ，梯度 $\frac{\partial y}{\partial{\boldsymbol{x}}}=\left[\begin{matrix}2x_1,4x_2\end{matrix}\right]$ 。

一些梯度的计算：

y	$sum(\boldsymbol{x})$	$x\\|^2$	$\langle \boldsymbol{u},\boldsymbol{v}\rangle$
$\dfrac{\partial y}{\partial{\boldsymbol{x}}}$	$\boldsymbol{1}^T$	$2\boldsymbol{x}^T$	$\boldsymbol{u}^T\frac{\partial \boldsymbol{v}}{\partial \boldsymbol{x}}+\boldsymbol{v}^T\frac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}$

$\boldsymbol{y}=\left[\begin{matrix} y_1 \\ y_2 \\\vdots \\y_m \end{matrix}\right]$ 是矩阵， $x$ 是一个标量，计算梯度的方式如下，得到的是一个列向量（分子布局法）。
$\frac{\partial \boldsymbol{y}}{\partial x}= \left[\begin{matrix} \dfrac{\partial y_1}{\partial x} \\ \dfrac{\partial y_2}{\partial x} \\ \vdots \\ \dfrac{\partial y_m}{\partial x} \end{matrix}\right]$
对于向量 $\boldsymbol{x}=\left[\begin{matrix} x_1 \\ x_2 \\\vdots \\x_n \end{matrix}\right]$ 与向量 $\boldsymbol{y}=\left[\begin{matrix} y_1 \\ y_2 \\\vdots \\y_m \end{matrix}\right]$ ，其求梯度的方式如下，最终得到一个矩阵。
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}= \left[\begin{matrix} \dfrac{\partial y_1}{\partial \boldsymbol{x}} \\ \dfrac{\partial y_2}{\partial \boldsymbol{x}} \\ \vdots \\ \dfrac{\partial y_m}{\partial \boldsymbol{x}} \end{matrix}\right]= \left[\begin{matrix} \dfrac{\partial y_1}{\partial x_1}, & \dfrac{\partial y_1}{\partial x_2}, & \cdots, & \dfrac{\partial y_1}{\partial x_n} \\ \dfrac{\partial y_2}{\partial x_1}, & \dfrac{\partial y_2}{\partial x_2}, & \cdots, & \dfrac{\partial y_2}{\partial x_n} \\ &\vdots && \\ \dfrac{\partial y_m}{\partial x_1}, & \dfrac{\partial y_m}{\partial x_2}, & \cdots, & \dfrac{\partial y_m}{\partial x_n} \end{matrix}\right]$

$\boldsymbol{y}$	$\boldsymbol{x}$	$\boldsymbol{Ax}$	$\boldsymbol{x}^T\boldsymbol{A}$	$a\boldsymbol{u}$	$\boldsymbol{Au}$
$\dfrac{\partial \boldsymbol{y}}{\partial{\boldsymbol{x}}}$	$\boldsymbol{I}$	$\boldsymbol{A}$	$\boldsymbol{A}^T$	$a\dfrac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}$	$\boldsymbol{A}\dfrac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}$

$a$ ， $\boldsymbol{a}$ 和 $\boldsymbol{A}$ 中都不包含 $\boldsymbol{x}$

4. 向量链式法则

标量的链式法则：

若 $y = f (u), u = g (x)$ ，则 $y$ 相对于 $x$ 的导数可以表示为：
$\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u}\frac{\partial u}{\partial x}$

向量的链式求导法则：

类型	求导
$y$ 是标量， $u$ 是标量， $\boldsymbol{x}$ 是向量	$\underset{(1,n)}{\dfrac{\partial y}{\partial \boldsymbol{x}}}= \underset{(1,)}{\dfrac{\partial y}{\partial u}} \underset{(1,n)}{\dfrac{\partial u}{\partial \boldsymbol{x}}}$
$y$ 是标量， $\boldsymbol{u}$ 是向量， $\boldsymbol{x}$ 是向量	$\underset{(1,n)}{\dfrac{\partial y}{\partial \boldsymbol{x}}}= \underset{(1,k)}{\dfrac{\partial y}{\partial \boldsymbol{u}}} \underset{(k,n)}{\dfrac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}}$
$\boldsymbol{y}$ 是向量， $\boldsymbol{u}$ 是向量， $\boldsymbol{x}$ 是向量	$\underset{(m,n)}{\dfrac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}}= \underset{(1,k)}{\dfrac{\partial \boldsymbol{y}}{\partial \boldsymbol{u}}} \underset{(k,n)}{\dfrac{\partial \boldsymbol{u}}{\partial \boldsymbol{x}}}$

例子：

对于一个表达式 $z=(\langle \boldsymbol{x},\boldsymbol{w}\rangle - y)^2$ ，其中 $\boldsymbol{x},\boldsymbol{w}\in \mathbb{R}^n,y\in\mathbb{R}$ ，计算 $\dfrac{\partial z}{\partial \boldsymbol{w}}$ 的过程如下：
1. 首先将其中的变量求导，记 $a=\langle \boldsymbol{x},\boldsymbol{w}\rangle,\quad b=a-y,\quad z=b^2$
2. 使用链式求导对每个中间变量求导
  $\begin{aligned} \dfrac{\partial z}{\partial \boldsymbol{w}} & = \dfrac{\partial z}{\partial b}\dfrac{\partial b}{\partial a}\dfrac{\partial a}{\partial \boldsymbol{w}} \\ & = \dfrac{\partial b^2}{\partial b}\dfrac{\partial (a-y)}{\partial a}\dfrac{\partial \langle \boldsymbol{x},\boldsymbol{w}\rangle}{\partial \boldsymbol{w}} \\ & = 2b \cdot 1 \cdot \boldsymbol{x}^T \\ & = 2(\langle \boldsymbol{x},\boldsymbol{w}\rangle -y)\boldsymbol{x}^T \end{aligned}$

5. 自动求导

自动求导是计算一个函数在指定值上的导数，即对于一个 $y = f (x)$ 的表达式，对于某一个 $x = c$ ， $f^{'} (c)$ 的值是什么。

自动求导是根据计算图进行详细计算的，也就是给定一个表达式：

首先将该表达式分解成一个一个的操作子
使用操作子就可以将整个表达式表示为一个无环图

如，对于上面例子的表达式， $z=(\langle \boldsymbol{x},\boldsymbol{w}\rangle - y)^2$ ， $a, b, z$ 就算单个的计算子，它们可以构成如下的计算图，其中每个圈表示一个表达式或输入。
在这里插入图片描述

构造出计算图后，根据链式求导法则：
$\dfrac{\partial y}{\partial x}=\dfrac{\partial y}{\partial u_n}\dfrac{\partial u_n}{\partial u_{n-1}}\cdots\dfrac{\partial u_2}{\partial u_{1}}\dfrac{\partial u_1}{\partial x}$

可以通过如下两种方式实现自动求导：

正向累积。先计算 $\dfrac{\partial u_1}{\partial x}$ ，再计算 $\dfrac{\partial u_2}{\partial u_1}$ ，之后依次向前计算
$\dfrac{\partial y}{\partial x}= \dfrac{\partial y}{\partial u_n} \left(\dfrac{\partial u_n}{\partial u_{n-1}} \left(\cdots \left(\dfrac{\partial u_2}{\partial u_{1}} \dfrac{\partial u_1}{\partial x} \right)\right)\right)$

正向累计可以根据计算图，从下向上依次计算每个结点相对于下一个参数的导数。
反向累积（反向传播）。先计算 $\dfrac{\partial y}{\partial u_n}$ ，再计算 $\dfrac{\partial u_n}{\partial u_{n-1}}$ ，之后依次向后计算。
$\dfrac{\partial y}{\partial x}=\left(\left( \left(\dfrac{\partial y}{\partial u_n} \dfrac{\partial u_n}{\partial u_{n-1}}\right) \cdots\right) \dfrac{\partial u_2}{\partial u_{1}}\right) \dfrac{\partial u_1}{\partial x}$

反向累积需要根据计算图从上向下依次求导，求导过程中需要将正向计算中的结果拿来构成每个结点的求导结果并保存为中间结果。如下所示：

反向累积中，计算复杂度为 $O (n)$ ，内存复杂度为 $O (n)$ ，因为要存储正向的所有中间结果，所以更加耗费资源。
正向累积中，计算一个变量的时间复杂度为 $O (n)$ （即从下向上扫一遍），对于多个变量的计算会使计算复杂度非常大。内存复杂度为 $O (1)$ ，不需要保存中间的结果。

6. PyTorch 自动求导

若要计算 $y=2\mathbf{x}^T\mathbf{x}$ 关于行向量 $\mathbf{x}$ 的导数，可以通过如下步骤。
1. 构造 $\mathbf{x}$ 向量，并指定在 x.grad 中保存计算出来的梯度
```
# 1. 先创建 x ，再指定 x 可以求导
>>> x = torch.arange(4.0)
>>> x
tensor([0., 1., 2., 3.])
>>> x.requires_grad_(True)
tensor([0., 1., 2., 3.], requires_grad=True)
>>> x.grad     #默认为 None

# 2. 在创建 x 同时指定 x 可以求导
>>> x = torch.arange(4.0, requires_grad=True)
>>> x
tensor([0., 1., 2., 3.], requires_grad=True)
>>> x.grad     #默认为 None
```
2. 利用 $\mathbf{x}$ 计算 $y$
```
>>> y = 2 * torch.dot(x,x)           #计算内积
>>> y
tensor(28., grad_fn=<MulBackward0>)  #grad_fn 保存 y 的运算信息，表明 y 是由 x 构建的
>>> y.grad_fn
<MulBackward0 object at 0x00000211287EEFD0>
```
3. 调用反向传播函数 y.backward() 自动计算 $y$ 关于 $\mathbf{x}$ 每个分量的梯度
```
>>> y.backward()
>>> x.grad
tensor([ 0.,  4.,  8., 12.])

>>> x.grad == 4 * x
tensor([True, True, True, True])
```
其计算的本质就是构造出 $y = f (x)$ 的表达式，上式为 $y=2(x_1^2 + x_2^2 + x_3^2 + x_4^2)$ ，之后将向量 $\boldsymbol{x}$ 中的每个值都带入计算，得到 $\boldsymbol{x}=\left[\begin{matrix}x_1,x_2,\cdots,x_n\end{matrix}\right]$ 中每个位置的变量对应的求导公式 $y'=f'(\boldsymbol{x})=\left[\begin{matrix}f'(x_1),f'(x_2),\cdots,f'(x_n)\end{matrix}\right]=\left[\begin{matrix} 4x_1^2,4x_2^2,4x_3^2,4x_4^2\end{matrix}\right]$ ，再将值带入对应位置。
下面展示了计算 $x$ 的累加和的梯度

在默认情况下，PyTorch 会 累加梯度，使用 x.grad.zero_() 可以清除之前的值
```
>>> x.grad.zero_()
tensor([0., 0., 0., 0.])
>>> x.grad
tensor([0., 0., 0., 0.])

>>> y = x.sum()
>>> y.backward()
>>> x.grad
tensor([1., 1., 1., 1.])
```

使用 y.backward() 计算梯度时必须保证 y 是一个标量，在数学上是不允许对非标量求导的，如下所示，一般情况下我们首先对 y 求和，求和之后是一个标量，再进行求导。

>>> x.grad.zero_()
>>> y = x *x
>>> y.backward()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\Applications\Anaconda\lib\site-packages\torch\tensor.py", line 221, in backward
    torch.autograd.backward(self, gradient, retain_graph, create_graph)
  File "D:\Applications\Anaconda\lib\site-packages\torch\autograd\__init__.py", line 126, in backward
    grad_tensors_ = _make_grads(tensors, grad_tensors_)
  File "D:\Applications\Anaconda\lib\site-packages\torch\autograd\__init__.py", line 50, in _make_grads
    raise RuntimeError("grad can be implicitly created only for scalar outputs")
RuntimeError: grad can be implicitly created only for scalar outputs

>>> y.sum().backward()
>>> x.grad
tensor([0., 2., 4., 6.])

将某些计算移动到记录的计算图之外，即通过 y.detach() 命令使得中间变量 $y$ 成为一个常数，对于包含 $y$ 的表达式，当计算梯度时候会将 $y$ 视为常数

#1. 对 y 执行 detach()
>>> x.grad.zero_()
tensor([0., 0., 0., 0.])
>>> y = x * x
>>> u = y.detach()
>>> z = u * x
>>> z.sum().backward()

>>> x.grad == u
tensor([True, True, True, True])
>>> x.grad
tensor([0., 1., 4., 9.])

#2. 不对 y 执行 detach()
>>> x.grad.zero_()
tensor([0., 0., 0., 0.])
>>> y = x * x
>>> z = y * x
>>> z.sum().backward()
>>> x.grad
tensor([ 0.,  3., 12., 27.])

#3. 因为 y 是 x 的函数，所以直接对 y 进行梯度求解没有影响，但是不能对 u 求导
>>> x.grad.zero_()
tensor([0., 0., 0., 0.])
>>> y.sum().backward()
>>> x.grad
tensor([0., 2., 4., 6.])

>>> u.sum().backward()
RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-07-31 16:38:15 更:2021-07-31 16:38:47

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/20 17:31:30-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码