- 准备工作
import torch
x = torch.arange(4.0)
x.requires_grad_(True)
也可以直接在创建tensor的时候直接定义requires_grad
torch.arange(4.0, requires_grad=True)
例子 1:y = 2 * dot(x, x)
- 构造一个函数
y = 2 * dot(x, x)
y = 2 * torch.dot(x,x)
y
结果:tensor(28., grad_fn=<MulBackward0>)
- 计算其梯度
y.backward()
x.grad
tensor([ 0., 4., 8., 12.])
- 判断是否是 4x (因为 y = 2 * dot(x,x) 的导数是 4x)
x.grad == 4 * x
结果:tensor([True, True, True, True])
例子2:x.sum():
x.sum()的导数是 1
x.grad.zero_()
y = x.sum()
y.backward()
x.grad
结果:tensor([1., 1., 1., 1.])
例子3:y = x * x
深度学习中,我们的目的不是计算微分矩阵,而是批量中每个样本单独计算的偏导数之和
x.grad.zero_()
y = x * x
y.sum().backward()
x.grad
结果: tensor([0., 2., 4., 6.])
注意: 这里求梯度需要用 y.sum()进行,因为: grad can be implicitly created only for scalar outputs
例子4:y = u * x (这里的u是标量)
x.grad.zero_()
y = x * x
u = y.detach()
z = u * x
z.sum().backward()
x.grad == u
结果:tensor([True, True, True, True])
|