[人工智能] Pytorch 叶子张量 leaf tensor (叶子节点)

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Pytorch 叶子张量 leaf tensor (叶子节点) -> 正文阅读

[人工智能]Pytorch 叶子张量 leaf tensor (叶子节点)

? ? ? 在Pytorch中，默认情况下，非叶节点的梯度值在反向传播过程中使用完后就会被清除，不会被保留。只有叶节点的梯度值能够被保留下来。

? ? ? 对于任意一个张量来说，我们可以用?tensor.is_leaf?来判断它是否是叶子张量（leaf tensor）

? ? ? 在Pytorch神经网络中，我们反向传播backward()就是为了求叶子节点的梯度。在pytorch中，神经网络层中的权值w的tensor均为叶子节点。它们的require_grad都是True，但它们都属于用户创建的，所以都是叶子节点。而反向传播backward()也就是为了求它们的梯度

在Pytorch的autograd机制中，当tensor的requires_grad值为True时，在backward()反向传播计算梯度时才会被计算。在所有的require_grad=True中，

默认情况下，非叶子节点的梯度值在反向传播过程中使用完后就会被清除，不会被保留。
默认情况下，只有叶子节点的梯度值能够被保留下来。
被保留下来的叶子节点的梯度值会存入tensor的grad属性中，在 optimizer.step()过程中会更新叶子节点的data属性值，从而实现参数的更新。

这样可以节省很大部分的显存

上面的话，也就是说，并不是每个requires_grad()设为True的tensor都会在backward的时候得到相应的grad.它还必须为leaf。这就说明. is_leaf=True 成为了在 requires_grad()下判断是否需要保留 grad的前提条件

? ? ? 只有是叶张量的tensor在反向传播时才会将本身的grad传入的backward的运算中.。如果想得到当前自己创建的，requires_grad为True的tensor在反向传播时的grad, 可以用retain_grad()这个属性(或者是hook机制)

detach()将节点剥离成叶子节点

? ? ? 如果需要使得某一个节点成为叶子节点，只需使用detach()即可将它从创建它的计算图中分离开来。即detach()函数的作用就是把一个节点从计算图中剥离，使其称为非叶节点

什么样节点会是叶子节点

①所有requires_grad为False的张量都为叶张量? ? ? ? ? ?

就像我们训练模型的input，它们都是require_grad=False，因为他们不需要计算梯度。它们是一个计算图都是起始点，如下图的a

②requires_grad为True的张量, 如果他们是由用户创建的,则它们是叶张量(leaf Tensor)。

这意味着它们不是运算的结果,因此gra_fn为None

?在这里，a, d, e是叶子节点，b,c不是

b是因为b是被cast操作创建的(从cpu cast一个tensor到gpu)

要和这里区分开

这里是说，单纯从数值关系上b=a+1，b确实依赖a(b是由a经过某个操作创建的)。但是从pytorch的看来，一切是为了反向求导，a的requires_grad属性为False，其不要求获得梯度，那么a这个tensor在反向传播时其实是“无意义”的，可认为是游离在计算图之外的，故b仍然为叶子节点，如下图

就连一个简单的不涉及梯度的操作也会使叶节点变成非叶节点
import torch

x = torch.tensor(2.0, requires_grad=True)
y = x ** 2
z = y + 1
z.backward()
print(x.grad)
print(y.grad)
print(x.is_leaf)
print(y.is_leaf)
print(x.grad_fn)
print(y.grad_fn)
从这里可以看出，只有叶子节点有梯度值grad，非叶节点为None

只有非叶节点有grad_fn，叶节点为None

另一个例子，如图中绿色的点都是叶子节点

?

获得非叶节点的梯度
import torch

x=torch.arange(10,dtype=torch.float32,requires_grad=True).reshape(10,1)
w=torch.arange(10,dtype=torch.float32,requires_grad=True).reshape(1,10)
y=w@x
x.retain_grad()
w.retain_grad()
y.backward()
print(x.is_leaf)
print(w.is_leaf)
print(x.grad)
print(w.grad)
?可以看到x和w都不是叶节点，但是用retain_grad()可以使它们获得梯度。

注意retain_grad()一定要写在y.backward()前面