[人工智能] pytorch梯度累积

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> pytorch梯度累积 -> 正文阅读

[人工智能]pytorch梯度累积

增大batchsize训练模型，一般都能带来一定的提升。在显卡内存不够的情况下，可以通过梯度累积的方式，来扩大batchsize。

因为pytorch中，反向传播之后，梯度是不清零的，因此要实现梯度累积，比较简单

不使用梯度累积的情况下，训练代码：

for i, (input_id, label) in enumerate(train_loader):
    # 1. 模型输出
    pred = model(input_id)
    loss = criterion(pred, label)

    # 2. 反向传播
    optimizer.zero_grad()   
    # 梯度清空
    loss.backward()
    # 反向传播，计算梯度
    optimizer.step()
    # 根据梯度，更新网络参数

使用梯度累积，训练代码：

for i,(input_id, label) in enumerate(train_loader):
    # 1. 模型输出
    pred = model(input_id)
    loss = criterion(pred, label)

    # 2.1 损失规范
    loss = loss / accumulation_steps  
 
    # 2.2 反向传播，计算梯度
    loss.backward()

    if (i+1) % accumulation_steps == 0:
        optimizer.step() 
        # 更新参数
        optimizer.zero_grad() 
        # 梯度清空，为下一次反向传播做准备

（1）关于损失规范

我的理解是，相当于loss计算的时候，需要对batch中的每个样本求平均，这里累积多个batch也需要求平均。也相当于多次梯度求和，再平均

（2）关于学习率如何变化

如果训练epoch不变，那个参数更新的次数也减少为原来的1/?accumulation_steps 次，因此学习率要调大（或者增大epoch）

此外, 还有两点要注意

（1）使用BN层的情况下，梯度累积的方式在统计方差和均值，没有真正的大batchsize准确

（2）学习率变化策略设置，可能和参数更新次数有关，这里也需要注意

自己的一些实验, 可以供大家参考。

这里我没有考虑上面的两个注意点，学习率在训练过程中是不变的，使用bert进行分类，指标是F1值，训练最大epoch均设为10

实验设置	数据集1：F1值	数据集2：F1值
batchsize=20 （学习率2e-5）	76.4	42.8
梯度累积2次（学习率2e-5，batchsize=10*2）	77.0	45.0
梯度累积6次（2e-5 3 =6e-5，batchsize=106）	75.4	34.3
梯度累积6次（?5e-5，batchsize=10*6）	77.2	41.4