[人工智能] tensorflow实现梯度累计，再回传

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> tensorflow实现梯度累计，再回传 -> 正文阅读

[人工智能]tensorflow实现梯度累计，再回传

由于主机显卡只有12g的显存，且只装了一块30系列的卡，因此在跑代码时难免会遇到batch_size不能太大的尴尬，因此可以通过，梯度累计的方式进行优化，来变相扩大batch_size。这样的操作在pytorch中很好实现，但在tf中稍显复杂。

上代码，解释：

def train():
    ...
    ...
    # 所有可训练参数  
    trainable_vars = tf.trainable_variables()
    # 规定需要训练的参数
    vit_trainable_vars = [var for var in trainable_vars if 'VGG' not in var.name] #both generate and vision_transformer #291
    print("************vars to train：",len(vit_trainable_vars))
    # 在计算图中定义一个操作，为每一个要训练的参数创建一个等shape的全0变量
    accum_vars = [tf.Variable(tf.zeros_like(tv.initialized_value()), trainable=False) for tv in vit_trainable_vars]
    # 梯度归零操作
    zero_ops = [tv.assign(tf.zeros_like(tv)) for tv in accum_vars]
    global_step = tf.Variable(1, trainable=False)
    # 定义优化操作
    with tf.device('/gpu:0'):
        with tf.name_scope('train'):
            #train_step = tf.train.AdamOptimizer(learning_rate, 0.9, 0.999).minimize(loss, global_step=global_step)
            # 优化器
            optimizer = tf.train.AdamOptimizer(learning_rate, 0.9, 0.999)
            # 计算梯度
            grads = optimizer.compute_gradients(loss, vit_trainable_vars)
            # 将本次梯度类加   
            accum_ops = [accum_vars[i].assign_add(gv[0]) for i, gv in enumerate(grads)]
            # 优化参数
            train_step = optimizer.apply_gradients([(accum_vars[i], gv[1]) for i, gv in enumerate(grads)], global_step=global_step)
    ...
    iter = 0
    while True:
        ...
        ... 
        iter += 1
        sess.run(accum_ops) #累加两次梯度
        if iter % 2 == 0：
            ...
            sess.run(train_step, feed_dict={...}) #优化一次参数
            ...
            sess.run(zero_ops) #将梯度置0
            ...

这样就完成了计算两次梯度，并累加回传的目的，相当于batch_size扩大了一倍。

值得注意的是，如果我们不规定要保存的参数化，新创建的Variable也会被保存，会导致我们的模型体积变大，因此要规定只保存原来模型的参数。例，我在实际使用中：

var_to_save = [val for val in var if 'Adam' not in val.name and 'Variable_' not in val.name]

saver = tf.train.Saver(var_to_save, max_to_keep=None)

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-01-17 11:30:57 更:2022-01-17 11:32:15

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/16 5:51:53-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码