IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> tensorflow实现梯度累计,再回传 -> 正文阅读

[人工智能]tensorflow实现梯度累计,再回传

由于主机显卡只有12g的显存,且只装了一块30系列的卡,因此在跑代码时难免会遇到batch_size不能太大的尴尬,因此可以通过,梯度累计的方式进行优化,来变相扩大batch_size。这样的操作在pytorch中很好实现,但在tf中稍显复杂。

上代码,解释:

def train():
    ...
    ...
    # 所有可训练参数  
    trainable_vars = tf.trainable_variables()
    # 规定需要训练的参数
    vit_trainable_vars = [var for var in trainable_vars if 'VGG' not in var.name] #both generate and vision_transformer #291
    print("************vars to train:",len(vit_trainable_vars))
    # 在计算图中定义一个操作,为每一个要训练的参数创建一个等shape的全0变量
    accum_vars = [tf.Variable(tf.zeros_like(tv.initialized_value()), trainable=False) for tv in vit_trainable_vars]
    # 梯度归零操作
    zero_ops = [tv.assign(tf.zeros_like(tv)) for tv in accum_vars]
    global_step = tf.Variable(1, trainable=False)
    # 定义优化操作
    with tf.device('/gpu:0'):
        with tf.name_scope('train'):
            #train_step = tf.train.AdamOptimizer(learning_rate, 0.9, 0.999).minimize(loss, global_step=global_step)
            # 优化器
            optimizer = tf.train.AdamOptimizer(learning_rate, 0.9, 0.999)
            # 计算梯度
            grads = optimizer.compute_gradients(loss, vit_trainable_vars)
            # 将本次梯度类加   
            accum_ops = [accum_vars[i].assign_add(gv[0]) for i, gv in enumerate(grads)]
            # 优化参数
            train_step = optimizer.apply_gradients([(accum_vars[i], gv[1]) for i, gv in enumerate(grads)], global_step=global_step)
    ...
    iter = 0
    while True:
        ...
        ... 
        iter += 1
        sess.run(accum_ops) #累加两次梯度
        if iter % 2 == 0:
            ...
            sess.run(train_step, feed_dict={...}) #优化一次参数
            ...
            sess.run(zero_ops) #将梯度置0
            ...

这样就完成了计算两次梯度,并累加回传的目的,相当于batch_size扩大了一倍。

值得注意的是,如果我们不规定要保存的参数化,新创建的Variable也会被保存,会导致我们的模型体积变大,因此要规定只保存原来模型的参数。例,我在实际使用中:

var_to_save = [val for val in var if 'Adam' not in val.name and 'Variable_' not in val.name]

saver = tf.train.Saver(var_to_save, max_to_keep=None)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-17 11:30:57  更:2022-01-17 11:32:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 16:49:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码