[人工智能] CVPR19 - 调参干货《Bag of Tricks for Image Classification with Convolutional Neural Network》

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> CVPR19 - 调参干货《Bag of Tricks for Image Classification with Convolutional Neural Network》 -> 正文阅读

[人工智能]CVPR19 - 调参干货《Bag of Tricks for Image Classification with Convolutional Neural Network》

文章目录

原文地址

https://openaccess.thecvf.com/content_CVPR_2019/papers/He_Bag_of_Tricks_for_Image_Classification_with_Convolutional_Neural_Networks_CVPR_2019_paper.pdf

论文阅读方法

三遍论文法

初识

目前深度学习在计算机视觉领域大放异彩，这不仅归功于网络结构的创新，也得益于训练策略的优化(损失函数、数据预处理、优化方法等)。但很多实现的细节和技巧在论文中并没有提及，或者是只简单提了一两句，这篇文章就是收集这些trick并进行了实验，将ResNet-50在ImageNet上的top1错误率从75.3%提升到79.29%。干货满满啊，调参侠狂喜。

相知

2. Training Procedures

本节主要描述了文章实验的具体设置，这里简单提及相关要点，具体设置请看原论文

Baseline的训练策略：① 随机采样编码为float32类型； ② 随机裁剪；③ 0.5的概率水平翻转； ④ 饱和度、对比度、亮度随机变化； ⑤ 增加PCA噪声。

测试不采用任何增广；模型参数初始化采用Xavier，使用NAG优化器。

3. Large-batch training

主要讨论了低数值精度与大batch size的trick，目前常用半精度浮点类型+大batch size提升训练速度，同时提升准确率。

3.1 Large-batch training

大的batch size不会改变随机梯度的期望但会降低方差，也就是说大batch size会降低梯度的噪声。但是随着batch size的增加，会降低训练的收敛速度（同样的epoch效果会变差）。为了解决这个问题，有以下的trick：

① Linear scaling learning rate：很简单，学习率随着batch size线性增加。比如开始的batch size=128，学习率=0.1。现在batch size=256，学习率就也增加2倍，变为0.2；

② Learning rate warm up：在训练一开始就使用很大的学习率可能会导致数值不稳定，因此先使用小学习率然后慢慢增加至设定学习率即可。一般的策略是从0开始，经过几个epoch线性增加到预设学习率，warm up的实现可以参加我另外一篇博客；

③ Zero γ：在BN层会涉及到收缩与偏移γx+β，初始化时对所有residual block末尾的BN都设置γ=0，这使得网络在初始阶段的模拟层数较少且更容易训练。

④ No bias decay：只对卷积层和全连接的weight使用L2正则化，对于bias以及BN层中的参数不用。

LARS，对超大的batch size有效(大于16k)，卡多的大佬可以了解一下…

3.2 Low-precision traing

关于低精度就是使用float16的半浮点精度进行数值运算，目前的显卡对于FP16类型已经很快了（还是1080Ti和2080Ti玩家的我眼泪掉下来），比如V100在FP32的训练速度是14TFLOPs，在FP16已经是100TFLOPS了。这部分我就不讲太多了，适合卡新卡多的大佬研究，提示一下1080Ti没有什么FP16运算能力…

最后贴个实验结果，大致可以看到哪些trick是比较鸡肋的，我个人建议只考虑warm up+Linear Scaling，性价比最高。