[游戏开发] 深度学习的超参数调整

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 游戏开发 -> 深度学习的超参数调整 -> 正文阅读

[游戏开发]深度学习的超参数调整

在深度学习中，超参数有很多种，比如：网络宽度（层宽）、深度（层数），链接方式、损失函数、学习率、批样本数量、优化器等等。对于一个工作来说，对其一一调整是非常浪费时间的，并且也不符合实际。因此我们需要对每个超参数对结果的影响有一个大致了解。

超参数调整

概念

什么是超参数?

神经网络中有哪些超参数?

为什么优化超参数?

超参数的重要性?

合适的超参数范围?

方法

手动调整超参数

如何高效低调试模型?

学习率调整策略?

极端batch_size下如何调整模型?

模型微调有哪些?

特殊场景下的调参

目标检测

使用预训练模型的优劣?

如何从零训练检测器?

GAN

如何改善GAN的性能?

自动调整超参数

什么是AUTOML?

自动超参数搜索方法有哪些?

神经架构搜索?

为什么卷积核设计尺寸为奇数?

权重共享的形式有哪些,为什么要权重共享?

NASNet的设计策略是什么?

参数和超参数的区别

参数：由数据自行决定其大小和趋势，单个参数一般对模型结果影响不大。
超参数：人为的调整，对模型结果一般影响较大

有哪些超参数

超参数通常分为三类：网格参数、优化参数、正则化参数

网格参数：网络中层与层之间的交互方式、卷积核数量、卷积核尺寸、网络层数和激活函数等。
优化参数：学习率、批样本数量、不同优化器以及损失函数
正则化：权重衰减系数、丢弃比率

调整这些参数主要是寻找最优解和正则化之间的关系。网格模型优化调整的目的为了找到全局最优解，而正则项又希望尽量拟合到最优。两者通常情况下，存在一定的对立，但是二者目标一致，即最小化期望风险。最优解用来增加模型复杂度，正则项用来约束模型复杂度。

超参数重要顺序

首先，学习率、损失函数上的可调参数。
其次，批样本数量，动量优化器的动量参数 $\beta$ 。
最后，Adam优化器的超参数、权重衰减系数、丢弃比率和网络参数。

部分超参数如何影响模型性能

超参数	如何影响模型容量	原因	注意事项
学习率	调至最优，提升有效容量	过高或者过低的学习率，都会由于优化失败而导致降低模型有效容限	学习率最优点，在训练的不同时间点都可能变化，所以需要一套有效的学习率衰减策略
损失函数部分超参数	调至最优，提升有效容量	损失函数超参数大部分情况都会可能影响优化，不合适的超参数会使即便是对目标优化非常合适的损失函数同样难以优化模型，降低模型有效容限。	对于部分损失函数超参数其变化会对结果十分敏感，而有些则并不会太影响。在调整时，建议参考论文的推荐值，并在该推荐值数量级上进行最大最小值调试该参数对结果的影响。
批样本数量	过大过小，容易降低有效容量	大部分情况下，选择适合自身硬件容量的批样本数量，并不会对模型容限造成。	在一些特殊的目标函数的设计中，如何选择样本是很可能影响到模型的有效容限的，例如度量学习（metric learning）中的N-pair loss。这类损失因为需要样本的多样性，可能会依赖于批样本数量。
丢弃法	比率降低会提升模型的容量	较少的丢弃参数意味着模型参数量的提升，参数间适应性提升，模型容量提升，但不一定能提升模型有效容限
权重衰减系数	调至最优，提升有效容量	权重衰减可以有效的起到限制参数变化的幅度，起到一定的正则作用
优化器动量	调至最优，可能提升有效容量	动量参数通常用来加快训练，同时更容易跳出极值点，避免陷入局部最优解。
模型深度	同条件下，深度增加，模型容量提升	同条件，下增加深度意味着模型具有更多的参数，更强的拟合能力。	同条件下，深度越深意味着参数越多，需要的时间和硬件资源也越高。
卷积核尺寸	尺寸增加，模型容量提升	增加卷积核尺寸意味着参数量的增加，同条件下，模型参数也相应的增加。

部分超参数合适范围

超参数	建议范围	注意事项
初始学习率	SGD: [1e-2, 1e-1] momentum: [1e-3, 1e-2] Adagrad: [1e-3, 1e-2] Adadelta: [1e-2, 1e-1] RMSprop: [1e-3, 1e-2] Adam: [1e-3, 1e-2] Adamax: [1e-3, 1e-2] Nadam: [1e-3, 1e-2]	这些范围通常是指从头开始训练的情况。若是微调，初始学习率可在降低一到两个数量级。
损失函数部分超参数	多个损失函数之间，损失值之间尽量相近，不建议超过或者低于两个数量级	这是指多个损失组合的情况，不一定完全正确。单个损失超参数需结合实际情况。
批样本数量	[1:1024]	当批样本数量过大(大于6000)或者等于1时，需要注意学习策略或者内部归一化方式的调整。
丢弃法比率	[0, 0.5]
权重衰减系数	[0, 1e-4]
卷积核尺寸	[7x7],[5x5],[3x3],[1x1], [7x1,1x7]

数据的重要性

有一种说法，如果数据预处理的很好，那么你的深度学习就成功了一半了。数据才是模型的根本，如果有一批质量优秀的数据，或者说你能将数据质量处理的很好的时候，往往比挑选或者设计模型的收益来的更大。数据预处理步骤：

探索和清洗数据：
探索数据集是设计算法之前最为重要的一步，以图像分类为例，我们需要重点知道给定的数据集样本类别和各类别样本数量是否平衡，图像之间是否存在跨域问题（例如网上爬取的图像通常质量各异，存在噪声）。若是类别数远远超过类别样本数（比如类别10000，每个类别却只有10张图像），那通常的方法可能效果并不显著，这时候few-shot learning或者对数据集做进一步增强可能是你比较不错的选择。再如目标检测，待检测目标在数据集中的尺度范围是对检测器的性能有很大影响的部分。因此重点是检测大目标还是小目标、目标是否密集完全取决于数据集本身。所以，探索和进一步清洗数据集一直都是深度学习中最重要的一步。
探索模型结果
探索模型的结果，通常是需要对模型在验证集上的性能进行进一步的分析，这是如何进一步提升模型性能很重要的步骤。将模型在训练集和验证集都进行结果的验证和可视化，可直观的分析出模型是否存在较大偏差以及结果的正确性。以图像分类为例，若类别间样本数量很不平衡时，我们需要重点关注少样本类别在验证集的结果是否和训练集的出入较大，对出错类别可进一步进行模型数值分析以及可视化结果分析，进一步确认模型的行为。
监控训练和验证误差
首先很多情况下，我们忽略代码的规范性和算法撰写正确性验证，这点上容易产生致命的影响。在训练和验证都存在问题时，首先请确认自己的代码是否正确。其次，根据训练和验证误差进一步追踪模型的拟合状态。若训练数据集很小，此时监控误差则显得格外重要。确定了模型的拟合状态对进一步调整学习率的策略的选择或者其他有效超参数的选择则会更得心应手。
反向传播数值的计算，这种情况通常适合自己设计一个新操作的情况。
目前大部分流行框架都已包含自动求导部分，但并不一定是完全符合你的要求的。验证求导是否正确的方式是比较自动求导的结果和有限差分计算结果是否一致。所谓有限差分即导数的定义，使用一个极小的值近似导数。
$f'(x_0)=\lim_{n\rightarrow0}\frac{\Delta y}{\Delta x}=\lim_{n\rightarrow 0}\frac{f(x_0+\Delta x-f(x_0))}{\Delta x}$

学习率调整

学习率是深度学习超参数调整中的一个最重要的参数。学习率过大或者过小都对模型的训练有很大的影响。
首先介绍一下Hessian矩阵（多变量二阶导数组成的方形矩阵），二阶矩阵就会有下面的特点：

$f^{''} (x) > 0$ 时，函数 $f (x)$ 在 $x=x_0$ 处有极小值；
$f^{''} (x) = 0$ 时，函数 $f (x)$ 在 $x=x_0$ 处有极值；
$f^{''} (x) < 0$ 时，函数 $f (x)$ 在 $x=x_0$ 处有极大值；
在训练的时候，当达到一定程度，即损失函数不再继续下降，也就是说模型的一阶梯度基本等于0，对应的Hessian矩阵通常有两种情况：
正定，即所有特征值都是正的，也就是说全部参数二阶导数都大于0，那么在该处会有极小值，具体是不是全局最小值，还需要再做调整，一般是局部最小值，通过调整其他参数，比如batch size等，还会获得更小的最小值，直到得到全局最小值。
特征值有可能时负值，可能陷入鞍点，模型会表现很差。

一个比较好的解决方案是，对学习率进行衰减或增大。tensorflow内置的学习率衰减法，主要有如下方法：

CosineDecay：余弦衰减方案；
CosineDecayRestarts：带有重启的余弦衰减方案；
ExponentialDecay：指数衰减方案；
InverseTimeDecay：逆时间衰减；
PiecewiseConstantDecay：分段式衰减方案；
PolynomialDecay：多项式方案。

调用方法：

initial_learning_rate = 0.1
final_learning_rate = 0.0001
learning_rate_decay_factor = (final_learning_rate / initial_learning_rate)**(1/epochs)
steps_per_epoch = int(train_size/batch_size)

lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
                initial_learning_rate=initial_learning_rate,
                decay_steps=steps_per_epoch,
                decay_rate=learning_rate_decay_factor,
                staircase=True)

如果使用优化器，可以这样调用：

def decayed_learning_rate(step):
  return initial_learning_rate * decay_rate ^ (step / decay_steps)

initial_learning_rate = 0.1
lr_schedule = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate,
    decay_steps=100000,
    decay_rate=0.96,
    staircase=True)

model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=lr_schedule),
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(data, labels, epochs=5)

batch size的设置

极端批样本数量，即batch size=1或者batch size=6000，由于显卡的原因，一般情况下batch size会被设置为很小的值（batch size太大会导致显存不足）。针对梯度不稳定的问题，通常不会太致命，若训练中发现梯度不稳定导致性能的严重降低时可采用累计梯度的策略，即每次计算完不反向更新，而是累计多次的误差后进行一次更新，这是一种在内存有限情况下实现有效梯度更新的一个策略。batch size过小通常对batchnorm的影响是最大的，若网络模型中存在batchnorm，batch size若只为1或者2时会对训练结果产生非常大的影响。这时通常有两种策略，一、若模型使用了预训练网络，可冻结预训练网络中batchnorm的模型参数，有效降低batch size引起的统计量变化的影响。二、在网络不是过深或者过于复杂时可直接移除batchnorm或者使用groupnorm代替batchnorm，前者不多阐释，后者是有FAIR提出的一种用于减少batch对batchnorm影响，其主要策略是先将特征在通道上进行分组，然后在组内进行归一化。即归一化操作上完全与batch size无关。这种groupnorm的策略被证实在极小批量网络训练上能达到较优秀的性能。当然这里也引入里group这个超参数，一般情况下建议不宜取group为1或者各通道单独为组的group数量，可结合实际网络稍加调试。
如果显卡足够，为了降低训练时间的成本，多机多卡的分布式系统通常会使用超大的batch size进行网络训练。同样的在14.2.4中，我们提到了超大batch size会带来梯度方向过于一致而导致的精度大幅度降低的问题。这时通常可采用层自适应速率缩放（LARS）算法。从理论认知上将，batch size增大会减少反向传播的梯度更新次数，但为了达到相同的模型效果，需要增大学习率。但学习率一旦增大，又会引起模型的不收敛。为了解决这一矛盾，LARS算法就在各层上自适应的计算一个本地学习率用于更新本层的参数，这样能有效的提升训练的稳定性。目前利用LARS算法，腾讯公司使用65536的超大batch size能将ResNet50在ImageNet在4分钟完成训练，而谷歌使用32768的batch size使用TPU能将该时间缩短至2分钟。

参考：超参数调整