[人工智能] 深度学习中Fine-tune是什么？

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 深度学习中Fine-tune是什么？ -> 正文阅读

[人工智能]深度学习中Fine-tune是什么？

Fine-tune

????????fine-tune中文译为“微调”，深度学习中需要在深层网络中不断进行训练更新模型的参数（权重）拟合能实现预期结果的模型。
然而在深层次的神经网络中进行训练，由于模型规模大，参数量多，因此会有以下问题：

???????? 1. 计算较为耗时，会占用大量计算资源和时间成本；
?????????2. 对于较为复杂的任务，比如说对于目标识别任务，目标类别多起来的话，如果想提升模型的表现能力，需要大量的数据集。同样以目标识别任务为例子，我们需要大量标注的图像数据来对模型进行训练；

????????然而还存在一个问题，仍然以目标识别任务为例，假设有一个已经训练好的模型A，其任务是识别（猫，狗，人，鸡，鸭，鹅）这6+1（背景）个类别的目标，当我们的需求发生变化，需要再增加一类目标“猪”时，如果采用重新训练一个新模型B的方式无疑会增加成本，而且造成了资源浪费——A和B的模型需求相似度高，我们为什么不可以利用到已经成熟的模型A呢？
????????解决以上问题的方案就是fine-tune，微调！比如针对于以上举例，可以采用的一个微调策略是保留模型A的前若干层的结构以及它们训练后的权重，然后更改模型最后一层的softmax，调整其映射到（猫，狗，人，鸡，鸭，鹅，猪）+背景这八个类别，这样就大大减少了训练的时间和计算成本。
????????其实还可以这么理解fine-tune：我们的目标是使预测损失最小化，在各个参数展开的空间内找到最优的点（或者是靠近最优点的点），如果从开始找，当然比较慢；但是从之前已经训练好的其他类似模型开始，就相当于在最优点附近的点开始，自然收敛的速度和效果会比从零训练好得多。
????????当然针对不同的情况，fine-tune的方式也不尽相同，见下图：
不同数据集下使用微调