IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> CH1-模型训练优化 -> 正文阅读

[人工智能]CH1-模型训练优化


image-20220816203549962

一、模型结构优化

1.1 基于深度和参数量

从LeNet5到AlexNet,再到VGGNet,主要以卷积、池化、全链接构成,层数不断加深,参数不断增多。

image-20220816204458279

1.2 基于宽度和多尺度

Inception系列相较于VGGNet,参数量更少,精度更高,得益于Inception Module的多尺度设计和特征融合思想,以宽度取胜。

image-20220816204616424

1.3 基于残差连接

image-20220816204634755

1.4 基于不规则卷积

不规则卷积的引入,不仅可以让采样视野大于常规卷积,还可以自由调节感受野的形状,适应更加灵活的目标尺度,例如 可变形卷积 deformable convolutional networks

image-20220816205517897

1.5 基于注意力机制

注意力机制(attention)的引入,基本思想就是让系统学会注意力 – 关注重点信息,同时忽略无关信息。包括空间域注意力、通道域注意力、层域注意力、混合域注意力等

image-20220816205527154

1.6 基于Transformer

CV领域新范式,目前基于Transformer的CV模型已经成为了新的SOTA。Transformer关注全局信息,能建模更加长距离依赖关系,避免了CNN中存在的归纳偏好问题,但复杂度较高。

image-20220816205534978

1.7 优化示例

image-20220816205623741
image-20220816205800995

二、模型性能优化

2.1 量化

在另一方面,如果我们能够将浮点型存储的模型转化为8bit甚至4bit、2bit存储时,不仅模型所占空间大幅度减小,计算量也会降低。所以在实际工程应用中,量化(Quantization)是很常见的做法。

image-20220816211500468

image-20220816211713449

2.2 剪枝

许多论文和实验证明,我们经常使用的神经网络模型都是过参数化的,即一个训练好的模型,其内部许多参数都是冗余的,如果能够使用适当的方法将这些参数删除掉,对模型的最终结果是几乎没有影响的。而剪枝(Pruning)就是很好的的例子。

image-20220816211518481

image-20220816211731987

2.3 知识蒸馏

剪枝和量化都是从模型速度和存储方面来进行性能优化的,也就是说他们可以降低模型计算量,却无法提高模型精度。那么如何能够直接使用一个很小的网络,得到更好的精度,就显得十分重要,这时知识蒸馏(Knowledge Distilling)就起到了关键作用。

image-20220816211611866

目前知识蒸馏的方法大致可以分为以下三种

  • Response based distillation:教师模型对学生模型的输出进行监督

    最早的知识蒸馏算法 KD,由 Hinton 提出,训练的损失函数中除了 gt loss 之外,还引入了学生模型与教师模型输出的 KL 散度,最终精度超过单纯使用 gt loss 训练的精度。这里需要注意的是,在训练的时候,需要首先训练得到一个更大的教师模型,来指导学生模型的训练过程。(PaddleClas基于此提出了SSLD知识蒸馏法)

  • Feature based distillation:教师模型对学生模型的中间层 feature map 进行监督

    Heo 等人提出了 OverHaul [8], 计算学生模型与教师模型的 feature map distance,作为蒸馏的 loss,在这里使用了学生模型、教师模型的转移,来保证二者的 feature map 可以正常地进行 distance 的计算。(PP-OCRv2基于此方法大幅度提升了识别精度)

  • Relation based distillation:对于不同的样本,使用教师模型和学生模型同时计算样本之间 feature map 的相关性,使得学生模型和教师模型得到的相关性矩阵尽可能一致

    关系知识蒸馏(RKD)迁移教师模型得到的输出结果间的结构化关系给学生模型,不同于之前的只关注个体输出结果,RKD 算法使用两种损失函数:二阶的距离损失(distance-wise)和三阶的角度损失(angle-wise)。在最终计算蒸馏损失函数的时候,同时考虑 KD loss 和 RKD loss。最终精度优于单独使用 KD loss 蒸馏得到的模型精度。

image-20220816211811312

image-20220816213319891

image-20220816213348956

三、模型训练优化

image-20220816213430685

3.1 数据处理

  • 随机裁剪、随机变换宽高比等
  • 高斯模糊、中值模糊、马赛克等
  • 亮度变化、对比度变化、色彩变化等
  • 随机噪声、随机遮挡、复制粘贴等
  • 旋转、平移、翻转、畸变等
  • 大尺度训练或者多尺度训练等
image-20220816213553180

3.2 超参数

  • 学习率调节:比如调节为可变学习率,开始大,然后慢慢减小,或者周期性变换等
  • 规范化参数调节:规范化往往与学习率相关,一般情况下默认规范化参数就可以满足要求
  • 批大小调节:适配自己的算力,选择适中的批大小;或者使用某个框架时,参照其文档或论文说明来做
  • 迭代轮数调节:迭代轮数过多可能过拟合,过少可能欠拟合,需要在训练中摸索经验,找到大致合适的范围,或者采用提前终止策略等

3.3 损失函数

  • 类别损失函数:交叉熵、Focal loss、Center loss等
  • 位置损失函数:L1、L2、Smooth L1、 IoU loss、GIoU loss等
  • 语义分割损失函数:DICE loss、lovasz loss等

四、模型自动搜索

神经网络结构自动搜索流程

? 神经网络结构自动搜索可以看作是AutoML的一个子领域,简单来说,给定数据集输入和基本配置,它就能够针对该数据集找到最适合的神经网络结构,并且给出最佳的超参数。

image-20220816214608633

4.1 搜索空间

  • 定义了神经架构搜索可能给出的模型。它可以是链式的结构,第n-1层的输出作为第n层的输入,或者也可以是现代化的复杂架构,包括skip connection等。
  • 很多时候,人们都想手动设计外层的架构,在这种情况下,外层的架构是固定的,神经架构搜索只搜索一个网络单元的结构。这种类型的搜索被称为micro-search 或者单元搜素。
image-20220816214719370

image-20220816214848432

4.2 搜索策略

  • 一旦定义好了搜索空间,能不能快速找到最佳模型结构和最佳超参数配置,搜索策略就起到了关键性的作用。目前主流的搜索方法有基于强化学习(RL)、进化算法(EA)等多种方向,基于这些基础算法衍生出来的自动搜索算法现在也是百花齐放。
  • PaddleSlim提供了4种网络结构搜索的方法:基于模拟退火进行网络结构搜索、基于强化学习进行网络结构搜索、基于梯度进行网络结构搜索和Once-For-All

image-20220816214940291

image-20220816215003140

image-20220816215034639

image-20220816215218146

image-20220816215233136

4.3 常用工具分享

  • skimage:图像处理和计算机视觉算法的集合工具包

  • opencv:图像处理和计算机视觉算法的集合工具包

  • imgaug:图像数据增强工具

  • NumPy:科学计算基础软件包,可以存储和处理大型矩阵及其运算,最常用的科学计算库之一

  • SciPy:科学计算核心库,基于NumPy;主要有助于解决线性代数、概率论和积分计算等任务

  • Pandas:提供诸多高级数据结构和分析工具,适用于绝大多数数据类竞赛

  • Scikit-learn:基于NumPy和SciPy的数据处理库,最常见的机器学习和数据挖掘任务算法工具之一

  • Albumentations:图像数据增强工具

  • Augmentor:图像数据增强工具

  • Matplotlib:创建二维图表和图形库,目前很多流行的绘图库都是基于它构建(例如seaborn)

  • VisualDL:飞桨可视化分析工具,拥有丰富的图表和图形,为飞桨训练提供最直观地可视化帮助,进而实现高效模型优化* paddledetection, paddleclas, paddleseg, mmdetection, detectron等:各大平台开源的快速上手的训练框架

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-08-19 19:04:57  更:2022-08-19 19:09:28 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 19:34:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计