IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【目标检测】yoloX算法详解 -> 正文阅读

[人工智能]【目标检测】yoloX算法详解

一、yoloX的改进

由于yoloV4和yoloV5存在过度优化的问题,因此yoloX以yoloV3和Darknet 53为基线,采用了Darknet 53骨干网的结构架构和SPP层,改变了一些训练策略:

  1. 增加了EMA权重更新、consine lr schedule、IoU损失和IoU感知分支,使用BCE Loss训练cls和obj,IoU Loss作为test分支。
  2. 由于RandomResizedCrop和马赛克增强重叠,因此只采用了RandomHorizontalFlip,ColorJitter、multi-scale和mosaic用于数据增强。
  3. 使用Mixup增强,不使用Imagenet预训练方法。

二、yoloX结构框架

在这里插入图片描述

三、Decoupled Head(解耦头部)

思想:分离分类和定位操作
好处:(1)提高了了yoloX收敛速度;(2)实现了yolo的端对端性能。
结构图:
在这里插入图片描述YOLOv3与yoloX解耦头之间的区别。对于每一层FPN特征,我们首先采用1 × 1的conv层,将特征通道减少到256,然后再增加两个并行分支,每个分支有两个3 × 3个卷积层分别用于分类和回归任务。IoU分支被添加到回归分支上。

四、免锚

无锚机制的优点:减少了设计参数的数量
实现方式:将每个位置的预测从3个减少到1个,并使他们直接预测4个值(即网格左上角的两个偏移量、预测框的高度和宽度)。同时指定了中心,每个物体的阳离子作为正样本,并预先定义一个刻度方位以指定每个物体的FPN级别,可以降低探测器的参数和GFLOPs,使其速度更快,性能更好。

五、多个正样本

操作:参照FCOS中的‘中心取样’,只为每个对象的平均值选择了一个正样本(中心位置),忽略其他高质量的预测。
优点:(1)有利于梯度回归;(2)缓解训练中的正负样本不均衡

六、SimOTA(高级标签分配)

四个关键点:(1)loss/quality loss (2)cneter prior (3)每个GT的正样本anchor动态个数 (4)全局试图
整体逻辑:

  • 确定正样本候选区域
  • 计算anchor与gt的IoU
  • 在候选区域计算cost
  • 使用IoU确定每个gt的dynamic_k
  • 为每个gt取cost排名最小的前dynamic_k个anchor作为正样本,其余为负样本
  • 使用正负样本计算loss
    具体细节:
    1、dynamic_k确定方式:
  • 获取与当前gt有top10最大IoU的prediction结果
  • 将这top10IoU进行sum,就为当前gt的dynamic_k,dynamic_k最小取1
    由于前期模型预测不准,导致IoU基本比较小,所以观测到前期dynamic_k大多为1
    2、计算cost时候,Lcls和Lreg比例是1:3,而最终计算loss时,Lcls和Lreg比例是1:5,原因是:在寻找正样本时,如果一个anchor已经能很好的区分前景和背景,那即使reg预测不准,也可以作为正样本,所以相比于loss计算,在cost计算时,Lcls给予更多权重,而reg可以通过不断地训练逐步优化。

七、端对端yolo(可选)

增加了2个卷积层:

  • 一对一地标签分配
  • 停止梯度
    确保了检测器端对端,但会导致性能和推理速度下降,一次作为可选方式提供
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-27 09:54:11  更:2021-11-27 09:56:02 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 4:59:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码