[人工智能] 【目标检测】YOLOX ，YOLO系列的集大成者

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【目标检测】YOLOX ，YOLO系列的集大成者 -> 正文阅读

[人工智能]【目标检测】YOLOX ，YOLO系列的集大成者

文章目录

一、YOLOX简介

提出时间：2021年
作者单位：旷视科技
旷视官方代码：https://github.com/Megvii-BaseDetection/YOLOX
论文下载地址：https://arxiv.org/abs/2107.08430
论文题目：《YOLOX: Exceeding YOLO Series in 2021》

《YOLOX: Exceeding YOLO Series in 2021》的意思是YOLOX在2021年超越了所有YOLO系列，标题很狂妄呀。

从2015年的YOLOv1，2016年YOLOv2，2018年的YOLOv3，再到2020年的YOLOv4和YOLOv5，2021年的YOLOX，YOLO系列在不断的进化发展。

YOLOX的速度和精度图如下，横坐标为推理速度，纵坐标为MAP精度。

在这里插入图片描述
YOLOX不同版本的参数量（模型大小）和MAP精度图：

在这里插入图片描述
可以发现在YOLOX不同版本中，YOLOX-Nano模型最小，速度最快。

模型大小往往与速度成正比，很难做到小模型实现高精度。

二、YOLOX模型结构（Decouple head）

YOLOX以YOLOv3-SPP为基础模型进行改进，其backbone是DarkNet-53。

如下图所示，在YOLOv3–YOLOv5中，检测头对候选框的分类和回归是耦合的（在一起进行，Couple），这样会影响模型检测的性能。YOLOX 对分类和回归进行了解耦（Decouple），即将二者分开，变成两个分支，并增加了IOU计算的分支。

在这里插入图片描述
下图是训练过程，显然解耦的检测头（Decouple head）的检测精度更高（解耦能带来4.2%AP提升），收敛速度更快。

在这里插入图片描述

三、YOLOX的改进之处

3.1 数据增强（data augmentation）

YOLOX采用了 Mosaic 和 MixUp 两种数据增强方式。

Mosaic是在YOLOv4中提出的，对四张图片进行拼接，每一张图片都有其对应的框框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的框框。具体可以参考 YoloV4当中的Mosaic数据增强方法

MixUp 采用配对的方式进行训练，通过混合两个甚至是多个样本的分布，同时加上对应的标签来训练。两张图以一定的比例对rgb值进行混合，同时需要模型预测出原本两张图中所有的目标。目前MixUp在各大竞赛、各类目标检测中属于稳定提点的策略。具体可以参考全网最全:盘点那些图像数据增广方式Mosiac,MixUp,CutMix等.