IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 基于Transformer的目标检测领域最新进展 -> 正文阅读

[人工智能]基于Transformer的目标检测领域最新进展

? ? ? 本文为检索该领域文章后做的简单记录,没有模型结构的详细介绍,不过其中两三篇文章已是目前目标检测领域的SOTA(截止到21年8月)?!

????????a、End-to-End Object Detection with Transformers最早将Transformer带入到目标检测领域的文章,名叫DeTR,在coco数据集上可以达到44.9的准确率,与Faster R-CNN相当;模型的主要结构是先用一个常见的CNN网络提取2D的特征,然后将输出的特征图展平,当作序列输入给Transformer,然后经Transformer处理后并行输出最终预测结果;免去了关于Anchor的处理,免去了NMS的处理;从最后的实验结果来看,该模型不仅在目标检测领域能发挥作用,在目标检测的下游视觉任务领域中,其也能发挥较好的作用,例如全景分割,即语义分割与实例分割的结合版,可见该模型的强大之处!

????????b、Transformer in Transformer:华为2021年的一项工作,顾名思义,该模型的输入,需要将图片划分为一系列的patches,这一初步划分视为visual sentences,然后下一步再对这些划分出来的patches进行划分,视为visual word;模型里的Transformer结构粉为两块,即内部的与外部的,分别对输入进行处理;最终的测试结果表明,其在分类任务上可以实现81.5%的准确率,超过了当时的SOTA,其次就是在下游任务领域,目标检测、分割等任务上都能实现不错的精度。

????????c、Focal Self-attention for Local-Global Interactions in Vision Transformers:非常新的一篇文章,七月份微软出的,该模型测试结果表明超过了此前的Transformer目标检测领域的SOTA,即Swin Transformer(需要注意到,这两篇文章都是微软的工作,不过可能知识不过组的),达到了58.7/58.9 box mAPs;通过文章中的表6可以看到测试的情况,上面半部分例举出来的一些模型,其实在原文章中是没有所说的那个准确率的,应该是后面其他人做出来的,另外就是这些准确率非常高的模型的输入图片的分辨率都很高,这也是提升准确率的一个重要因素吧!此外需要注意到,这两份工作中测试出的高准确率结果,都有注明是在HTC或HTC++方法或架构的模型下得到的结果,HTC即Hybrid Task Cascade(HTC),即混合任务级联架构,最早出现在19年的一篇文章中(Hybrid task cascade for instance segmentation.),HTC++即改进版的HTC,增加了文章(Instaboost: Boosting instance segmentation via probability map guided copy-pasting.)中的copy-pasting策略;还有就是Swin Trans开源了,但是Focal Trans没有!

????????还有需要注意到,58.7/58.9 box mAPs这个结果是在mini-val以及test-dev两个不同数据集上得到的,在2014年数据集中,训练集82783张,验证集40504张,测试集40775张. 另外,验证集分为两部分,miniVal有5000张,剩下的35504张图像和训练集称为Trainval35k (Trainval35k==train2014+val2014-minival2014.). 通常在论文中使用Trainval35k当作训练集,参考链接:https://www.pianshen.com/article/91481620364/

????????HTC文章的方法从如下的两个方面进行改进:1)在级联优化中将分割与检测任务组合在一起去完成多阶段地处理;2)采用了一个全卷积的分支(分割分支)提供空间信息,从而帮助区分分割任务中的前景与背景。从而网络可以学习到更具区分性的特征并且在每个stage上组合互补的特征。

????????d、CBNetV2: A Composite Backbone Network Architecture for Object Detection:也是21年七月发出来的,北大的工作,刚好超过了上面微软的工作,其测试准确率达到了60.1% box AP and 52.3% mask AP;越来越离谱!文章中提出了一种架构,可以在里面融合不同的backbone以及detection head,然后来实现更好的效果,上述测试结果就是基于微软的Swin Transformer,将其作为backbone,虽然实现了更高的准确率,同时所需的epoch更少,但是模型的参数量是前者的两倍;然后就是速度应该是非常慢的,因为整个模型相当于是有几块级联在一起实现的,可参考前面的HTC架构。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-17 15:24:00  更:2021-08-17 15:24:45 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 21:01:11-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码