| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Towards Real-Time Multi-Object Tracking 的介绍与分析 -> 正文阅读 |
|
[人工智能]Towards Real-Time Multi-Object Tracking 的介绍与分析 |
论文链接:https://arxiv.org/pdf/1909.12605.pdf 文章目录摘要现在的MOT系统通常使用tracking-by-detection的方式。这种方式有以下两个部件:1)用于目标定位的检测模型,2)用于数据关联(data association)的外观嵌入模型(appearance embedding model)。两个模型分开执行可能会导致效率问题,其运行时间只是简单的将两个结构的运行时间加起来,而没有去探究它们之间可能某些结构可以共享的潜在可能性。现有的实时MOT的方法主要研究association step,所以这些方法事实上只是实时association model而不是实时MOT系统。在本文中,我们提出了一个将目标检测和外观嵌入共享结构学习的MOT模型。具体而言,我们将外观嵌入模型合并到single-shot detector中,以便该模型可以同时输出检测结果和相应的嵌入。因此,该系统被转化为一个多任务的学习问题:存在多个学习目标,即,anchor classification,bbox regression,embedding learning,以及各个损失的自动权重。 算法介绍现有MOT出现的问题现在的MOT系统通常使用tracking-by-detection的方式。这种方式分为两部分:
一般MOT的结构使得它具有以下缺陷:
解决方案作者在论文中提到通过单个深度网络联合学习Detector和Embedding模型(JDE)。换句话说, 提出的JDE使用单个网络来同时输出检测结果和检测盒的相应外观嵌入。 该算法主要优势?
实现效果在MOT-16 test 数据集上获得MOTA=64.4%的精度下,帧率达到18.8帧,作为比较,Faster R-CNN+QAN embedding在获得MOTA=66.1%的精度下,帧率只有不到6帧。
与其他模型的区别下面这张图就介绍了三种不同的MOT实现方案:
检测和表观特征联合学习
网络结构JDE使用了FPN作为骨干网络,利用多尺度的方式提取不同大小目标的特征。图中输入的视频帧通过FPN获取了3个不同尺度的特征图,分别将尺寸缩小了32、16和8倍。每个特征图都连接了一个prediction head,将基于三个尺度融合的特征图的prediction head进行叠加。预测头由数个堆砌的卷积层组成,输出尺寸为(6A+D) * H * W的预测。A表示各尺度的anchor box的数目,D是特征embedding的维度。
从这里可以看处JDE相对于SDE来说它复用了已有的共享特征图,一次提取便可以得到3个结果,这是一个one-stage的模型。 检测分支:
这里可以根据场景调整适合自己的参数,比如针对车可以调整宽高比为3:1,而针对狗可以调整为3:2,前背景阈值也可以自行调整,具体参数视情况而定。 检测的损失函数包含两部分,分别是分类损失和定位损失,分类损失使用交叉熵损失,定位损失使用smooth-L1损失,和Faster R-CNN一致。 表观特征分支 分析:为什么该模型效率优于其他模型?1. SDE以yolov5 + deepsort为例,这个算法分为检测和重识别两个步骤:
为什么说SDE没有用到可能存在的共享结构呢?
可以看到检测网络输出的结果仅仅只有目标的位置、置信度以及类别,并没有保存目标的特征信息。 我们跟进目标重识别的update()方法:
可以看到这里利用一个特征提取器对裁剪后的目标图片提取特征。 看到这里我们应该可以明白了SDE效率低下的原因:既然检测器本来就是通过特征图的方式完成目标位置检测的,那么Re-ID又进行了特征提取,这就可能会重复前面进行的工作,浪费资源。 2. Two-stage我们以Faster-RCNN为例。 环境搭建与实验复现这里可以参考我的另一篇文章: 参考 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 15:43:12- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |