| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> CVPR2022 多目标跟踪(MOT)汇总 -> 正文阅读 |
|
[人工智能]CVPR2022 多目标跟踪(MOT)汇总 |
一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》作者: Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo 论文链接:https://arxiv.org/pdf/2111.14690.pdf 1、摘要当前的多目标跟踪采用检测器来进行目标定位,并用ReID模型来实现数据关联。然而在现在的MOT Challenge数据集中,目标的外观是具有足够的区分性的,而这种区分性使得ReID模型很容易区分目标,实现数据关联。此外,当前的数据集中目标的运动模式比较简单,目标运动都可以被近似为匀速线性运动。而这种目标与现实场景中的数据关联是存在一些bias的,我们实际中通常跟踪的目标具有相同的外观表征,同时其运动姿态也会更多样。为此,本文作者提出了一个“DanceTrack”的数据集,希望其能提供一个更好的平台来开发更多的MOT算法,更少地依赖于视觉辨别,更多地依赖于运动分析。 2、方法在上述中,已经提到了DanceTrack的提出动机,下图也是数据集中的一些示例。 二、《SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos》作者: Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck 论文链接:https://arxiv.org/pdf/2204.06918.pdf 1、摘要在足球视频中跟踪物体对于收集球员和球队的统计数据非常重要,无论是估计总距离、控球还是队形。视频处理可以帮助自动提取这些信息,而不需要任何携带型传感器,因此适用于任何体育场上的任何球队。然而,当前的数据集来测评这个问题是比较困难的。因此,在本项工作中,我们提出了一个新的多目标跟踪数据集,由200个序列组成,每个序列30秒,代表具有挑战性的足球场景,和一个完整的45分钟的半场用于测评长期跟踪。该数据集完成了目标框和轨迹ID的完成标注,允许各种方法在各基准上做测评。该数据集也验证了当前MOT方法在这种快速运动和严重遮挡的领域中并没有很好的解决。因此作者也希望通过该数据集的提出来促进该部分研究的进行。 2、方法SoccerNet的数据集示例如图所示。 以下是SoccerNet与MOT数据集的比较。 三、《MeMOT: Multi-Object Tracking with Memory》作者: Jiarui Cai,Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto 论文链接:https://arxiv.org/pdf/2203.16761.pdf 1、摘要我们提出了一种在线跟踪算法,在一个公共框架下执行对象检测和数据关联,能够在长时间跨度后链接对象。这是通过保留一个大的时空内存来存储被跟踪对象的ID Embeddings,并根据需要自适应地从内存中引用和聚合有用的信息来实现关联。该模型称为MeMOT,由三个主要模块组成,它们都是基于Transformer的:1)、假设生成(Hypothesis Generation),在当前视频帧中生成目标proposals;2)、内存编码(Memory Encoding),从每个被跟踪对象的内存中提取核心信息;3)、内存解码(Memory Decoding),同时解决目标检测和数据关联任务,进行多目标跟踪。当在广泛采用的MOT基准数据集上进行评估时,MeMOT观察到非常具有竞争性的性能。 2、方法
要理解这个框架,主要是了解作者提出的三个模块。 1)假设生成(Hypothesis Generation):该模块通过Transformer的Encoder和Decoder生成一组proposal embeddings。这组embeddings有两个作用,一个是表示当前帧新出现的一些目标,另一个是为已经在跟踪状态的目标提供新的位置信息和外观信息。 2)内存编码(Memory Encoding):这个模块通过Cross-Attn Module来维护每一个instance的两个特征,一个关注短时信息,一个关注长时信息,最后把他们concat在一起去提取每一个instance的特征。长时特征是做了动态更新的,但是作者在文中没有说明更新的方式。 四、《Learning of Global Objective for Network Flow in Multi-Object Tracking》作者: Shuai Li,Yu Kong,Hamid Rezatofighi 论文链接:https://arxiv.org/pdf/2203.16210.pdf 1、摘要这篇工作研究了基于最小代价流公式(MCF)的多目标跟踪问题,并将其视为一个线性规划的实例进行研究。根据给出的计算性推理,MCF的成果跟踪极大地依赖于底层线性的可学习代价函数。以往的研究大多数聚焦于如何在训练过程中考虑两帧信息来学习代价函数,因此学习到的代价函数对于MCF来说是次优的。在推理过程中,必须在多帧上考虑进行数据关联。为了解决这一问题,本文提出了一种新的可微框架,通过解决一个双层优化问题将训练和推理相关联。其中底层解决了一个线性程序关联的问题,上层为一个包含全局跟踪结果的损失函数。可微层通过梯度下降进行反向传播,明确地学习和正则化全局参数化代价函数。通过这种方法,我们能够学习一个更好的全局MCF目标跟踪器。在MOT16、MOT17和MOT20上,与目前最先进的方法相比,本文的跟踪器取得了具有竞争力的性能。 2、方法
全文的推理部分比较多,但是全是涉及怎么通过全局最小代价的方法来训练MLP的。需要细致了解该工作可以去看原文。本博客较关心的是作者用了MLP做了什么,输入是什么,最后怎么推理。 MLP主要用于预测两个detection结果之间是否可以关联,如果可以关联会预测出一个概率,其式子如下: 在后处理中作者还用了单目标跟踪器。 五、《Global Tracking Transformers》作者: Xingyi Zhou,Tianwei Yin,Vladlen Koltun,Phillip Kr¨ahenb¨uhl 论文链接:https://arxiv.org/abs/2203.13250 1、摘要我们提出一种新的基于Transfomer的结构用于全局多目标跟踪。我们的网络把一段短的视频序列作为输入,并预测所有对象的运行轨迹。其核心部分是一个全局tracking transformer,用于操作序列中所有帧中的目标。Transfomer网络对所有帧中的对象特征进行编码,并使用queries将它们分组为轨迹。轨迹的queries是来自单个帧的对象特征,并自然地产生独特的轨迹。我们的全局tracking transformer不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能,有75.3MOTA和59.1HOTA。更重要的是,我们的框架无缝地集成到最先进的大型vocabulary检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明,我们的框架改进了基于成对关联的方法。 🔺本文的Motivation是搭建个网络可以直接从32帧的图像中学习一种匹配结果,而不是逐帧做一个匹配。 2、方法
在获得了G矩阵之后,在每一帧中单独对同一个轨迹的匹配分数做一次Softmax,得到: 而在测试过程中,感觉和DeepSort的过程依然比较像,不同的是Deepsort直接用了embedding的距离来构建匹配矩阵,而这个是通过transformer网络所预测出来的PA,之后用Hungarian来保持唯一的匹配结果。 六、《Unified Transformer Tracker for Object Tracking》作者: Fan Ma,Mike Zheng Shou,Linchao Zhu,Haoqi Fan,Yilei Xu, Yi Yang, Zhicheng Yan 论文链接:https://arxiv.org/pdf/2203.15175v1.pdf 1、摘要目标跟踪作为计算机视觉中的一个重要领域,已经形成了两个独立的社区,分别研究单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象的不同,目前的一种跟踪场景的方法不容易适应另一种跟踪场景。虽然UniTrack[45]证明了可以使用具有多个头部的共享外观模型来处理单个跟踪任务,但它没有利用大规模跟踪数据集进行训练,并且在单目标跟踪上表现较差。在这项工作中,我们提出了Unified Transformer Tracker (UTT) ,以解决不同场景下的跟踪问题。我们在UTT中构架了一个Transformer Tracker在SOT和MOT中跟踪目标,利用目标特征和跟踪帧特征之间的相关性来定位目标。我们证明了SOT和MOT任务都可以在这个框架内得到解决,并且该模型可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时进行端到端训练。在SOT和MOT数据集上训练了一个统一的模型,在几个基准测试上进行了广泛的实验。 2、方法
该方法在MOT中还是需要一个额外的detector来完成目标的定位。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/6 17:19:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |