IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> SiamMOT:Siamese Multi-Object Tracking论文详读 -> 正文阅读

[人工智能]SiamMOT:Siamese Multi-Object Tracking论文详读

论文地址:https://assets.amazon.science/ee/91/c7a6a6c942aa9c4aca99d71191ea/slimmot-siamese-multi-object-training.pdf

一、摘要

1.本文工作主要是针对SiamNet-base object tracking的优化改进
但我觉得对其他类型的object tracking工作也是很有借鉴意义的

2.SiamMOT在SiamNet-base object tracking的基础上加入了一个运动模型,并证明了加入运动模型的必要性

3.该运动模型分为隐式建模(IMM)运行和显式建模(EMM)两种
该运动模型用于估计两帧之间实例的运行情况,以便检测到的实例相关联

4.在MOT17、TAO-person以及Caltech Roadside Pedestrians三个数据集上证明了运行建模对于MOT任务的必要性,并表明SiamMOT取得了SOTA
并在ACM MM'20 HiEve Grand Challenge的HiEve数据集上性能优于winners

5.SiamMOT同时也是efficient的,在单GPU输入720P的视频能达到17FPS

二、Introduction中提出的一些观点

1.把早期的跟踪工作描绘为一个在tracking-by-detection”范式(paradigm)基础下的基于图的优化问题(graph-based optimization problem)
每个节点(node)表示一个检测(detection);每条边对两个节点链接的可能性进行编码,一般使用视觉和运动的组合来表示每个节点

2.之前的工作通常需要构建一个很大的离线图,所以很不适用于实时系统

3.近期也出现了一些实施跟踪的工作,专注于改进连续帧上的本地链接,而不是构建离线图来重新识别跨越大的时间间隔的实例

4.作者认为在SORT中一个较好的运行模型是提高其局部连接精度的关键
SORT中使用的传统算法KF运动建模,而Trackor++和CenterTrack是使用CNN基于视觉和几何特征对运动建模

三、方法论和试验结果先知

方法

1.使用基于区域的暹罗网络(region-based Siamese Network),其中“基于区域”的说法来自region-
based detection network即使用了Faster-RCNN,称为SiamMOT
基于区域的说法同时也是为了区分于CenterTrack工作中基于点特征隐式推断实例运动

2.此外在基于暹罗网络的单目标跟踪任务的启发下,提出了IMM和EMM两种运动建模方法

试验结果

1.证明:在三个不同的多人跟踪数据集进行了广泛的消融分析后的结果表明,实例级运动建模对于健壮的在线MOT非常重要,特别是在更具挑战性的跟踪场景中。
此外证明SiamMOT的运动模型可以显著提高跟踪性能,特别是在摄像机快速移动和人体姿势显著变形的情况下。

2.在MOT17数据集上以DLA-34为backbone的、带有EMM的、使用公共检测(public detection)的SiamMOT实现了65.9的MOTA和63.3的IDF1

3.最近的TAO-person数据集的TrackAP指标从Trackor++的36.7提升至了41.1

4.Human In Events(HiEve)数据集上取得了最好的结果?

四、变量声明

先对整体框架有个大致的了解,便于了解“运动建模”这部分的位置

参数解读一下吧,对这个过程基本就能了解了

图1:SiamMOT是一个基于区域的多目标跟踪网络,可同时检测和关联对象实例。暹罗跟踪器对跨帧的实例运动进行建模,用于在线多目标跟踪中的临时链接检测。帧I^{t}的主干特征图以其实际大小的1/2可视化。?

输入:

I^{t}I^{t+\delta }分别表示两个时刻的帧

R^{t}=\left\{R_{1}^{t}, \ldots R_{i}^{t}, \ldots\right\}表示t时刻一系列的检测实例(instances)(即是box)

输出:

输出的R^{t+\delta }是由\tilde{R}^{t+\delta }{R}^{t+\delta }经空间匹配后经求解器求解出的

过程量:

\tilde{R}^{t+\delta }是跟踪器将R^{t}传播到t+\delta时刻产生的

过程量的R^{t+\delta }表示对t+\delta时刻输入帧预测的一系列实例(instances)(即是box)(注意这里的R^{t+\delta }有两个,一个是输出量,一个是过程量)

S为区域提议

f为过程特征图

Siamese Track?\mathcal{T}\在整个框架中表示的是一个跟踪过程,其实它就是我们接下来要重点提到的运动建模部分,如下原文

五、对主要创新点-两种运动建模的解读统一形式

建立一个统一的形式:

\left(v_{i}^{t+\delta}, \tilde{R}_{i}^{t+\delta}\right)=\mathcal{T}\left(\mathbf{f}_{R_{i}}^{t}, \mathbf{f}_{S_{i}}^{t+\delta} ; \Theta\right)

这段就不翻译了,我觉得原汁原味的英语更容易理解

1. Implicit motion model

隐式运动模型使用MLP隐式估计两帧之间的实例级运动,如图

IMM通过将特征\mathbf{f}_{R_{i}}^{t}\mathbf{f}_{S_{i}}^{t+\delta}按通道连接在一起后送入MLP中预测可见置信度v_{i}以及相关位置及范围变化m_{i}m_{i}定义为下式,其中的\left(x_{i}^{t}, y_{i}^{t}, w_{i}^{t}, h_{i}^{t}\right)为目标boxR_{i}^{t}的4个参数:

m_{i}=\left[\frac{x_{i}^{t+\delta}-x_{i}^{t}}{w_{i}^{t}}, \frac{y_{i}^{t+\delta}-y_{i}^{t}}{h_{i}^{t}}, \log \frac{w_{i}^{t+\delta}}{w_{i}^{t}} \log \frac{h_{i}^{t+\delta}}{h_{i}^{t}}\right]

利用这些便可从方程的逆变换中很容易地推导出\tilde{R}^{t+\delta}

使用的loss形式为\mathbf{L}=\ell_{\text {focal }}\left(v_{i}, v_{i}^{*}\right)+\mathbb{1}\left[v_{i}^{*}\right] \ell_{\text {reg }}\left(m_{i}, m_{i}^{*}\right),其中的\mathbb{1}为指示函数(indicator function)

2. Explicit motion mode

注意理解显式和隐式的根本差别,显式运动建模的流程如图

可以看到主要利用的是逐通道互相关操作(*表示),具体来说是通过逐通道互相关操作来生成像素级别的特征响应图r_{i}
之后通过使用CNN \psi以两个分支分别进行卷积操作。其中一个分支负责预测密集的可见性置信度图v_{i},用以指示每个像素包含目标对象的可能性。另一个分支负责预测密集的位置特征图p_{i},用以对从该位置到左上角和右下角的偏移量进行编码。

因此,我们可以通过以下变换导出(x, y)处的实例区域:\mathcal{R}(\mathbf{p}(x, y))=[x-l, y-t, x+r, y+b],其中\mathbf{p}(x, y)=[l, t, r, b],也就是左上角和右下角的偏移量。

最后的运动估计就可表示为:

\begin{array}{r} \tilde{R}_{i}^{t+\delta}=\mathcal{R}\left(\mathbf{p}_{i}\left(x^{*}, y^{*}\right)\right) ; \quad v_{i}^{t+\delta}=\mathbf{v}_{i}\left(x^{*}, y^{*}\right) \\ \text { s.t. }\left(x^{*}, y^{*}\right)=\underset{x, y}{\operatorname{argmax}}\left(\mathbf{v}_{i} \odot \boldsymbol{\eta}_{i}\right) \end{array}

其中⊙是逐个元素的乘法,\eta_{i}是指定相应候选区域的非负惩罚分数的惩罚映射,由\boldsymbol{\eta}_{i}(x, y)=\lambda \mathcal{C}+(1-\lambda) \mathcal{S}\left(\mathcal{R}(\mathbf{p}(x, y)), R_{i}^{t}\right)计算得到。其中\mathcal{S}为高斯函数,负责评价\mathcal{R}(\mathbf{p}(x, y))R_{i}^{t}的相关性。\mathcal{C}是关于之前目标区域R_{i}^{t}的几何中心一个余弦窗函数。

损失函数形式为:

\begin{aligned} \mathbf{L} &=\sum_{x, y} \ell_{f o c a l}\left(\mathbf{v}_{i}(x, y), \mathbf{v}_{i}^{*}(x, y)\right) \\ &+\sum_{r} \mathbb{1}\left[\mathbf{v}_{i}^{*}(x, y)=1\right]\left(w(x, y) \cdot \ell_{r e g}\left(\mathbf{p}_{i}(x, y), \mathbf{p}_{i}^{*}(x, y)\right)\right) \end{aligned}

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-04 13:26:12  更:2022-01-04 13:27:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 20:19:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码