IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking -> 正文阅读

[人工智能]单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking

论文
代码

文章侧重点

这篇文章关注到了目标追踪的Tracker训练部分。 文中并未针对Tracker的组成部分改进,而是将重点放到Tracker的训练的问题。文中指出,现如今的Tracker通常是针对帧(frame-level),用每一帧中的groundtruth训练Tracker,而测试阶段是对Tracker在一个序列上测试评估(sequence-level),所以带来的问题就是训练的目标损失是保证每一帧定位精度,而测试侧重在一个序列上保持定位精确度。所以本文参考了图像字幕里 SCST(Self-Critical Sequence Training) 方法设计 基于强化学习(RL)框架的同样sequence-level的训练方法。

Sequence-Level Training(SLT)

SLT pipeline图示

在这里插入图片描述

  • 输入: 一个训练序列(Original Video)。
  • 第一步:数据增强。 对于给出Original Video以随机间隔取一些帧出来,视为含 T + 1 T+1 T+1帧的一次训练事件(Episode),分别输入到共享参数的Sampling trackerArgmax Tracker中。
  • 第二步: 指定一个以上一个目标位置为中心服从的概率分布 p θ p_\theta pθ? l t ? 1 l_{t-1} lt?1?表示第 t ? 1 t-1 t?1帧的预测结果, v t v_t vt?表示第 t t t帧,Sampling tracker 随机取一个可能的目标边界框,而Argmax Tracker选择置信度最高的一个边界框。 r ( l ) r(l) r(l)表示对该帧的预测边界框的评估结果。
  • 输出: 图中可以看出Reward r ( l ) r(l) r(l)是对这个训练事件(Episode)中Sampling tracker 预测边界框与GroundTruth的评估分数【平均IOU】——75.5;Reward r ( l ′ ) r(l^{')} r(l)是对这个训练事件(Episode)中Argmax Tracker 预测边界框与GroundTruth的评估分数——56.7。

这里的框架让我想起,这就像目标追踪的某些Tracker会有一些后置操作——窗口惩罚、余弦窗口,就是因为在一帧中目标的移动不会很大,所以一般认为如果预测边界框比上一帧偏移太多,就认为识别错了,可能跳到另一个相似的目标上了,然后就对这种移动过大的目标给予小权重,使得最后这种边界框得分低。
这里的Sampling Tracker本身的操作也是在上一帧的目标位置附近随机采样一个边界框作为预测目标结果,虽然说随机,但是采样是服从概率函数的。所以Argmax Tracker 就是凭特征找到置信度最高的边界框,然后Sampling tracker限制框偏移。
这里很明显训练的参数是这个概率函数的参数。

SLT 伪代码

在这里插入图片描述
这个伪代码对应的就是上图pipeline的流程。其中 L L L就是训练概率函数的损失函数。

SLT+TransT

TransT的论文解读如下:单目标追踪——【Transformer】Transformer Tracking
SLT融合到现有Tracker时,只需要改变该Tracker的训练损失函数,加上SLT的损失函数即可。训练过程中,文中采用与TransT论文中相同训练集训练,即用LaSOT, TrackingNet, GOT-10k, and COCO预训练TransT,再用LaSOT, TrackingNet, GOT-10k 微调SLT-TransT。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-04 01:12:01  更:2022-09-04 01:15:11 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:36:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码