IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [VOT11](2022CVPR)VTUAV数据集+HMFT baseline: Visible-Thermal UAV Tracking -> 正文阅读

[人工智能][VOT11](2022CVPR)VTUAV数据集+HMFT baseline: Visible-Thermal UAV Tracking


先贴个baseline的流程图:
在这里插入图片描述


Abstract

背景:随着多模态传感器的普及,可见光-热成像(RGB-T)目标跟踪将在温度信息的指导下实现稳健的性能和更广泛的应用场景。

科学问题:然而,缺乏成对的训练数据是当前RGB-T追踪的主要瓶颈。因为收集高质量的RGB-T序列是非常耗时费力的,最近的benchmarks仅提供了测试序列。

本文

  • 构建了一个可见光-热成像UAV跟踪大规模数据集(VTUAV),包含500 个序列具有 170 万个高分辨率(1920*1080 像素)帧对。
  • VTUAV数据集考虑了不同场景下的综合应用(短期跟踪、长期跟踪和分割掩码预测)。
  • VTUAV中提供了从粗到细的属性注释,其中提供了帧级属性用于探索特定跟踪器的性能。
  • 设计了RGB-T baseline,称为分层多模式融合跟踪器 (HMFT)

1. Introduction

可见光和热成像的优缺点

类别特点
可见光当目标较黑/下雨/有雾/其他极端条件时,可见光提供的信息有限。
热成像作为补充信息,对光照变化不敏感,但在目标和背景温度相近时,热成像难以区分前景/背景。
综合将可见光-热成像(RGB-T)数据综合在一起可以提供互为补充的信息。

RGB-T已有数据集及相关工作

RGB-T已有数据集RGB-T相关工作缺点
a gray-scale RGB-T(50 videos);RGBT210(210 test videos); RGBT234(234 test videos); VOT-RGBT(60 sequences from RGBT234)Li: 提出用于学习模态共享和模态特定表示的多适配器网络;Zhang:利用属性标注设计了实时的RGB-T追踪器;Zhang:将DiMP扩展至RGB-T追踪,在VOT2019-RGBT上获得了最好的名次1. 这些数据集共包含了284个不重复的短期序列,追踪器需要在其他数据集上训练,限制了算法的泛化能力;2. 测试序列由监控设备捕获,视野/长度/图像质量有限

本文贡献

  • 创建高质量的可见光-热成像大规模跟踪数据集VTUAV。此外,该数据集可实现短期/长期/分割掩码预测任务的评测,还在帧和序列级别提供了属性注释,可以满足训练特定挑战跟踪器的要求。
  • 提出RGB-T的baseline——HMFT,其以分层混合框架统一了不同模态的混合策略(图像混合,特征混合,决策混合)。在GTOT, RGBT21-, RGBT234, VTUAV数据集上都进行了不同混合类型的实验。

2. Related Work

2.1 RGB-T tracking benchmarks

数据集名称介绍
OTCBVS6个序列,7200帧,过时了。
LITIV2012,9个视频片段,6300个图像对,过时了。
GTOT2016, grayscale-thermal跟踪数据集,7800帧,包含各类极端条件算法稳定性的测试
RGBT210210个视频,超过104K帧
RGBT234RGBT210的扩展版本,234个序列
VOT-RGBT2019,60个序列,使用EAO评价算法精度和鲁棒性
LSS可见或热图像是使用图像转换或视频着色方法从另一种模态生成的。
LasHeR包含1224个短期视频,730K帧,多场景多角度

2.2 RGB-T tracking algorithms

混合类型具体介绍特点
图像混合彭等人利用一组层通过共享异构数据的权重来学习互补信息。能提供多模态的共享表达,高度依赖于图像对齐,还没有被充分探索
特征混合包含2类:模态交互和直接混合。模态交互在另一种引导下对单模态特征进行细化,然后将两种模态的特征结合起来从而实现综合表示;直接混合先联合多模态特征然后直接级联/注意力技术得到一个混合的特征更高的灵活性,能被大量不成对的数据训练,易于设计实现性能显著提升。
决策混合独立建模每个模态。JMMAC采用多模态融合网络通过考虑模态级别和像素级别重要性来集成响应。 罗利用独立框架在RGB-T数据中进行跟踪,然后通过自适应加权组合结果。避免了不同模态的异质性,对模态配准不敏感

3. VTUAV Benchmark

3.1 Benchmark Features and Statistics

  • Large-scale sequences with high diversity
    500个序列with 1664549个RGB-T图像对,图像分辨率:1920x1080,250个序列的训练集(207个短时+43个长时)+250个序列的测试集(176个短时+74个长时)。
    【注】:目标离开视野连续超过20帧定义为长时跟踪。

VTUAV和其他数据集的比较如下图:
在这里插入图片描述在这里插入图片描述

  • Generic object and scene category
    体现VTUAV数据集场景及目标多样性(5个超类,13个子类,2个城市中的15个场景,325个序列在白天+175个在晚上)的统计图如下:
    在这里插入图片描述
  • Hierarchical attributes
    有序列级别还有帧级别的标注。共13个属性。介绍如下:
    在这里插入图片描述
    在这里插入图片描述
  • Alignment

VTUAV在每个视频的初始帧中对不同模态图像对齐并将其应用于所有帧。 注意到大多数帧都实现了良好的对齐。

3.2 High-quality Annotation

  • Bounding boxes
    每间隔10帧对目标提供了稀疏的标注。稠密边界框注释通过SOTA的跟踪算法获得。共326961高质量的边界框标注。
  • Segmentation masks
  • Attribute annotations
    提供帧级别的属性标注。301678帧,430960个属性标注,500*13个序列级别的注释。

3.3 Evaluation Metrics

以OPE方式运行,评价指标:maximum success rate (MSR,IoU大于一定阈值的帧的占比) and maximum precision rate (MPR,中心距离小于阈值的帧的占比)。

4. Hierarchical Multi-modal Fusion Tracker

包含3种层次的混合(CIF图像混合,DFF特征混合,ADF决策混合)

  • CIF:致力于学习两个模态间的共享模式;
  • DFF:引入异构表示的通道组合;
  • ADF:考虑判别和互补分类器的响应来提供最终目标候选者。
    在这里插入图片描述

5. Experimental Analysis for RGB-T Tracking

5.1 Short-term Evaluation

在这里插入图片描述

5.2 Long-term Evaluation

HMFT_LT:是HMLT的变体,HMLT作为局部追踪器(目标在视野中),将GlobalTrack作为全局追踪器(目标离开视野),RTMDNet作为tracker switcher。
在这里插入图片描述

5.3 Ablation Study

在这里插入图片描述

5.4 Qualitative Analysis

在这里插入图片描述

6. Experimental Results on VTUAV-V Subset

VTUAV-V是VTUAV的子集,只包含可见光的图像。

6.1 Short-term Evaluation

在这里插入图片描述

6.2 Long-term Evaluation

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-09 12:39:40  更:2022-05-09 12:42:21 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 6:23:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码