IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> BundleTrack -> 正文阅读

[人工智能]BundleTrack

用于6D姿态跟踪

IROS 2021

论文：? https://arxiv.org/pdf/2108.00516.pdf

git： https://github.com/wenbowen123/BundleTrack

6D: x,y,z,yaw,pitch,roll

特别之处：

不需要被跟踪物体的3D模型
稳定，不受明显遮挡的影响
10Hz
在NOCS上效果非常好，在YCBInEOAT上效果与se(3)-TrackNet类似（比se差一点）

常见的6D姿态跟踪，对输入数据的要求（至少满足一个）：

需要被跟踪目标的CAD模型 —— 无法跟踪未知模型物体
需要同类别物体的CAD模型（真实/合成数据） —— 难以穷举所有种类/合成数据工作量大
不需要CAD模型，但需要在跟踪的同时不断对物体进行建模（reconstruction） —— 位姿估计的误差会导致建模误差

结构：

视频分割 video segmentation
关键点检测 learning-based keypoint detection
位姿估计 coarse pose estimate
位姿图优化 memory-augmented pose-graph optimization

输入：

RGB-D video
第一副图像上的二进制掩码，表示要跟踪的目标（用于初始化，可由语义分割得到）
观测者的初始姿态（如果是计算物体的相对姿态，不需要该参数；计算绝对姿态时需要）

步骤：

输入一张图
图像分割网络对物体提取ROI，获得掩码，mask M —— Transductive-VOS Network
裁剪后，送到关键点检测网络提取关键点和特征，keypoints & feature descriptors —— LF-Net
基于关键点及特征初步计算位姿，coarse estimate pose
位姿优化，从memory pool中寻找关键帧填补未检测到的keypoints，pose graph optimization

一、具体结构

1. video segmentation network

计算目标物体的掩码

Transductive-VOS Network

[input] 当前帧的RGBD图像和上一帧的掩码:? $image_{t}$ & $mask_{t-1}$

[output] 当前帧的掩码: $mask_{t}$

2. keypoint detection network

检测物体的关键点、提取特征

LF-Net

[input] 当前帧的目标区域（根据掩码得到）： $region_{t}$

[output] 当前帧的关键点（500个）和特征（1*128）： $keypoint_{t}$ & $feature_{t}$

3. data association

特征匹配、边缘修剪（RANSAC）

[input] 上一帧和当前帧的关键点及特征： $keypoint_{t-1}$ & $feature_{t-1}$ & $keypoint_{t}$ & $feature_{t}$

[output] 特征的对应关系：feature correspondences

4. coarse estimate

初步估计位姿

[input] 特征的对应关系：feature correspondences

[output] 初步计算的位姿： $\widetilde{T}_{t}$

5. keyframe selection

选择关键帧

[input] 当前帧的图像和（所有）以前的帧： $image_{t}$ & memory pool

[output] 被选出的关键帧（与当前帧重合率最高的k帧）： k key frames

6. pose graph optimization

位姿图优化：根据关键帧和当前帧的关键点，通过最小化特征残差和几何残差优化位姿（t时刻和过去k个时刻的位姿都会被更新）

[input] 初步计算的位姿变换矩阵，关键帧： $\widetilde{T}_{t}$ & key frames

[output] 优化后的位姿： $T_{t}$

* 消除累计误差的关键

二、分析

1. 为什么没有累计误差

方法	类别 tracking-by-	速度	是否有累计误差	（有/无）累计误差的原因		备注
方法	类别 tracking-by-	速度	是否有累计误差	估计当前位姿时考虑的历史帧数	其他	备注
MaskFusion	detection (reconstruction)	17Hz	1	1	跟踪的同时构建物体模型——检测的误差会导致模型误差	任何一帧的检测误差和位姿估计误差都会影响后续帧
6-PACK	keypoints	4Hz	1	1
BundleTrack	keypoints	10Hz	0	前一帧+多个相关性最强的（max15）	位姿优化时，同时优化当前帧和历史帧的位姿	先基于前一帧粗略计算出位姿，再根据多个历史帧优化位姿。计算量增大，需使用CUDA加速

2. 速度

Graph Feature Matching 和 Pose Graph Optimization 占据了一半的时间

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-02-22 20:35:25 更:2022-02-22 20:36:45

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/27 19:31:42-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码