什么是 Object Tracking
本文指的目标跟踪包含 SOT 和 MOT。
Object Tracking 是一个深度学习过程,算法跟踪目标的 motion。换句话说,它是 estimate 或 predict 视频中运动物体的 positions 和其他相关信息的 task。
Object Tracking 通常涉及到 Object Detection 的过程。以下是这些步骤的 quick overview:
- Object Detection,算法通过在对象周围创建一个 bounding box 来分类和检测对象。
- 为每个对象分配唯一的标识(ID)。
- 跟踪检测到的目标,当它通过帧移动,同时存储相关信息。
Object Tracking vs. Object Detection
Object Tracking 是指一旦定义了目标对象的 initial position,就可以 estimate 或 predict 目标对象在 video 中每一连续帧中的position。
另一方面,object detection 是在 an image或 a single frame of video 中检测目标对象的过程。只有当 target image 在给定的输入上可见时,object detection 才会起作用。如果 target image被任何干扰所 hidden,它将无法检测到 the target。
Object tracking 被训练去跟踪物体的轨迹,尽管有遮挡。
Types of Object Tracking
Object Tracking 有两种类型:Image Tracking 和 Video Tracking。
Image tracking Image tracking 是对图像进行自动识别和跟踪的任务。
它主要应用于增强现实(AR)领域。例如,当通过摄像机输入一幅二维图像时,该算法检测到二维平面图像,然后这些图像可以用来叠加一个三维图形对象。
一旦3D图形被叠加,用户就可以移动相机,而不会真正失去2D平面及其上的图形的轨迹。
苹果(Apple)和宜家(Ikea)等公司就利用这种技术,让顾客在个人设置中体验产品的虚拟外观。
Video tracking Video tracking 是跟踪视频中 moving object 的任务。
Video tracking 的思想是在每个 video frame 中出现的目标对象之间 associate or establish a relationship。换句话说,video tracking 就是对 video frames 进行顺序分析,通过 predicting 并在目标周围创建一个 bounding box,将目标的 past location 与 present location 拼接起来。
Video tracking 可以处理 real-time 视频,因此被广泛应用于traffic monitoring、self-driving cars 和 security。
Object Tracking process 的4个阶段
Target initialization
第一步包括定义感兴趣的 object 或 target。
它包含了在视频的初始帧中 drawing a bounding box 的过程。然后 tracker 必须在drawing a bounding box 的同时estimate 或 predict 目标在剩余帧中的 position。
Appearance Modeling
Appearance Modeling 处理对 target 的可视化外观进行建模。当targeted object 经过光照条件、角度、速度等各种场景时,可能会改变 object 的外观,从而导致 misinformation 和算法对目标 losing track。
必须进行 Appearance Modeling,这样建模算法才能 capture 到目标物体 move 时引入的各种变化和变形。
Appearance modeling 由两部分组成:
- Visual representation: 它专注于构建健壮的 feature 和 representation,以描述对象
- Statistical modeling:利用统计学习技术,有效地建立目标 identification 的数学模型。
Motion estimation
Motion estimation 通常通过模型的 predictive capability 来准确 predict 物体的 furture position。
Target positioning
运动估计近似于物体最可能出现的区域。一旦接近了对象的位置,我们就可以使用一个 visual model 来锁定目标的确切位置。
Levels of Object Tracking
Object tracking 可以被两个 levels 来定义:
- Single Object Tracking (SOT)
- Multiple Object Tracking (MOT) 它的目标是跟踪多个类别的对象,就像我们在自动驾驶汽车中看到的那样。
Single Object Tracking (SOT)
Single Object Tracking旨在跟踪 single class 的对象,而不是 multiple objects。它有时也被称为 Visual Object Tracking。
在SOT中,目标对象的 bounding box 定义在 first frame 中。该算法的 goal 是在其余帧中定位 same 的对象。
SOT属于无检测跟踪 (detection-free) 的范畴,因为必须 manually provide 第一个 bounding box 给跟踪器。这意味着Single Object Tracker 应该能够跟踪他们被给予的任何对象,甚至一个对象上没有可用的 classification model 训练。自动驾驶任务中的 obstacles 多种多样,不可枚举,当被 ADS 判定为 others 分类但是仍然需要跟踪该 obstacle 时, SOT 无疑是 optimal solution。值得注意的是,多个 SOT ensemble 在一起构成 MOT。
Multiple Object Tracking
Multiple Object Tracking (MOT) 是指跟踪算法跟踪视频中每一个 interesting 的目标的方法。
首先,tracking algorithm 确定每一帧中的对象 number,然后from one frame to the next frame 跟踪每个对象的 identity,直到它们离开 frame。
The Complete Guide to Object Tracking
|