| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> (AAAI-2019)STA:用于大规模基于视频的行人重识别的时空注意力 -> 正文阅读 |
|
[人工智能](AAAI-2019)STA:用于大规模基于视频的行人重识别的时空注意力 |
STA:用于大规模基于视频的行人重识别的时空注意力
Abstract这项工作提出了一种新颖的时空注意力 (STA) 方法来解决视频中的大规模行人重识别任务。与大多数现有的方法不同,这些方法简单地使用帧级聚合(例如平均池化)来计算视频剪辑的表示,所提出的 STA 采用了一种更有效的方法来生成鲁棒的剪辑级特征表示。具体来说,STA在空间和时间维度上充分利用了一个目标的那些判别部分,从而通过帧间正则化生成一个二维注意力得分矩阵,以测量不同帧中空间部分的重要性。因此,可以根据挖掘的二维注意力得分矩阵引导的加权求和运算生成更稳健的剪辑级特征表示。STA 可以很好地解决基于视频的行人重识别的具有挑战性的情况,例如姿势变化和部分遮挡。在两个大型基准上进行了广泛的实验,即 MARS 和 DukeMTMCVideoReID。特别是 MARS 上的 mAP 达到了 87.7%,大大超过了 11.6% 以上的最先进技术。 Introduction行人重识别 (Re-ID) 旨在将一个摄像机中的人的图像与另一台不同摄像机中的该人的图像进行匹配。近年来,图像序列(视频)设置下的person Re-ID在文献中引起了极大的关注,因为它对于智能视频监控和多媒体等应用至关重要。 大多数现有的基于视频的行人 Re-ID 工作专注于小数据集,例如PRID-2010和iLIDS-VID仅包含大约300个人的身份,总共600个轨迹。尽管现有方法在PRID-2010和iLIDS-VID上取得了良好的性能,但它们在MARS数据集和DukeMTMCVideoReID 数据集远不能令人满意。它们的性能在很大程度上受到基于大规模视频的 Re-ID 数据集中相机视角、人体姿势、照明、遮挡和背景杂波的巨大变化的限制。 对于基于视频的 Re-ID 任务,关键是学习一个映射函数,将视频转换为低维特征空间,其中每个视频都可以用单个向量表示。大多数现有方法将视频的一帧表示为特征向量,然后在帧上使用平均或最大池化来获得输入视频的表示。但是,当视频中频繁出现遮挡时,这种方法通常会失败。此外,跨视频帧的最大或平均池化等基本操作无法处理由帧间人体姿势变化引起的空间错位。为了从视频中提取相关信息并削弱噪声样本(例如遮挡)的影响,最近的研究引入了注意力机制并取得了改进的结果。然而,这些现有的基于注意力的方法只为每一帧分配一个注意力权重,因此缺乏发现视频序列中的判别帧或每一帧中的判别身体部位的能力。此外,大多数现有的基于注意力的方法中的注意力机制是参数化的,例如全连接层,要求输入视频序列的长度是固定的。 为了解决上述问题,本文提出了一个有效但易于实现的时空注意力(STA)框架,以解决大规模基于视频的行人重识别问题,如图1所示。STA框架没有简单地通过参数化模型对每一帧进行合并或分配权重来编码一系列图像,而是在不使用任何额外参数的情况下,联合使用了多个新组件,包括帧选择、判别部分挖掘和特征聚合。总之,本文的主要贡献可以总结如下:
Related Work基于图像的行人重识别在文献中得到了广泛的探索,现有的研究通常可以分为两类:判别学习和度量学习。Hermans等人提出了一种三元组损失的变体来执行端到端深度度量学习,他们的模型大大优于许多其他已发表的方法。Zheng等人使用孪生网络并结合验证损失和分类损失来同时学习判别嵌入和相似性度量。 基于视频的行人重识别是基于图像的行人重识别的扩展,最近得到了广泛的研究。例如,McLaughlin等人采用循环神经网络 (RNN) 来传递从卷积网络网络 (CNN) 中提取的每一帧的消息。 Liu等人专注于从相邻帧中学习远程运动上下文特征,以进行更稳健的识别。 行人重识别中的注意力模型。由于Xu等人提出了注意力机制,它已被应用于大量行人重识别工作。Liu等人提出了一种自动估计每帧质量得分并削弱噪声样本影响的方法。Xu等人引入了联合空间和时间注意池化网络,该网络可以从探针和图库视频中提取判别帧,并根据其他序列的特征获得一个序列的时间注意力权重。Li等人使用多个空间注意力模型和时间注意力模型来学习每个人不同身体部位的潜在表示。与这些现有的注意力模型相比,本文提出的 STA 模型有两个主要区别,进一步提高了person ReID性能:首先,简单而有效的 STA 模型没有额外的参数,这意味着输入序列的长度不必是固定的。其次,STA模型可以学习到不同帧中每个区域的注意力分数,可以共同实现判别区域挖掘和帧选择。 Proposed Method给定一个行人序列的tracklet,本文提出了STA框架(图 1),以通过具有帧间正则化的时空注意力模型更好地处理基于视频的行人重识别问题。首先从输入视频查询中随机选择恒定数量的帧,并将它们馈送到主干网络以从每个帧中提取特征。然后,将获得的特征图馈送到STA模型中,以生成一个 2D 注意力得分矩阵,该矩阵为每帧的每个空间区域分配一个注意力权重。为了限制单个视频轨迹中帧之间的差异,提出了帧间正则化来估计帧间相似度。接下来,使用每一帧中对应权重最大的空间区域,以及所有注意力权重之间的加权和,得到两组全身特征图。最后,将它们连接在一起作为全局表示和判别表示,并采用全局平均池化,然后是一个全连接层来表示视频查询。对于目标函数,结合了 softmax 损失和批量hard三元组损失。 Spatial-Temporal Attention (STA) Framework Backbone Network.各种网络架构,如VGG、Resnet和Google Inception,都可以用作骨干网络来提取每个帧的特征图。选择ResNet50作为骨干网络,之前的大多数工作都采用了它。特别的,ResNet50有一个卷积块 conv1,后面跟着四个残差块,分别命名为conv2、3、4、5。对原来的 ResNet50 进一步做了两处修改:1)第一个残差块 conv5 的步幅设置为 1; 2)去除平均池化层和全连接层。输入视频首先通过随机采样减少到 N N N帧,然后将每个选定的帧馈送到主干网络。因此,每个视频 V = { I 1 , … , I n , … , I N } V=\left\{I_{1}, \ldots, I_{n}, \ldots, I_{N}\right\} V={I1?,…,In?,…,IN?}由一组 16 × 8 16 \times 8 16×8个特征图 { f n } { n = 1 : N } \left\{f_{n}\right\}_{\{n=1: N\}} {fn?}{n=1:N}?表示,每个特征图有 D = 2048 D=2048 D=2048个通道。 Spatial-Temporal Attention Model.本文提出了时空注意力模型,以自动从每个图像帧中学习可用于重识别的判别区域。以前基于视频的行人重识别方法将每一帧视为一个完整的图像,并为每一帧分配一个权重。然而,人体的不同区域应该对重识别任务有不同的影响。因此,本文的方法旨在为每一帧发现这些区域的判别表示。Li等人还采用了时空注意力模型,其中他们使用不同的卷积层来提取人体的显著区域,并采用传统的时间注意力模型进行帧选择。这种方法存在三个主要缺点。首先,由于更多的卷积层,它涉及更多的计算,并且由于时间注意力模型,它的输入序列长度必须固定。其次,在他们的方法中使用的多个空间注意力模型是相互独立的,没有利用人体部位之间存在的空间关系。结果,提取的空间注意力可能是分散的,不能反映前景中的完整人体。第三,空间注意力信息和时间注意力信息是通过两种不同的模型获得的,这会导致误差累积。与现有方法不同,本文的时空注意力自动为不同帧中的每个空间区域分配包含空间注意力信息和时间注意力信息的注意力权重,而无需任何额外的参数。表 4 中的实验证明了本文的方法与Li等人相比的优势。本文的模型是第一个基于视频的person Re-ID模型,可以发现判别部分但保留空间关系,同时实现帧选择。
时空注意力模型的示意图如图 2 所示。给定输入视频
{
f
n
}
{
n
=
1
:
N
}
\left\{f_{n}\right\}_{\{n=1: N\}}
{fn?}{n=1:N}?的特征图,首先通过深度通道的平方和进行
?
2
\ell_{2}
?2?归一化操作来生成相应的注意力图
g
n
g_{n}
gn?。具体来说,
没有使用多个卷积层来制定时间注意力模型,而是直接比较来自不同帧但在相同空间区域上的注意力分数,并计算每个注意力在它们之间进行
?
1
\ell_{1}
?1?归一化以获得归一化的时空注意力分数。具体来说, Inter-Frame Regularization对于基于视频的person Re-ID,来自一个人的同一视频tracklet的图像应该代表同一个人的外观。本文的方法进一步利用这些信息作为帧间正则化来限制帧之间学习的注意力图的差异。这种帧间正则化有助于避免每个空间区域的学习注意力分数集中在一个特定帧上而在很大程度上忽略其他帧的情况。 具体来说,由于每一帧都有对应的特征图
f
n
f_{n}
fn?,用于在训练时对行人识别进行分类。一种可能的方法是向所有帧添加分类损失,以确保它们共享相同的标识。但是,可能存在一些难以分类的噪声样本,从而使训练处理不稳定。另一种解决方案是使用 Kullback-Leibler (KL) 散度来评估每一帧的相似性,但注意力图中存在许多接近于零的元素。当在 KL 散度中使用对数运算时,这些元素会急剧下降,并且也会使训练处理变得不稳定。因此,为了鼓励时空注意模型保持相似性,同时避免关注一帧,设计了帧间正则化来测量输入图像帧之间的差异。为方便起见,将
G
G
G定义为从输入图像帧生成的注意力图的集合, 假设
g
i
,
g
j
g_{i}, g_{j}
gi?,gj?是由 Eqn (1) 计算的两帧
i
i
i和
j
j
j的注意力图。使用
g
i
g_{i}
gi?和
g
j
g_{j}
gj?之间差异的平方Frobenius范数(Meyer 2000)。具体来说, Feature Fusion Strategy在具有帧间正则化的 STA 模型之后,获得了一个 N × K N \times K N×K矩阵 S S S,它为每个空间区域和每个帧的特征图 f n , k f_{n, k} fn,k?分配了一个注意力分数 s n , k s_{n, k} sn,k?。本文提出了一种特征融合策略,方法是结合算法 1 中描述的每个 tracklet 的全局和判别信息。 给定注意力分数矩阵和一组特征图,首先将特征图划分为几个空间区域,就像在注意力图上操作一样,并选择与其他帧相比具有最高相应分数的空间区域。然后,对每个空间区域重复此操作,并将这些区域连接在一起以获得包含输入帧中最具判别力的区域的特征图。接下来,使用每个注意力分数作为权重,并在每个分割特征图上使用元素乘法来生成另一个具有输入帧全局信息的特征图。最后,将这两个特征图连接在一起,并使用全局平均池化和全连接层来生成Re-ID任务的表示向量
X
X
X。 Loss Function在本文中,利用batch-hard三元组损失和 softmax 损失,通过度量学习和判别学习的结合来训练 STA 模型。 为每个 mini-batch 随机抽取
P
P
P个身份和
K
K
K个 tracklets,以满足批量hard的三元组损失的要求。通常,损失函数公式如下: 除了batch-hard三元组损失之外,还使用softmax交叉熵损失进行判别学习。原始的softmax交叉熵损失可以表述如下: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/4 15:29:18- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |