[人工智能] 行人重识别论文阅读11-BDTR 红外光行人重识别

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 行人重识别论文阅读11-BDTR 红外光行人重识别 -> 正文阅读

[人工智能]行人重识别论文阅读11-BDTR 红外光行人重识别

请添加图片描述
Bi-Directional Center-Constrained Top-Ranking for Visible Thermal Person Re-Identification

BDTR: 双向中心约束的排序损失

1. 解决的问题

红外光和可见光图像之间差异大，而且存在大量的噪声，无法学习可判别的特征。而现有的方法对噪声图像具有弱鲁棒性。

多模态问题中出现模态间的特征映射关系不准确以及模态内变化巨大的问题。

2. 模型概览

提出双向中心聚合的排序损失函数同时考虑模态内和模态间的变化。
提出双向中心约束的排序损失将两个限制融合到一个公式里面，可以获得更好的性能。

小知识点：

浅层中的参数不同，用于建模特定于模态的信息，深层次的参数共享，用于学习多模态共享特征。网络训练中引入双向双约束的top-ranking损失，并对其进行L2归一化处理。同时结合identity loss稳定训练过程，从而提高性能。

总结：

具体是引入了中心的概念，将不同模态的负样本对之间的度量从二范数精确到距离样本中心类的最小距离。不仅可以减小计算量，而且还可以减小模态之间的差异。

采用了anchor中心对中心计算loss 代替 anchor对anchor计算loss，因为所有anchor中心能够很好的代表着一类，只在中心计算ranking loss。

3. 模型详述

双流网络的特征学习和双向双约束的top-ranking损失的度量学习。
双路径网络的参数部分共享，以建模多模态的共享信息，独立参数挖掘模态特定信息。双约束的top-ranking损失学习低维度的特征嵌入，能够区分不同身份的两种异质模式。

浅层参数自定义，深层参数共享。

请添加图片描述

3.1 双流的网络

现成的特征提取器：都是为了捕获和提取人物图像的特征表示而设计的。然而，两条路径的网络参数被分别优化以捕获特定于模态的信息。由于VT-REID任务的训练数据有限，采用在大规模图像网络上预训练的通用图像分类网络参数初始化特征提取程序。

对于可见光和红外光的路径，使用AlexNet作为主干网络，浅卷积层通常捕获两种模式共享的低级视觉模式。在预先训练好的FC层之后添加一个BN层，如果不进行BN层，所有人物图像的特征将被压缩到特征空间的一个小区域中。从经验上看，BN操作显著提高了人员重新识别的性能。

特征嵌入：

目的是在两个异构模式之间学习一个有区别的低维嵌入空间，在双流网络之后引入共享的全连接层，这个共享结构提高了跨模态人员重识别的性能，充当投影函数将两种模式的特征投影到公共的嵌入空间。具体如下表示：
$\mathcal F_v(I_v) , z = \mathcal F_t(I_t)$

3.2 双向双约束的排序损失

Ranking loss：

请添加图片描述

三个输入： $x_i,z_j,z_k$ ， $z_i,x_j,x_k$ 表示双向的跨模态三元组损失的输入.

x,z表示不同模态颜色表示相同标签。则其距离应该满足：
$D(x_i,z_j) \lt D(x_i,z_k) - \rho_1, ~~ \forall y_i \neq y_k, \forall y_i = y_j \\ D(x_i,z_j) = \frac 1 2 \| x_i - z_j \|^2_2$
那么跨模态的行人重识别损失函数应该是：
$\mathcal L_{bi} = \sum_{\forall y_i = y_j, \forall y_i \neq y_k} \max [\rho_1 + D(x_i, z_j)-D(x_i,z_k), 0] + \\ \sum_{\forall y_i = y_j, \forall y_i \neq y_k} \max [\rho_1 + D(x_i, z_j)-D(x_i,z_k), 0]$
跨模态的排序损失
$\mathcal L_{cross} = \sum_{\forall y_i = y_j} \max [\rho_1 + D(x_i,z_j)-\min_{\forall y_i \neq y_k} D(x_i,z_k),0] + \\ \sum_{\forall y_i = y_j} \max [\rho_1 + D(z_i,x_j)-\min_{\forall y_i \neq y_k} D(z_i,x_k),0]$

双向跨模态的top-ranking loss有两个优点：

减少了交叉模态的变化同时保证了hard mining的高可分辨性，不需要off-line hard triplet sampling，所有的三元组比较都是在training batch的online进行；
双向训练策略确保学习的特征表示是模态不变的，提高了不同查询的鲁棒性。

模态内的排序损失
$\mathcal L_{intra} = \sum \max[\rho_2 - \min_{\forall y_i \neq y_K} D(z_j, z_k), 0] + \sum \max[\rho_2 - \min_{\forall y_i \neq y_K} D(x_j, x_k), 0]$
其中 $\rho_2$ 是一个预设定的值。

特征损失

由于不正确的关系度量，ranking loss可能会陷入收敛问题。同时，学习到的特征表示不能简单地利用关系信息来解决类内变化。此时引入identity损失：
$\mathcal {L = \lambda_1 L_{corss} + \lambda_1 L_{intra} + \lambda_2 L_{id}}$

3.3 提出双向中心约束的排序损失

首先是中心的概念：
$\mathcal L_{center} = \frac 1 2 \sum^K_{i=1} D(x_i,c_{y_i})$
$c_{y_i} \in \mathcal R^d$ 是该类的中心。对跨模态的行人重识别问题而言，假设在每一个模态中，所有的标签都属于一个中心的子元素。这样就可以定义出双向中心损失：
$\mathcal L_{bicenter} = \sum^K_{i=1} \max [\rho_1 + D(x_i,c_{y_i})-\min_{\forall y_i \neq y_k}D(x_i, c_{y_k}), 0] + \\ \sum^K_{i=1} \max [\rho_1 + D(z_i,c_{y_i})-\min_{\forall y_i \neq y_k}D(z_i, c_{y_k}), 0]$
将anchor与sample的比较替换为anchor与center的比较的优点：减少计算量，原来模态内约束和跨模态约束共计4k^ 2,后来只需要计算样本和中心之间的样本对距离2k^2。

保留了处理跨模态的模态内变化的属性：三元组与中心的比较确保不同形态的人身份上是可区分的；中心本身就限制了来自同一特征两种模态连接起来的采样，也解决了模态内的变化。

反向传播的分析

为了计算当前步骤中两种异质模式及其对应中心的输入特征表示的反向传播梯度，首先简化中心约束排序损失的表示，最小样本到类间中心距离 $\min_{\forall y_i \neq y_k} D(x_i,c_{y_k}),\min_{\forall y_i \neq y_k} D(z_i,c_{y_k})$ 用 $D(x_i,c_{p_i}),D(z_i,c_{q_i})$ 表示，那么 $x_i,z_i$ 的中心排序损失可以表示为：
$\mathcal{\overline L_{x_i}} = \max [\rho_1 + D(x_i,c_{y_i})-D(x_i,c_{p_i}), 0] ,\\ \mathcal{\overline L_{z_i}} = \max [\rho_1 + D(z_i,c_{y_i})-D(z_i,c_{p_i}), 0]$
对下标的梯度可以表示为：
$\frac {\partial \mathcal L_{bicenter}} {\partial x_i} = (\frac {\partial D(x_i,c_{y_i})} {\partial x_i} - \frac {\partial D(x_i,c_{p_i})} {\partial x_i})\delta(\mathcal{\overline L_{x_i}} \gt 0)\\ =(c_{p_i} - c_{y_i})\delta(\mathcal{\overline L_{x_i}} \gt 0)\\ \frac {\partial \mathcal L_{bicenter}} {\partial z_i} = (\frac {\partial D(z_i,c_{y_i})} {\partial z_i} - \frac {\partial D(x_i,c_{q_i})} {\partial z_i})\delta(\mathcal{\overline L_{z_i}} \gt 0)\\ =(c_{q_i} - c_{y_i})\delta(\mathcal{\overline L_{z_i}} \gt 0)\\$
同时对 $c_j$ 的梯度可以表示为：
$\frac {\partial \mathcal L_{bicenter}} {\partial c_j} = \frac {\sum^K_{i=1}(x_i - c_j)\delta(\mathcal{\overline L_{x_i}} \gt 0)\delta(y_i = j)} {1 + \sum^K_{i=1}\delta(\mathcal{\overline L_{z_i}} \gt 0)\delta(y_i = j)} \\ - \frac {\sum^K_{i=1}(x_i - c_j)\delta(\mathcal{\overline L_{x_i}} \gt 0)\delta(p_i = j)} {1 + \sum^K_{i=1}\delta(\mathcal{\overline L_{x_i}} \gt 0)\delta(p_i = j)}\\ + \frac {\sum^K_{i=1}(z_i - c_j)\delta(\mathcal{\overline L_{z_i}} \gt 0)\delta(y_i = j)} {1 + \sum^K_{i=1}\delta(\mathcal{\overline L_{z_i}} \gt 0)\delta(y_i = j)} \\ - \frac {\sum^K_{i=1}(z_i - c_j)\delta(\mathcal{\overline L_{z_i}} \gt 0)\delta(q_i = j)} {1 + \sum^K_{i=1}\delta(\mathcal{\overline L_{z_i}} \gt 0)\delta(q_i = j)}$
K表示一个训练batch中包含的图片数量。

此处使用SGD作为优化器
$c^{t+1}_j = c^t_j - \alpha \Delta c^t_j$
最后的损失函数可以表示为：
$\mathcal L = \mathcal {\lambda_1 L_{bicenter} + \lambda_2 L_{id}}$
采样策略的说明：

请添加图片描述

4. 实验结果

4.1 消融研究

请添加图片描述

实现的具体细节：dropout rate=0.5，在RGB数据集上 $\lambda_1 = 1, \lambda_2 = 0.1$ ，在SYSU-MM01数据集上： $\lambda_1 = 0.1, \lambda_2 = 1$ 所有配置可以在论文中看到。

请添加图片描述

不同的网络结构对模型性能的影响。

表中第二大块是关于不同的损失函数对模型的影响。

然后对于每一个模块作者进行了对比，结果如下：

请添加图片描述

最后是不同的实验参数对结果的影响：

请添加图片描述

intergrating identity loss可以持续提高跨模态ReID的性能。大样本情况id loss可以获得很好的性能，小样本情况下，ranking loss可以获得很好的性能。
而直接从预先训练的ImageNet模型得到的ranking loss很难收敛,需要使用带有idloss的预训练参数进行初始化，进一步说明idloss对跨模态Reid的重要性。

请添加图片描述