[人工智能] 【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer -> 正文阅读

[人工智能]【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer

【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer

代码：https://github.com/haochenheheda/NFormer

请添加图片描述

这是一个来自 Amsterdam 大学和小红书团队的工作。要解决的问题是：当前大多数工作是分析单张图片内部特征之间的关联关系，没有考虑图片与图片之间的 potential ineractions。

如下图所示，由于光照、遮挡、视角等因素，同一个类别的图片可能外观存在差异，导致outlier比较敏感（空心样本是因遮挡产生的ourlier，跑到别的类里了）。为此，作者提出了 Neighbor Transformer Network (NFormer)，旨在建模所有输入图像之间的关系，可以看到所有类内部的联系更加紧密，outlier能够正确分类。

NFormer的框架如下图所示，比较关键的有两个部分：Landmark agent attention (LAA) 和 Reciprocal neighbor softmax (RNS)。

请添加图片描述

1、Landmark agent attention. 该模块如下图所示，在以前的 attention 计算中，需要将输入 $z$ 变成 $q, k, v$ ，然后在计算 $q$ 和 $k$ 之间相似性时复杂度较高为 $O(N^2d)$ 。为此，作者如下改进：（1）在输入 $z$ 中随机采样 $l$ 个样本得到 $z^l$ ，然后生成 $k_l$ 和 $q_l$ ，这样特征就从 $N\times d$ 降为 $l\times d$ 。将原始的 $q$ 和 $k$ 通过与 $k_l$ 和 $q_l$ 分别相乘，得到 $\hat{q}\in \R^{N\times l}$ $\hat{k}\in \R^{N\times l} $。（ 3 ）$ \hat{q}$ 和 $\hat{k}$ 计算得到 NxN 的相似性矩阵。这样，和原来相比，复杂度就从 $O(N^2d)$ 降低为 $O(N^2l)$ 。在这个论文中， $l = 5$ , $d = 256$ ，是显著降低了计算量的。