IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer -> 正文阅读

[人工智能]【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer

【CVPR2022】NFormer: Robust Person Re-identification with Neighbor Transformer

代码:https://github.com/haochenheheda/NFormer

请添加图片描述

这是一个来自 Amsterdam 大学 和 小红书 团队的工作。要解决的问题是:当前大多数工作是分析单张图片内部特征之间的关联关系,没有考虑图片与图片之间的 potential ineractions。

如下图所示,由于光照、遮挡、视角等因素,同一个类别的图片可能外观存在差异,导致outlier比较敏感(空心样本是因遮挡产生的ourlier,跑到别的类里了)。为此,作者提出了 Neighbor Transformer Network (NFormer),旨在建模所有输入图像之间的关系,可以看到所有类内部的联系更加紧密,outlier能够正确分类。

NFormer的框架如下图所示,比较关键的有两个部分:Landmark agent attention (LAA) 和 Reciprocal neighbor softmax (RNS)。

请添加图片描述

1、Landmark agent attention. 该模块如下图所示,在以前的 attention 计算中,需要将输入 z z z 变成 q , k , v q,k,v q,k,v,然后在计算 q q q k k k 之间相似性时复杂度较高为 O ( N 2 d ) O(N^2d) O(N2d)。 为此,作者如下改进:(1)在输入 z z z 中随机采样 l l l 个样本得到 z l z^l zl ,然后生成 k l k_l kl? q l q_l ql?,这样特征就从 N × d N\times d N×d 降为 l × d l\times d l×d。将原始的 q q q k k k 通过与 k l k_l kl? q l q_l ql? 分别相乘,得到 q ^ ∈ R N × l \hat{q}\in \R^{N\times l} q^?RN×l $\hat{k}\in \R^{N\times l} 。( 3 ) 。(3) 。(3\hat{q}$ 和 k ^ \hat{k} k^ 计算得到 NxN 的相似性矩阵。这样,和原来相比,复杂度就从 O ( N 2 d ) O(N^2d) O(N2d) 降低为 O ( N 2 l ) O(N^2l) O(N2l) 。在这个论文中, l = 5 l=5 l=5 , d = 256 d=256 d=256,是显著降低了计算量的。

2、Reciprocal neighbor softmax. 原始的softmax计算是聚合所有的样本,但是不相关样本的显著存在会对最终计算产生负面影响。

假设如果两幅图像在特征空间中互为邻域,则它们很可能是相关的。为此,作者建议从矩阵 A 中进行如下计算:

意思就是 A矩阵中每行 attention weights 前 k 个最大的置为1,其余的置为 0。然后使用下面计算生成一个 mask:

在计算 Softmax 时候,把 M 乘在前面,如下:

个人感觉这个操作并不会降低计算量,只是对相似性计算的结果进行了约束。

先写到这里,实验部分的分析有时间再补充 ~~~

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-30 00:52:59  更:2022-09-30 00:53:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:31:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码