IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Hard-Attention for Scalable Image Classification阅读笔记 -> 正文阅读

[人工智能]Hard-Attention for Scalable Image Classification阅读笔记

一、Title

在这里插入图片描述
论文地址:https://openreview.net/forum?id=_6DawVPqyl
代码地址:https://github.com/Tpap/TNet

前言:我们能否利用高分辨率图片的信息但不受二次复杂性(quadratic complexity)的影响。本文提出了一种新的多尺度横向网络(TNet)硬注意体系结构,它以自上而下的方式遍历图像尺度空间,一路上只访问信息最丰富的图像区域。T

二、summary(idea)

2.1研究背景:

在图像分类中,深度神经网络(DNNs)通常针对特定的输入分辨率进行设计和优化,例如224×224px。在更高分辨率的图像上使用现代dnn(例如,在卫星或医学成像中)是一个重要的问题,因为缩放模型架构的微妙性,以及计算和内存需求呈二次指数增加。

2.2存在问题:

输入的空间维数的线性增加,会导致计算复杂度和内存的二次增加,并很容易导致资源瓶颈。

2.3设计目的:

我们的目标是利用高分辨率的信息,同时摆脱不可持续的二次复杂度到输入规模。

2.4创新点:

①TNet是递归的,可以应用于几乎任何分辨率的输入
在这里插入图片描述
②TNet提供了一个可调节的权衡,在准确性和复杂性之间的权衡,通过改变参与的图像区域的数量。这样,复杂性就随参与位置的数量线性增加,而与输入分辨率无关。
③此外,硬注意明确地揭示了我们的模型最看重的图像区域,提供了一定程度的可解释性
在这里插入图片描述
④TNet是模块化的,大多数分类模型都可以作为其特征提取的骨干。这样,我们就可以直接利用现有优化的深度模型所提供的各种性能优势。
⑤一个重要的区别是,我们没有将注意力策略限制在二维空间上,我们也考虑了尺度维度。
⑥此外,我们的模型在每个处理级别上并行化特征提取,而不是完全顺序的。
⑦我们没有使用递归神经网络(rnn)来组合来自不同位置的特征,而是我们简单地对它们进行平均。可以避免梯度在回传过程中的消失。
(没有使用是指RLA 吗?)

三、Method

3.1简述

从第1级开始,有选择性地从不同尺度的图像区域(红色立方体)中提取特征,然后,将它们组合起来,创建用于分类的最终图像表示(蓝色立方体)。
在这里插入图片描述

3.2模型方法:

①多尺度表示:
图像金字塔方法通过处理多尺度输入来提取多尺度特征,我们的模型由于它的递归性质,它可以从任意数量的金字塔级别中提取特征(对金字塔方法不太理解)
②计算效率:
注意方法是根据输入的一部分,有选择地处理它们手头任务的重要性
模型流程:在这里插入图片描述
①我们处理了一个原始分辨率为896×896px的图像的图像。
在第一层中,我们将图像缩小到224×224px,并将其通过特征提取模块,以生成一个包含对原始图像的粗略描述的特征向量V1。
为了进入下一个层次,我们将中间特征映射F1从特征提取模块进入到位置模块,它考虑了F1描述的一些候选位置,并预测它们的重要性(在这个特殊的例子中,候选位置形成一个2×2的规则网格,位置模块产生4个预测)。
我们将区域重要性表示为出席概率,它参数化了用于不替换抽样的分类分布;(在我们当前的例子中,我们抽样了2个地点(也就是代表两个分类))。
在这里插入图片描述
数字标注对应于特征加权模块预测的前3个位置的权重和整个图像的缩小版本(第一处理级别)。权重加和为1。
②在第二个处理层,我们从全分辨率图像中裁剪所选区域,将其调整为224×224px,并将其输入特征提取模块,获得相应的特征向量(这里为V21和V23)。我们将F21和F23输入到位置模块,从而导致2个分类分布。
③(原论文没讲清楚)原始的输入分辨率允许我们移动到第三个处理级别,在那里我们从每个位置中取样1个位置,得到V35和V39。

3.3模型组成:

①特征提取模块:
接收固定大小的图像作为输入,并输出特征向量V和中间空间表示F。
②位置模块:
预测给定n×n网格内候选图像区域内的分类分布的K=n2概率。(代表考虑了通道维度,然后在每个像素块做一个预测)
它接收一个大小为n×n×c的特征图作为输入,其中每个1×1×c向量描述网格的相应位置。特征图通过一系列1×1卷积(也注入上下文信息,例如,通过挤压和激发[28]),产生K个概率结果,通softmax层转换为相对区域重要性。(没有完全理解)
③位置编码模块:
接收特征向量f和位置编码向量p,并将它们(例如,通过完全连接的层)组合到输出特征向量f0。
我们没有了一个单一的时间维度,而是有三个:两个空间维度和尺度。

四、Experiments

精度性能平衡
看到TNet在FLOPs中测量的准确性和复杂性之间提供了更好的权衡(在实际的时间和内存中观察到类似的行为)
我们处理高达896×896px的图像,比使用相同分辨率的基线快2.5倍,同时也实现了更高的精度。
在这里插入图片描述

五、Conclusion

我们提出了一种新的多尺度硬注意架构,TNet,它可以有效地扩展到高分辨率的图像。通过控制参与地点的数量,TNet可以动态地调整精度计算的权衡。注意策略揭示了我们的模型关注信息更丰富的图像区域,并使其预测具有内在的可解释性。

有多个研究方向可以解决我们的方法目前的局限性。首先,我们希望决定参加地点的数量来自于一个依赖于内容的学习政策。此外,我们希望尺度空间遍历是双向的,而不仅仅是自上而下的,以便使处理更具适应性。同样的目的,我们希望已经提取的特征来条件后续位置的处理。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-28 22:55:34  更:2021-12-28 22:57:39 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 20:43:33-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码