IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文阅读 (35):Spatial Transformer Networks -> 正文阅读

[人工智能]论文阅读 (35):Spatial Transformer Networks

引入

??题目:Spatial transformer networks
??代码
??摘要:卷积神经网络定义了一类有力模型,但依然受到输入数据空间不变 (spatially invariant)的限制。本文引入一个新的可学习模块,即空间转换器 (spatial transformer),其明确允许在网络内对数据进行空间操作。该可微分模块可以应用到现有的卷积架构中,使得网络能够主动空间变换特征图,而无需额外的监督训练,或优化更改。本文验证了空间转换器的使用,可以使得模型习得平移、缩放、旋转和更通用变换的不变性 (invariance),且相较于其他变换器有优势。
??Bib

@article{Jaderberg:2015:20172025,
author		=	{Max Jaderberg and Karen Simonyan and Andrew Zisserman and Koray Kavukcuoglu},
title		=	{Spatial transformer networks},
journal		=	{Advances in Neural Information Processing Systems},
volume		=	{28},
year		=	{2015},
pages		=	{2017--2025}
}

1 空间转换器 (spatial transformer)

??空间转换器是一个可微分模块,可用于单次前向传递期间,对特征图的空间变换,其中变换以特定输入为条件,并产生单个特征图输出。对于多通道输入,每个通道应用相同的变换。本节仅考虑单个变换和每个变换器的单个输出,多个变换的推广则在实验进行。
??空间转换器可分为三个部分,如图2
??1)局部化网络 (localisation network):获取输入特征图,并通过多个隐藏层输出应该应用于特征图的空间变化参数
??2)网格生成器 (grid generator):使用预测的空间变换参数创建采样网格,其是一组点的集合;
??3)采样器 (sampler):以特征图和采样网格作为输出,生成从网格点输入的采样输出图

图2:空间转换器

1.1 局部化网络 (localisation network)

??输入:特征图 U ∈ R H × W × C U\in\mathbb{R}^{H\times W\times C} URH×W×C,其中 H H H W W W C C C分别对应高、宽、通道。
??输出:变换 T θ \mathcal{T}_\theta Tθ?的参数 θ \theta θ,其可用于特征图,即 θ = f loc ( U ) \theta=f_\text{loc}(U) θ=floc?(U),其大小根据变换的类型而变化。 f loc ( ? ) f_\text{loc}(\cdot) floc?(?)是一个可以采用任何形式的局部化网络,例如一个全连接网络或者卷积网络,但应该包含一个最终的回归层 (regression layer),以生成变换参数 θ \theta θ

1.2 参数化采样网格 (parameterised sampling grid)

??为了对输入特征图进行变换,每个像素都使用以输入特征图为中心的采样核的计算。在这里,像素作为通用特征图的元素而不一定是图像。通常,输出像素被定义为位于像素 G i = ( x i t , y i t ) G_i = (x_i^t,y_i^t) Gi?=(xit?,yit?)上的规则网格 G = { G i } G=\{G_i\} G={Gi?}所有的网格构成输出特征图 V ∈ R H ′ × W ′ × C V\in\mathbb{R}^{H'\times W'\times C} VRH×W×C。注意当前步骤的输入输出形状一致。
??为了清楚描述,暂时假设 T θ \mathcal{T}_\theta Tθ?是一个2D仿射变换 A θ A_\theta Aθ?。此时的逐点变换 (pointwise transformation)为
( x i s y i s ) = T θ ( G i ) = A θ ( x i s y i s 1 ) = (1) \tag{1} \left(\begin{matrix} x_i^s\\ y_i^s \end{matrix}\right)=\mathcal{T}_\theta(G_i)=A_\theta \left(\begin{matrix} x_i^s\\ y_i^s\\ 1 \end{matrix}\right)= (xis?yis??)=Tθ?(Gi?)=Aθ????xis?yis?1????=(1)
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??
??

1.3 可微图像采样 (differentiable image sampling)

1.4 空间转换网络 (spatial transformer networks)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-26 22:09:34  更:2021-12-26 22:11:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 20:44:12-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码