| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文阅读 Vision GNN: An Image is Worth Graph of Nodes -> 正文阅读 |
|
[人工智能]论文阅读 Vision GNN: An Image is Worth Graph of Nodes |
论文阅读:Vision GNN: An Image is Worth Graph of Nodes
? ?Kai Han
?,
Yunhe Wang,
Jianyuan Guo
,
Yehui Tang,
?Enhua Wu
文章和代码:
摘要:?广泛使用的卷积神经网络和转换器将图像视为一个网格或序列结构,不能灵活地捕捉不规则和复杂的物体。 ? ?本文提出将图像表示为图结构,并引入一种新的视觉GNN (ViG)体系结构来提取视觉任务的图级特征。首先将图像分割成一些被视为节点的补丁,并通过连接最近的邻居来构造一个图。基于图像的图形表示,我们建立了ViG模型来实现所有节点之间的信息转换和交换。 1 ?Introduction计算机视觉:CNN/transformer with attention mechanism/ MLP (multi-layer 利用Grapher和FFN模块,以各向同性和金字塔的方式建立了ViG模型。 图1 表示图像数据通常表示为欧氏空间中规则的像素网格? 2 Related Work? 2.1 CNN, Transformer and MLP for Vision 3 Approach图2 是提出的ViG模型的框架 3.1 ViG Block图像的图形表示,这段话多读几遍就能理解。重点我已经画出来了,与最近邻点生成的边聚合起来就是想要的图形。 图级处理。图卷积层可以通过聚合其相邻节点的特征来在节点之间交换信息。 使用最大相对图卷积 引入了 图形卷积的多头更新操作,首先将聚集特征 xi'' 分成 h 个头,然后分别用不同的权重更新这些头。所有的头可以并行更新,并连接为最终值: ?多头更新操作允许模型在多个表示子空间中更新信息,这有利于特征的多样性。 ?以往的 GCNs 通常重复使用多个图卷积层来提取图数据的聚合特征。深度 GCNs 的过平滑现象会降低节点特征的判别性,导致视觉识别性能下降,如下图所示 其中特征多样性通过下式判断 为了缓解这个问题,文中在 ViG 块中引入了更多的特征变换和非线性激活。 ?在图卷积前后应用一个线性层,将节点特征投影到同一域,增加特征多样性。在图卷积后插入一个非线性激活函数,以避免图层的坍塌。我们将升级后的模块称为Grapher模块。 输入特征X ∈ RN×D,??Grapher模块可以表示为 ?为了进一步提高特征转换能力,缓解过平滑现象,我们在每个节点上使用了前馈网络(FFN)。FFN模块是一个简单的多层感知器,有两个全连接层:? ?在Grapher和FFN模块中,在每个全连接层或图卷积层之后都应用批处理归一化。 3.2 Network Architecture ??在计算机视觉领域,常用的转换器通常具有各向同性结构(如ViT[8]),而CNN更倾向于使用金字塔结构(即ResNet[16])。为了与其他类型的神经网络进行广泛的比较,我们为ViG构建了两种网络架构,即各向同性架构和金字塔架构。 ?Isotropic architecture 我们构建了三个具有不同模型尺寸的各向同性ViG架构版本,即ViG-ti、S和B。节点数设置为N=196。为了逐渐扩大感受域,在这三种模型中,随着接收层的深度,相邻节点K的数量从9个线性增加到18个。heads默认设置为h=4。具体情况见表1。? 注:FLOPs,? s小写,是floating point operations的缩写(s表复数),意指浮点运算数,理解为计算量。可以用来衡量算法/模型的复杂度。 ?Pyramid architecture ?金字塔体系结构考虑了图像的多尺度特性,随着层的深入,提取空间尺寸逐渐减小的特征,如ResNet[16]和PVT[54]. 利用先进的设计和建立了四个版本的金字塔ViG模型。具体情况见表2。 ?Positional encoding. 位置编码 ?为了表示节点的位置信息,我们在每个节点特征上添加一个位置编码向量:xi ← xi + ei,?? where ei ∈ RD.? 上式所描述的绝对位置编码应用于各向同性和金字塔结构。对于节点i和节点j,它们之间的相对位置距离为eTiej,并将其加到特征距离中以构造图。 ?4 Experiments?4.2?Main Results on ImageNet?4.3?Ablation Study?The effects of modules in ViG. ?The number of neighbors. ?The number of heads. 4.5 Visualization图中五角星是中心节点,颜色相同的节点是它的相邻节点。两个中心节点被可视化为绘制所有的边缘将是混乱的。可以观察到,我们的模型可以选择与内容相关的节点作为一阶近邻,在浅层中,邻近节点倾向于基于低层次和局部特征,如颜色和纹理。在深层中,中心节点的邻近语义更强并属于同一类别。 5 Conclusion??我们将图像划分成一些补丁,并将它们视为节点。基于这些节点构造图可以更好地表示不规则的复杂对象。在图像图结构上直接使用图卷积存在过平滑问题,且性能较差。在每个节点内引入了更多的特征转换,以鼓励信息的多样性。基于图像的图表示和改进的图块,构建了具有各向同性和金字塔结构的视觉GNN(ViG)网络。 ?附录-伪码核心部分即ViG块的伪代码
?文章内容大概就是这些啦。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:51:25- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |