IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> U-Net Transformer: Self and Cross Attention for Medical Image Segmentation -> 正文阅读

[人工智能]U-Net Transformer: Self and Cross Attention for Medical Image Segmentation

论文:https://arxiv.org/abs/2103.06104

主框架还是U-net,大体方向上改变了两个部分 encoder 和 skip
encoder:U-net的encoder是基于CNN网络经过卷积和pooling不断去降低分辨率,扩大感受野,将信息从分辨率转换到通道上,提取更高级的encoder feature map.
本文在提取encoder feature map之前,增加了self attention利用特征之间的全局作用去获得contextual information.(本质也是在CNN后面加入了Transformer模块)

skip:U-net的skip是将之前的encoder的不同层次的高分辨特征和decoder的特征进行拼接组合,这样有利于恢复decoder的高维特征丢失的空间信息
本文是引入了一个cross attention将encoder的特征中非关注的信息给过滤出去,使decoder获取更好的空间信息进行精修。
在这里插入图片描述

self attention:
在这里插入图片描述

就是transformer传统的self attention
可以获取图像的长距离结构信息
positional encoding可以获取器官绝对或者相对位置信息

cross attention:
在这里插入图片描述

S就是原来的skip结构,从encoder中拿的高分辨率特征
Y就是当前的decoder高维特征
我个人认为此图有错误(或许是个人理解不够,也没有和作者联系)
是这样的经过MHSA出来的特征维度为 hXwXd 说明V是hXwXd 可V是由S先经过1x1的卷积和上采样来的 这样S维度就变成了4hX4wXd(假定1*1的卷积不改变分辨率,只有pooling才改变分辨率) 变成序列就是(16w·h)Xd 这样是和V对应不了 
如果把上采样改成pooling,这样就可以说的通了 S先经过1x1的卷积和pooling 变为
hXwXd

Y经过1x1的卷积 进行了维度的变换 为hwd 乘以Q ,K的权重矩阵 生成Q,K
本图的映射成序列应和上图一致 而且忽略了 position encoding 带来的维度的变化

这个cross attention 大概的思想就是我们分割的重点是什么,把encoder的高分辨率特征中分割的重点的特征拿过来
Q和K取自当前的decoder特征 V取自相对应的encoder特征
特征的结合由两种种途径构成
一 用Q和K获取当前特征的权重矩阵 x乘以V 获取分割中重要的部分的信息 再上采样成 2h2wd 然后把经过position encoding的S拿过来进行 点乘
二 把经过position encoding的Y 上采样到2hX2wX2d 然后再经过卷积降到2hX2wXd
把一和二最后的特征拼接在一起 得到新的decoder特征

在这个attention中
输入 是hXwX2d 输出2hX2wX2d
decoder主要是逐渐恢复分辨率 把通道信息放在图像的空间上 这个cross attention并没有改变特征的维度 和U-net一样 之后需要连接卷积去进行降维。

idea:
利用cross attention取代skip 过滤出富含语义分割的信息
Q和K来自decoder特征是为了寻找分割目标 给予对应的encoder特征中分割目标更大的权重

疑点:
V是由S乘以权重矩阵得到的 也就是说S经过了一个全连接层得到了V
为什么最后得到Z以后还需要点乘以S呢?
这样训练Z中不都是1附近的数吗?
残差结构?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-07 10:48:58  更:2021-09-07 10:49:44 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 19:40:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码