得益于深度学习的发展,医学图像自动分割技术取得了长足的进步。然而,现有的大多数方法都是基于卷积神经网络(CNN),由于卷积运算中感受野的限制,无法建立长期依赖关系和全局上下文连接。受Transformer成功的启发,一些研究人员花费了大量精力设计基于Transformer的U-Net的健壮变体,Transformer的自我注意机制具有强大的建模远程上下文信息的能力。此外,视觉转换器中使用的面片分割通常会忽略每个面片内的像素级固有结构特征。为了缓解这些问题,本文提出了一种新的深度医学图像分割框架,称为双Swin-Transformer U-Net(DS-Transune),这可能是第一次尝试将分层Swin Transformer的优点同时纳入标准Ushaped架构的编码器和解码器中,以增强各种医学图像的语义分割质量。与以往许多基于变换器的解决方案不同,本文提出的DS-transune首先采用基于Swin-Transformer的双尺度编码器子网络来提取不同语义尺度的粗粒度和细粒度特征表示。作为DS Transune的核心组件,我们提出了一个设计良好的变压器交互式融合(TIF)模块,通过自我注意机制有效地建立不同尺度特征之间的全局依赖关系,以充分利用这些获得的多尺度特征表示。此外,我们还将Swin Transformer块引入到解码器中,以进一步探索上采样过程中的远程上下文信息。在四个典型的医学图像分割任务中进行的大量实验证明了DS-TransUNet的有效性,并表明我们的方法明显优于最先进的方法。
索引词;医学图像分割;远程上下文信息;分级Swin变压器;双刻度;变压器交互式融合模块 .
I. INTRODUCTION
医学图像分割是一个重要而富有挑战性的
|