摘要和介绍: 准确和自动化的淋巴结分割对于定量评估疾病进展和潜在治疗方法至关重要。淋巴结形态的复杂变化和获取体素方面的手动注释的困难使得淋巴结分割成为一项具有挑战性的任务。由于实体瘤(RE-CIST)注释中的反应评估标准(指示淋巴结的位置、长度和宽度)在医院数据档案中普遍可用,因此我们提倡使用RECIST注释作为监督,从而将该分割任务表述为弱监督学习问题。本文提出了一种基于深度强化学习的淋巴结分割(DRL-LNS)模型。基于RECIST注释,我们以无监督的方式分割RECIST切片以产生伪地面真实,然后将其用于将U-Net训练为分割网络。接下来,我们训练了一个DRL模型,其中分割网络与策略网络交互,以同时优化淋巴结边界盒和分割结果。在一个包含984个3D淋巴结的公共胸腹计算机断层扫描(CT)数据集上,针对三个广泛使用的图像分割网络对所提出的DRL-LNS模型进行了评估,并在四次交叉验证中实现了77.17%的平均骰子相似系数(DSC)和64.78%的平均联合交集(IoU)。我们的结果表明,基于DRL的包围盒预测策略优于标签传播策略,并且所提出的DRL-LNS模型能够在这种弱监督的淋巴结分割任务上实现最先进的性能。 淋巴结分析在临床实践和药物试验中起着至关重要的作用 [1]。例如,临床医生通常会评估淋巴结的大小、形状、形态和关系,以监测疾病进展或评估潜在的治疗方法,因为许多恶性肿瘤会导致淋巴结肿大 [2]。肿大的淋巴结是实体瘤反应评估标准 (RECIST) 指南 [3] 定义的一种病变亚型,在计算机断层扫描 (CT) 切片中具有至少 10 毫米的短轴直径,更可能是恶性的,并且特殊的临床兴趣。在初级保健实践中,淋巴结肿大的年发生率约为 0.6% [4]。在 CT 扫描中手动分割淋巴结需要高度的技能和注意力,并且耗时且受操作者可变性的影响 [5]。因此,自动分割算法,尤其是那些基于深度卷积神经网络 (DCNN) 的算法,吸引了越来越多的研究关注 [6]、[7]、[8]、[9]、[10]。然而,有两个主要挑战[9],[11]。首先,淋巴结不仅在 CT 切片上与周围组织之间的强度/纹理对比度较差,而且在连续切片上可能具有高度复杂的形态和多变的外观(见图 1)[8]、[12] .其次,完全注释的 CT 扫描,其中每个体素被分配为淋巴结或其他,总是不足以训练 DCNN。不足与图像采集和注释所需的工作和费用有关。 3D 淋巴结的 RECIST 注释由两条线定义:一条测量淋巴结的最长直径,另一条测量其在测量切片(即 RECIST 切片)上的最长正交直径。由于 RECIST 注释通常在临床常规 [3] 中测量并且在医院数据档案中很常见,我们建议使用 RECIST 注释作为监督来训练淋巴结分割的深度模型,从而避免对体素手动注释的要求。然而,RECIST 注释既不提供 RECIST 切片上的淋巴结边界,也不提供其他切片上的任何信息。因此,使用带有 RECIST 注释的 CT 扫描作为训练数据使淋巴结的分割成为一个弱监督问题 [13],传统上可以通过体素标签传播方法来解决,其中首先使用可用的体素标签来产生分割mask 作为伪地面实况,然后传播到其他切片以生成伪地面实况,然后在伪地面实况 [14]、[15]、[16]、[17] 的监督下训练分割模型。尽管它们很普遍,但标签 传播方法在这项任务上的性能可能有限,因为淋巴结的位置和形状在切片上有很大差异(见图 1),这导致伪和真实基本事实之间存在很大差异,导致更少-准确的淋巴结分割。因此,我们需要一种更有效的方式来使用RECIST注解提供的信息。 人类视觉系统能够通过视网膜注视的逐渐和智能变化来识别物体 [18],这可以表述为马尔可夫决策过程 [19] 并通过深度强化学习 (DRL) [20] 解决。因此,我们提倡使用 DRL 来依次识别每个 CT 切片上的高质量淋巴结边界框,这样我们就可以在不使用体素标签传播的情况下开发一种准确的淋巴结分割方法。 在本文中,我们提出了一种基于深度强化学习的淋巴结分割 (DRL-LNS) 模型,以逐个切片地交付此任务。可以仅使用常用的 RECIST 注释在 CT 扫描上以弱监督方式训练该模型。首先,我们采用 GrabCut 算法 [21] 作为一种无监督的分割工具,根据 RECIST 注释对 RECIST 切片进行分割,从而产生伪真值。然后,我们分别使用 RECIST-slices 和它们的伪真值来训练分割网络(例如 U-Net)和 DRL 模型。在 DRL 模型中,策略网络学习采取行动(即平移或缩放边界框)的策略,并根据馈送 CT 切片获得的分割结果计算采取行动的奖励,连同翻译或缩放的边界框,到训练好的分割网络。因此,分割网络和策略网络相互作用以同时优化淋巴结边界框和分割结果(见图 2)。我们在包含 984 个淋巴结的公共数据集 [12] 上评估了提议的 DRL-LNS 模型。 这项工作的贡献有三方面:(1)我们提出了一种淋巴结分割模型,该模型可以仅使用常用的 RECIST 注释在 CT 扫描上进行训练,避免了耗时、昂贵且有偏差的体素级手动操作 注释; (2)我们采用DRL,通常用于检测医学图像中的异常[22],优化淋巴结边界框,从而提高分割性能; (3) 所提出的 DRL-LNS 模型优于三种广泛使用的深度分割模型,为这项弱监督图像分割任务设定了最新技术水平。
相关工作: A. 淋巴结分割 淋巴结的自动分割已经得到越来越多的研究和发表 [11]。大多数现有的解决方案是为 CT 扫描而设计的,而其他解决方案是为磁共振图像 [23] 和超声图像 [6] 设计的。 传统的淋巴结分割方法分为几类,包括区域增长 [24]、能量优化 [25]、3D 可变形表面形状模型 [26] 和基于放射线的算法 [5]。最近,深度学习已成功应用于淋巴结分割 [8]、[27]、[28]、[29]、[30]。例如,Nogues 等人。 [8] 使用两个整体嵌套的神经网络(HNNs)分别学习淋巴结的外观和轮廓,然后将它们结合起来并进行结构化优化以进行胸腹淋巴结簇的分割。然而,这种方法没有考虑到淋巴结与其周围环境之间的相互作用。相比之下,我们的 DRL-LNS 模型使用 DRL 将这种交互结合到分割过程中。 为了减轻昂贵的淋巴结注释成本并受到弱监督图像分割 [14]、[16] 的启发,Cai 等人。 [9] 提出了一种切片方式的标签图传播算法,用于在 CT 扫描中分割体积病变和淋巴结。该算法包括三个主要步骤:(1)基于RECIST注释,使用无监督分割工具GrabCut算法对训练数据集中的RECIST切片进行分割; (2) 将获得的标签图从 RECIST 切片传播到整个病灶体积,以生成所有切片的伪地面实况; (3) 它训练 DCNN 以在传播的伪地面实况的监督下产生体积病变分割。然而,该算法的准确性有限,因为淋巴结的高度可变的大小和 3D 形状通常会导致传播的伪地面实况和真正的地面实况之间存在很大差异。为了解决这个问题,我们首先使用 DRL 学习在 CT 切片上寻找淋巴结最佳边界框的策略,然后将获得的边界框与 CT 切片结合作为 DCNN 的输入,以提高其分割精度。 B. 基于 DRL 的图像分割 强化学习技术学习一个智能体,它与其环境交互以实现目标,并且擅长解决顺序决策问题。 Mnih 等人。 [31] 设计了一个深度神经网络来执行 Q-learning 中的动作值函数逼近,从而提出了 DRL 算法。从那时起,已经为各种计算机视觉应用提出了许多基于 DRL 的方法 [20]、[22]、[32]、[33]。 Caicedo 和 Lazebnik [34] 将目标检测表述为一个控制问题,通过一系列步骤来细化边界框,并利用 DRL 搜索最佳边界框。韩等人。 [20]建立了一个强化切割代理框架来决定半监督视频对象分割的最佳对象框对。云泽等。 [22]首先将深度 Q 学习(DQN)应用于每个胰腺的边界框的识别,然后使用修改后的 U-Net 对裁剪后的 CT 图像中的胰腺进行分割。在这些基于 DRL 的分割算法中,DQN 与分割网络的交互很少。相比之下,我们的算法采用分割网络直接指导 DQN 的学习,旨在生成最佳对象边界框以进行进一步分割。因此,它使两阶段定位和分割相辅相成。
数据集: 用于本研究的淋巴结 (LN) 数据集由癌症成像档案 (TCIA) [35] 提供。它由在门静脉期获得的 86 个腹部和 90 个纵隔 CT 扫描组成,每个扫描的大小为 512 × 512 × 512 体素,切片厚度为 1.00mm 至 1.25mm。轴向平面内图像分辨率从 0.63 毫米到 0.97 毫米不等。数据集中的患者在 2012 年的四个月内进行了扫描。放射科医生分别在腹部和纵隔 CT 扫描中分割了 595 个腹部淋巴结和 389 个纵隔淋巴结。 根据每个淋巴结的位置,在精确淋巴结框范围的两倍处裁剪 3D 感兴趣体积 (VOI),以保留足够的上下文信息 [9]。 3D VOI 中每个切片的长度(或宽度)是相同的,并且取决于具有最大淋巴结的切片。这总共产生了 984 个 3D VOI [9]。 为了模拟临床应用中弱监督的淋巴结分割,通过在 2D 切片上标记淋巴结的长轴和短轴,将每个手动注释的 3D 淋巴结掩膜转换为 RECIST 注释。考虑到放射科医师对 RECIST 标注的不确定性,从 3D 淋巴结所有切片中具有前 20% 最大淋巴结区域的切片中随机选择 RECIST-slice,并将高达 20% 的随机噪声注入长度RECIST 直径。
方法: 提出的 DRL-LNS 模型由无监督分割方法、分割网络(即 U-Net-Single)和 DRL 模型组成。 DRL 模型采用策略网络和另一个分段网络(即 U-Net-Dual)。 U-Net-Single 将 CT 切片作为其输入,而 U-Net-Dual 将 RECIST 切片和相应淋巴结边界框的串联作为其输入。该模型通过三个主要步骤以弱监督方式进行训练:(1)使用无监督方法分割 RECIST 切片并产生伪地面实况; (2) 使用RECIST-slices和相应的伪ground truth来训练U-Net-Single和U-Net-Dual; (3) 将 U-Net-Dual 视为提供奖励和状态的环境,然后使用 U-Net-Single 生成的 RECIST-slices 和它们的初始边界框作为输入来训练策略网络,预计在每个切片上找到淋巴结的最佳边界框。在推理阶段,每个感兴趣的淋巴结体积 (VOI) 由经过训练的 DRL-LNS 模型逐个切片进行分割。对于每个切片,分割过程包括三个步骤:(1)将训练好的 U-Net-Single 应用于切片,生成初始淋巴结边界框; (2) 使用训练好的策略网络观察状态,然后确定调整边界框的动作; (3) 使用经过训练的 U-Net-Dual 基于调整后的边界框生成新的分割掩码。策略网络和 U-Net-Dual 之间的合作导致淋巴结边界框和分割掩码逐渐改进,直到执行停止动作或策略网络达到最大搜索步骤(见图 2)。 DRL-LNS 模型的架构及其训练管道如图 3 所示。我们现在深入研究每个步骤的细节。
CT 切片中的 Housfield 值首先被裁剪为 [-175, 275],然后线性重新缩放为 [0, 1] [36]。接下来,我们将每个切片从 3D VOI 调整为 48 * 48,因为 LN 数据集中的大多数淋巴结的长度或宽度约为 24,并将其提供给分割网络。之后,将分割网络产生的分割结果恢复到原来的大小,生成最终的分割掩码和奖励。 B. RECIST-Slices 的无监督分割 我们使用 GrabCut 算法 [21] 作为无监督方法来基于 RECIST 注释分割 RECIST 切片。该算法从初始前景和背景种子开始,并通过迭代能量最小化执行分割。由于初始种子显着影响 GrabCut [9] 的性能,我们分两步识别高质量的前景种子和背景种子。首先,让紧密围绕 RECIST 直径的最小淋巴结边界框具有宽度 W 和长度 H。然后以边界框为中心,一个宽度为 2W,长度为 2H 的矩形感兴趣区域 (ROI)提取。其次,通过用圆形结构元素扩大 RECIST 直径获得的 ROI 的 10% 设置为前景种子,位于 ROI 边界附近的 50% 像素设置为背景种子,其余 40% 分配给可能的背景或可能的前景根据它们与背景和前景的距离[9]。如图 4 所示,前景种子、背景种子、可能前景和可能背景分别用红色、黑色、黄色和灰色标记。基于这样的初始种子,GrabCut 算法能够分割整个 ROI。 C. 分割网络 我们采用 U-Net [37] 作为分割网络,因为它在监督淋巴结分割 [9] 中表现出良好的性能。在本研究中,U-Net-single 采用单通道输入,而 U-Net-Dual 采用双通道输入。除此之外,两个网络具有相同的架构,由编码器路径和解码器路径组成,每个路径由两个块组成(见图 3(a))。编码器路径中的每个块包含两个卷积层,后跟一个下采样层,解码器路径中的每个块包含一个上采样层,后跟两个卷积层。 在将这些数据输入分割网络之前,应用数据增强技术,包括旋转(90、180、270)、垂直翻转、水平翻转和随机仿射变换,将训练数据集放大六倍。由于训练分割网络的目的是最小化输出与 GrabCut 产生的伪地面实况之间的差异,我们使用以下混合损失函数 [9] D. DRL 模型 强化学习模型由推断动作的代理和提供奖励的环境组成,该奖励反映了动作的重要性和代理的新状态。我们的目标是训练代理学习将淋巴结边界框正确更改为非 RECIST 切片上的最佳大小和位置的策略,然后 U-Net-Dual 可以使用这些策略来改进淋巴结分割。我们现在介绍 DRL 模型的主要组成部分。 1)动作:改变淋巴结边界框有九个动作,包括四向平移(即右、左、上、下)、四向变化(即水平收缩、水平扩张、垂直收缩和垂直膨胀),然后停止 [20](见图 5)。每个动作由一个 9 维的单热向量 a(ij) 表示,并由动作幅度因子 mag ∈ [0, 1] 控制。设当前边界框的宽度和长度分别用W和H表示,分别表示边界框沿水平和垂直方向的像素数。如果动作向量 aij 表示左平移,则边界框将向左移动 (mag × W);如果 aij 表示水平收缩,则边界框的宽度将变为(W-mag×W)。我们将本研究的动作幅度 mag 设置为 0.05 的小值,旨在使搜索过程更加精确。 2)状态:为了有效地训练策略网络,我们使用训练后的 U-Net-Dual 作为图像特征提取器,并将其编码器路径的输出视为每个切片的特征。因此,第 j 个步骤中第 i 个切片的状态 sij 是当前切片特征 uij 和搜索动作历史矩阵 vij 的串联,该矩阵记录了过去的 H 个动作。我们根据经验将 H 设置为 4。 3)奖励:让U-Net-Dual在第j步产生的第i个切片的二元分割掩码用Mij表示,其精度由Mij与产生的伪地面实况之间的Dice相似系数(DSC)来衡量GrabCut。应用动作aij前后得到的分割精度的差异计算如下 根据这个定义,如果DSC变异的绝对值小于0.1,则奖励设置为DSC变异的10倍; 否则,奖励设置为截止值 1 或 -1。 同时,如果动作 aij 是“停止”,则奖励设置为 DSC 变化的 30 倍。 因此,奖励函数 r(sij, aij) 可以精细地感知轻微的 DSC 变化。 4)策略网络:我们采用Q-network [38]作为策略网络,它有两个全连接层,分别有1024个和64个神经元,单个输出层有9个神经元,预测9个动作的Q值 与当前状态。 策略网络被视为近似动作值函数 Q(sij, aij) 并以状态 sij 作为其输入,通过在 ( yij?Q(sij, aij))2 相对于每一步的策略网络参数。 Q 值 yij 定义为策略网络的输入是 RECIST 切片与其对应的初始淋巴结边界框的串联。我们分两步估计初始边界框。首先,我们使用经过训练的 U-Net-Single 生成分割掩码,然后生成临时边界框 b 0。其次,考虑到淋巴结的变化和 U-Net-Single 在非 RECIST 切片上的性能下降,我们给 b 0 一些扰动,例如将初始框 b 0 平移到随机方向或缩放它到大小为 ρ ∈ (0, 0.1) 的随机方向。鉴于这个嘈杂的初始框,我们可以训练策略网络来学习正确更改淋巴结边界框的策略。具体来说,考虑到第 j 个步骤的第 i 个 RECIST 切片,策略网络观察状态 sij 并确定将边界框从 bi,j 更改为 b? ij 的动作 aij。由于此过程不会裁剪图像 与 b? ij 连接不需要调整大小并且可以 与用于检测的传统 DRL 相比,第 i 个切片 直接输入到环境中,即 U-Net-Dual,以生成二元分割掩码 Mij 和相应的奖励 r(sij, aij)。同时,新的边界框 bij+1 可以由 Mij 生成,因为 Mij 表示淋巴结的有希望的区域。因此,新状态 sij+1 是第 i 个 RECIST-slice 和 bij+1 的串联。策略网络反复与分割网络交互,根据等式更新网络权重。 (4),最后学习到有效的策略。 Q-network 训练了 1000 个 epoch。每个 epoch 在每个切片上执行最多 4 个动作后结束。我们使用 ε-greedy 策略来平衡探索和开发 [38]。在 ε-greedy 训练期间,agent 可以选择一个概率为 ε 的随机动作和一个由 Q-network 生成的概率为 1-ε 的预测动作。参数 ε 随着 epochs 衰减,定义如下 ε = 0.05 + (0.95 ? 0.05) × e?1 × epoch 15 (5) 其中 epoch 是当前训练时期的数量。同时,存储代理经验并打破训练样本之间的相关性以更有效地使用数据 [38] 的重放内存的大小设置为 5000。小批量大小设置为 100。对于停止动作,我们采用相对较高的阈值 τ = 0.9 作为奖励,以在我们的实验中搜索更好的边界框。考虑到我们的策略网络代理只需要在几个步骤内调整淋巴结框 [34],我们在实验中设置了一个小的折扣因子 γ = 0.1,使得 Q(sij, aij) 更多地依赖于当前的奖励 r (sij, aij, sij+1) [20]。我们使用学习率为 10?6 的 Adam 算法来优化策略网络。 E. 评估指标 分割结果通过基于体积匹配的度量进行定量评估,例如 DSC 和联合交集 (IoU),以及基于轮廓距离的 指标,例如像素级 Hausdorff 距离 (HD) 和 像素级平均表面距离 (ASD)。 DSC 和 IoU 可以计算如下
实验和结果: 我们的分割实验是使用四重交叉验证对 984 个淋巴结 VOI 进行的,其中数据集在患者级别进行分割。在每次试验中,训练数据集包含来自 132 名患者的淋巴结及其 RECIST 注释,测试数据集由来自 44 名患者的淋巴结及其 3D 完整注释组成。测试数据集中的注释仅用于分割性能的定量评估。 A. 与其他分割模型的比较 我们将提出的 DRL-LNS 模型与 U-Net [37]、[39]、HNN [40] 和 DeeplabV3+ [41] 进行了比较。 U-Net 和 HNN 均已被证明适用于淋巴结分割 [8]、[9],而 DeeplabV3+ 是最成功的自然图像分割技术之一。为了公平比较,U-Net 具有与 U-Net-Dual 相同的网络架构。 [40] 中设计的 HNN 源自在 ImageNet 上预训练的 VGG 模型,包含五个卷积阶段,步幅分别为 1、2、4、8 和 16。每个卷积阶段都有一个侧层,它与一个辅助分类器相关联。我们采用了 [8] 中使用的 HNN 的边损失函数和全局损失函数。 我们实验中的 DeeplabV3+ 与 [41] 类似,不同之处在于它的编码器是 U-Net-Dual 的编码器,然后是另一个具有多孔卷积(rate=2)的块 [41]。每个分割网络都使用 RECIST 切片进行训练,其中包含由 GrabCut 生成并由 SGD 优化的伪地面实况。我们还将我们的模型与每个具有标签传播的竞争模型进行了比较 [9],旨在证明 DRL 比标签传播的优越性。本文中的所有模型都是使用 Pytorch 框架实现的 [42]。 表 I 给出了 U-Net、HNN、DeeplabV3+ 和提出的 DRL-LNS 模型生成的分割结果的 DSC、IoU、HD 和 ASD 的均值和标准差(SD)。它表明(1)使用标签传播技术能够略微提高分割精度; (2)无论是否使用标签传播技术,U-Net的性能都优于HNN和DeeplabV3+; (3) 与“带有标签传播的 U-Net”解决方案相比,我们的 DRL-LNS 模型(即带有 DRL 的 U-Net)将平均 DSC 提高了 1.25%,将平均 IoU 提高了 1.74%; (4) 我们的 DRL-LNS 模型在所有指标方面都实现了最佳性能,包括 77.17% (SD = 5.21%) 的最高平均 DSC 和 64.78% (SD = 5.42%) 的最高平均 IoU。结果表明,我们的 DRL-LNS 模型优于 U-Net、HNN 和 DeeplabV3+,并且 DRL 策略比标签传播技术更有效。 图 6 显示了来自四个淋巴结体积中的每一个的示例切片以及由表 I 中三个表现最佳的分割模型(即 U-Net、U-Net+LP 和建议的 DRL-LNS 模型)获得的相应分割结果。对于每个分割结果,DSC 分数打印在其下方,并覆盖真实情况。因此,重叠区域以黄色突出显示,未分割区域(即错误分割为背景的淋巴结区域)以红色标记,过度分割区域(即错误分割为背景的区域)标记为红色。分割为淋巴结)以绿色标记。很明显,我们的 DRL-LNS 模型产生的分割结果比其他结果更类似于地面实况,这可以通过更高的 DSC 分数和更少的绿色和红色区域来证明。 此外,我们根据与相应 RECIST 切片的相对偏移,即从当前切片到 RECIST 切片的距离,对所有测试淋巴结中的切片进行分类。图 7 显示了通过将 U-Net、U-Net+LP 和提出的 DRL-LNS 模型应用于每个类别的 2D 切片获得的平均 DSC。它表明我们的 DRL-LNS 模型在这些类别中的每一个中都实现了最准确的分割,特别是在那些靠近 RECIST 切片的切片上。这是可以理解的,因为策略网络可以在近切片上生成比远切片上更准确的淋巴结边界框,并且这些边界框有助于分割网络生成更准确的分割掩码。 B. Pseudo Ground Truth 的有效性 由于在这个弱监督分割问题中没有淋巴结的像素级注释,分割网络是通过使用 GrabCut 基于 RECIST 直径生成的伪地面实况来训练的。为了验证伪真值的有效性,我们分别评估了用真真值和伪真值训练的 U-Net、HNN 和 DeeplabV3+ 的性能。 表 II 给出了这些分割网络在 RECIST 切片上的结果。 为了比较,我们还列出了 GrabCut 算法的性能,它代表了伪地面实况的质量。 结果表明,与真正的ground truth相比,伪ground truth的平均DSC仅为87.38%。 然而,使用伪地面实况作为监督信息只会导致轻微的下降 DSC(U-Net 0.6%,HNN 1.22%,DeeplabV3+ 1.26%),召回率(U-Net 0.84%,HNN 1.4%,DeeplabV3+ 1.05%)和精度(U-Net 1.54%) ,HNN 为 2.46%,DeeplabV3+ 为 1.76%)。因此,虽然不是很准确,但伪地面实况在训练分割网络中具有与真正地面实况相似的性能,因此禁止用于解决这个弱监督问题。 C. 消融研究 除了图 2 所示的框架外,我们模型的成功还归功于淋巴结边界框的使用、U-Net 作为分割网络的采用以及基于 DSC 的奖励计算。为了研究这三个方面的影响,我们对 LN 数据集进行了以下消融研究。
- 边界框:提出的 DRL-LNS 模型建立在观察结果的基础上,将边界框提供的先验结合到分割过程中可以提高分割精度。因此,我们设计了一个 DRL 模型来预测边界框,并构建了 U-Net-Dual,它将 CT 切片和相应的淋巴结边界框作为淋巴结分割的输入。我们的假设是,我们拥有的边界框越精确,U-Net-Dual 可以产生越准确的分割结果。
为了验证这一假设,我们向地面实况边界框添加了不同级别的噪声,并将噪声边界框和 CT 切片输入到经过训练的 U-Net-Dual。在这个实验中,将级别为 ρ 的噪声添加到边界框意味着随机采取幅度为 ρ 的八个动作之一(见图 5)。表 III 给出了在使用具有不同噪声水平的边界框时在四重交叉验证中获得的平均 DSC。结果表明,随着噪声水平的增加,分割性能显着下降。换句话说,如果我们能够准确地预测边界框,则分割性能可以得到显着提高。这一观察结果解释了我们使用 DRL 模型预测 CT 切片上每个淋巴结的准确边界框的动机。 接下来,我们给出了一个例子,说明了在策略网络和分割网络之间的协作过程中逐渐改进的边界框以及分割精度的提高。 如图 8 所示 也就是说,当策略网络反复调整淋巴结边界框时,U-Net-Dual 会产生精度逐渐提高的分割结果。这个例子说明了所提出的 DRL-LNS 模型能够通过不断调整边界框来生成准确的淋巴结分割。与边界框相关的另一个问题是初始化。在这项研究中,我们训练了 U-Net-Single 来生成初始边界框。为了验证这种初始化的必要性,我们测试了其他两种类型的初始边界框,即随机定位框 (RB) 和居中框 (CB),每个框覆盖图像的 25%。当使用不同类型的初始边界框时,我们的模型的分割性能如表 IV 所示。它表明初始边界框对分割性能有重大影响,U-Net-Single 生成的良好初始边界框使我们的模型能够提供准确的分割结果。这是可以理解的,因为通过 DRL 模型将一个糟糕的初始边界框转移到一个最佳的大小和位置是非常困难的。 2) 分割网络:为了验证使用 U-Net 作为分割网络的合理性,我们以完全监督的方式在 RECIST 切片上针对 HNN 和 DeeplabV3+ 评估了 U-Net。如表 II 所示,无论使用真实还是伪地面实况,U-Net 在 RECISTslices 上的性能明显优于其他两个模型。因此,我们建议在我们的 DRL-LNS 模型中使用 U-Net 作为分割网络。 3)奖励函数:奖励函数在DRL中起着举足轻重的作用。在提出的 DRL-LNS 模型中,奖励函数是根据边界框的平移或缩放引起的 DSC 变化定义的。或者,我们还尝试根据 IoU 变化定义奖励函数,这出现在许多基于 DRL 的图像分析方法中。因此,方程中的 ?。 (4) 替换为 ? ? 定义为: 其中 IoU(·) 表示预测和真实边界框之间的 IoU,φ 是一个阈值。同样,我们采用相对较高的阈值 ? = 0.85 来搜索更精确的边界框。 表 V 显示了我们模型在使用不同奖励函数时的分割性能。它表明,与使用我们基于 DSC 的奖励函数相比,使用基于 IoU 的奖励函数导致 DSC 下降 1.94%,IoU 下降 0.55%。因此,我们建议使用基于 DSC 的奖励函数进行图像分割。 D. 复杂性 训练 U-Net-Single 大约需要 1 小时,训练 U-Net-Dual 大约需要 1 小时,训练 DRL 模型需要 6 小时,将训练好的模型应用于 3D 淋巴结分割的时间不到 0.3 秒( Intel Core i7-9700K CPU、NVIDIA GTX1080Ti GPU、16 GB 内存和 PyTorch 平台)。这表明,虽然我们的 DRL-LNS 模型在离线训练阶段具有较高的计算复杂度,但它对于在线推理来说相对高效,并且适用于常规临床工作流程。
结论: 由于在这个弱监督分割问题中没有淋巴结的像素级注释,分割网络是通过使用 GrabCut 基于 RECIST 直径生成的伪地面实况来训练的。为了验证伪地面实况的有效性,我们分别评估了用真实和伪地面实况训练的 U-Net、HNN 和 DeeplabV3+ 的性能。表 II 给出了这些分割网络在 RECIST 切片上的结果。为了比较,我们还列出了 GrabCut 算法的性能,它代表了伪地面实况的质量。结果表明,与真正的ground truth相比,伪ground truth的平均DSC仅为87.38%。然而,使用伪真值作为监督信息只会导致 DSC(U-Net 0.6%,HNN 1.22%,DeeplabV3+ 1.26%)、召回率(U-Net 0.84%,U-Net 1.4%)略有下降HNN,DeeplabV3+ 为 1.05%)和精度(U-Net 为 1.54%,HNN 为 2.46%,DeeplabV3+ 为 1.76%)。因此,虽然不是很准确,但伪地面实况在训练分割网络中具有与真正地面实况相似的性能,因此禁止用于解决这个弱监督问题。
|