跳转到主要内容

方法的文章

前面。大数据,2023年1月06
秒。医学和公共卫生
卷5 - 2022 | https://doi.org/10.3389/fdata.2022.1080715

3 d双向变压器U-Net医学图像分割

Xiyao傅 1,Zhexian太阳 2,Haoteng唐 1 *,埃里克·m .邹3,亨黄 1,勇王 2、4、5、6所示梁詹 1 *
  • 1电子与计算机工程系,匹兹堡大学,匹兹堡,美国宾夕法尼亚州
  • 2生物医学工程系,圣路易斯华盛顿大学,圣路易斯,密苏里州,美国
  • 3马里兰州蒙哥马利布莱尔高中,51大学大马路E,银泉,医学博士,美国
  • 4电气和系统工程系,圣路易斯华盛顿大学,圣路易斯,密苏里州,美国
  • 5妇产科,圣路易斯华盛顿大学,圣路易斯,密苏里州,美国
  • 6部放射,圣路易斯华盛顿大学,圣路易斯,密苏里州,美国

深作为一个流行的学习方法,卷积神经网络(DCNNs)已广泛采用细分任务,收到积极的反馈。然而,在细分任务,DCNN-based框架以无能应对全球关系在成像特性。尽管提出了许多技术提高全球的DCNN推理,这些模型要么是无法获得令人满意的性能与传统fully-convolutional相比结构或不能使用的基本优势CNN-based网络(即当地推理的能力)。在这项研究中,相比之下,目前试图结合FCNs和全球推理方法,我们充分提取self-attention的能力设计一种新颖的关注3 d计算机制,提出了一种新的分割框架(名为3系统)三维医学图像分割任务。这个新框架在一个端到端的流程图片方式和执行3 d计算在编码器端(包含3 d变压器)和解码器端(这是基于3 d DCNN)。我们测试框架在两个独立的数据集,包括3 d MRI和CT图像。实验结果清楚地表明,我们的方法优于几种先进的分割方法在各种指标。

1。介绍

在最近的几年里,深卷积神经网络(DCNNs) (Krizhevsky et al ., 2012;Simonyan Zisserman, 2014;他et al ., 2016年;Badrinarayanan et al ., 2017;黄et al ., 2020;潘et al ., 2020在医学图像分割()取得了相当大的进展长et al ., 2015;能剧et al ., 2015;陈L.-C。et al ., 2018);Tokunaga et al ., 2019;刘et al ., 2022;Zhang et al ., 2022)。然而,限于当地接受域卷积过滤器,DCNN-based框架不能从全球获取远程依赖特性的语义分割。可以被认为是解决这个,一些策略。第一个是使用卷积运算放大规模扩张的接受域卷积过滤器(Yu Koltun, 2015;杨et al ., 2017;Zhang et al ., 2017;刘et al ., 2021)。然而,这种扩大当地接受域扩张的规模仍然有限。另一个解决方案是模型功能映射图结构和探讨远程依赖通过消息传递机制不同的图学习模型(例如,图卷积网络)(李,古普塔2018;陈et al ., 2019;李et al ., 2020;贾et al ., 2021)。尽管这些图学习模型显示巨大的潜力在加强全球DCNNs推理能力,他们有很高的要求,计算和内存由于建造大型图表。

注意机制(1997年,的Hochreiter和。施密德胡贝尔表示;Vaswani et al ., 2017)是一个计算方案,试图生成表示通过不同类型的全球特性在每一步。因为关注可以被视为之间的转换和转换查询(q),关键(k),和价值(v)三联体,注意计算生成基于离子束进行的组合对问。骑自行车是很自然的将计算在复发性细胞,传统的注意机制在复发性神经网络集成(例如,1997年,的Hochreiter和。施密德胡贝尔表示;曹et al ., 2014),这不可避免地会损害效率的复发性网络与线性/残余网络(Vaswani et al ., 2017)。为了应付这个,Vaswani et al。(2017)提出了一个变压器,结构组成的一系列相同的编码器阻塞与一系列相同的解码器,这都没有回旋的层和剩余的方式连接。原来的变压器由self-attention效果特别好机器翻译等一些任务而不是视觉任务(陈et al ., 2021)。这主要是由于缺少卷积层,使得模型很难侦测到地方特色。

由于上述原因,convolutional-based框架仍然是首选的分割任务。尽管其他一些模型(格拉汉姆·古德费勒et al ., 2014;陈y . et al ., 2018)已被证明可行,DCNNs仍然是最有效的方法之一。的多个变种DCNNs提出了分割过程更有效,其中最重要的是UNet (Ronneberger et al ., 2015),这是一个对称的结构组成的卷积和跳过连接块。这些卷积块降维在编码器端和提升维度在解码器端。然而,由于内在完全卷积结构,UNet是理想与地方特色全球交涉变体分布(陈et al ., 2021)。应对UNet的缺点,提出了许多方法(刘et al ., 2018;周et al ., 2019;Diakogiannis et al ., 2020;黄et al ., 2020)。然而,这些方法非常耗时或需要重计算,使它不可能应用于3 d对象。

在这种情况下,self-attention机制似乎是一个接近最优解。高度模块化和可拉伸self-attention细胞的数量根据培训环境。它还能在庞大的数据集训练由于注意力训练的本质。因此,研究人员结合医学图像分割的变压器与卷积层(李et al ., 2022)。一方面,变压器编码标记化的图像补丁从CNN特征映射的输入序列提取全局上下文。另一方面,解码器upsamples编码的特性,然后结合高分辨率CNN特性映射到实现精确定位。

然而,这种方法仍有一些障碍,特别是在3 d对象的分割。这部分是因为变形金刚(Vaswani et al ., 2017有时间信息)要求的输入特性。自self-attention不计算一个明确的方向,功能必须预处理与时间信息(例如,余弦函数)作为输入嵌入前培训。虽然这个学习的过程可以看作是自然(扫描线性的特性和秩序),它将限制高维数据的性能。例如,许多现有的变压器的方法(Parmar et al ., 2018;黄et al ., 2020;陈et al ., 2021)将3 d对象切成2 d切片序列满足时间编码的要求;然而,分割性能实际上是更糟,因为2 d切片切将毁灭在三维空间对象的平滑。双向变压器(Devlin et al ., 2018)是一个强大的变压器的升级版本。这是一个没有解码器结构和流程的输入与面具一次性创建时间/空间连续性。然而,实验部分中我们将展示,双向变形金刚可以作为一个强大的编码器,但仍努力得到更好的结果在三维分割。补偿带来的损失特性解决变压器,我们建议3 d变压器UNet(3差),雇佣了一个混合CNN-transformer架构利用详细的从CNN高分辨率空间信息特征和全局上下文编码由我们新的3 d双向变压器模块。我们展示了这种设计允许我们的框架保护self-attention机制的优点和3 d也得到大大改善结果与以前比起U-Net-based或的基于变压器相比,图像分割方法。总之,我们对本文的贡献可以概括如下:

•我们提出了一种新的3 d双向框架学习深3 d功能语义分割医学图像。

•我们设计了一种新颖的注意机制特别适合网络培训和self-attention计算3 d对象。

•在多个数据集,我们验证了新框架组成的不同成像模式(MRI和CT图像)和不同器官(胎盘和肺部感染COVID)和最先进的(SOTA)获得的结果。我们打基线的方法表现在多个指标。

2。相关工作

2.1。完全卷积网络在医学图像分割

许多研究试图采用卷积网络医学图像分割。例如,刘et al。(2018)提出了一个混合网络组成的CNN 3 d和2 d CNN在大脑中图像分割为阿尔茨海默病(AD)的研究。Ronneberger et al。(2015)UNet,最标志性的encoder-decoder-based医学图像分割的方法。他们的方法包括卷积块有一个u型尺寸变化。具体来说,从输入层编码器译码器的输入层,每个块的维度是下行。和译码器有一个提升维度匹配的编码器。这种设计确保框架的学习能力是强大到足以找到位置和输出一个全球的抽象表示地图。一些调整(例如,周et al ., 2019;黄et al ., 2020),原UNet模型。例如,U-Net3 + (黄et al ., 2020)及其变化,虽然被证明是有效的,仍然遭受locality-heavy学习计划。一些研究人员试图通过提高卷积的当地推理层残余结构。例如,ResUNet (Diakogiannis et al ., 2020)提出了一种残块之间每两个卷积块编码器和译码器一侧以及skip-connection残块相同的维度之间之间的编码器和译码器。Isensee et al。(2021)认为培训所需的数据集的理解比网络本身更重要,因为大多数UNet-based适度取得了进展甚微。作者提出nnUNet,一个强大的网络,设计了基于2 d和3 d UNet的结合。作者也做出了不同的培训配置(归一化技巧,裁剪,激活函数,等等)基于数据集。

2.2。变形金刚

《变形金刚》(Vaswani et al ., 2017)最初提出了通用NLP任务并迅速获得广泛关注击败前最先进的结果。Devlin et al。(2018)原来的变压器模型转换成伯特,并介绍了叫做双向变形金刚,它再次被证明有效。当然,多个一直努力调整变压器的学习能力在计算机视觉领域。最近有几个变压器出现的变异。Parmar et al。(2018)提出调整香草变压器的早期作品之一,通过融合的视觉信息。这个模型预处理图像中的每个像素通过卷积1×1层。然后,嵌入的位置计算嵌入前喂到变形金刚超分辨率的任务。在另一个尝试视觉任务,Dosovitskiy et al。(2020)提出愿景变压器(ViT),提出了一种新颖的输入方式对视觉信息嵌入。它实现了先进的ImageNet分类通过直接应用与全球self-attention全尺寸图像变形金刚。具体来说,维特趋于平缓图像固定大小的像素,然后是线性变压器编码器之前添加到位置嵌入的喂养。Valanarasu et al。(2021)提出了封闭的轴向关注创建一个封闭的计划在当地规模提高学习能力。

2.3。UNet和变压器在医学图像分割

已经多次尝试将UNet与变压器在框架结构和内部编码器/解码器计算。TransUNet (陈et al ., 2021)由一系列变压器单元编码器和一半的UNet解码器生成预测在医学图像分割。编码器和解码器(陈et al ., 2021)计算二维场景。Yun et al。(2021)介绍SpecTr,一个框架,需要光谱归一化之间的计算卷积和关注。他们的方法取得更好的结果比基线上训练时高光谱医学图像。王et al。(2021)提出TransBTS,利用3 d CNN提取输入表示。UNet变压器了小et al。(2021)在变压器,取代self-attention模块通过卷积编码器/解码器细胞块和批量标准化计算。另一个尝试是Swin-UNet (曹et al ., 2021),而不是代替卷积模块与self-attention UNet-Structure网络模块。几个工作遵循类似的方法包括UNETR (Hatamizadeh et al ., 2022 b),斯温UNETR (Hatamizadeh et al ., 2022 a),CoTr (谢et al ., 2021),nnFormer (周et al ., 2021),DS-TransUNet (林et al ., 2022),UTNet (高et al ., 2021)和PNS-Net (霁et al ., 2021)。在UNETR,作者提出了一种新颖的3 d变压器编码器和voxel-wise损失模型的训练。位置嵌入,他们从视觉变压器领养了一个策略,将3 d图像划分为3 d补丁。解码器的工作由几种卷积模块在不同的维度和跳过连接编码器。斯温的UNETR提出了3D多核磁共振大脑图像研究,不同于斯温UNET提出的2 d图像。CoTr利用一个DeTrans-encoder小说关注机制和CNN-based解码器。nnFormer利用CNN的编码器,它利用CNN结构的局部特征提取的能力。此外,它利用变压器结构的译码器和编码器的第二部分。有两个我们的3里程计和nnFormer之间的区别。首先,我们利用CNN-based结构(即。,正确的3 dunet)作为我们的译码器的一部分。然后,我们设计一个注意力机制,计算关注分数从不同的方向。

上述方法调整变压器在视觉任务通过引入自己的位置嵌入规则。虽然这些规则在一定程度上是有用的,他们的表现都患有切片的三维数据调整位置嵌入。在这项研究中,位置不需要嵌入技术,即使是3 d数据。我们修改多头的注意力从原来的形式精确计算方案,充分利用变压器和UNet的潜力。更重要的是,我们的编码器是一个精致的双向变压器,从三个(即学习功能。,x, y, z)同时方向。1

3所示。方法

我们提出一个3 d UNet-based框架与双向变形金刚(名为3里程计)在这工作。中的self-attention机制提出了双向变形金刚可以提高泛化能力框架的编码器。在本节中,我们将深入研究技术细节。

所示图1,我们建议3差是一个encoder-decoder框架,在编码器由两个模块包括特征提取模块(参见第一部分图1)和双向变压器模块(见第二部分图1)。三维图像 h × w × d × c ,在那里h,w,d图像的形状和吗c是图像通道数,3 d图像的特征提取模块项目作为一个潜在的表示X通过基本卷积神经网络(cnn)。然后,3 d细胞双向变压器潜伏性表示X作为输入,并产生掩盖了潜在的表示X通过使用Masked-LM(传销)(Devlin et al ., 2018一步一步。最后,利用解码器部分掩盖了潜在的表示重建细分预测损失计算。

图1
www.雷竞技rebatfrontiersin.org

图1。图3系统框架的encoder-decoder设置。编码器由两部分组成包括特征提取和双向变压器。

3.1。编码器与3 d双向变压器

正如上面提到的,编码器的3系统由两部分组成。第一部分的编码器是一个CNN-based特征提取模块。我们的目标是将原来的3 d图像()到一个iso-dimensional潜伏立方体表示( X 1 × p × p × p )通过这个模块作为变压器的援助来捕获图像位置模块,由于变压器模块可能没有足够的能力来捕获图像局部特性。在烧蚀研究我们将展示这一点。特别是,特征提取模块包括两个卷积层之后,全(FC)层和一层max-pooling在两个卷积层之间。FC层是用来适应特征维度。

双向变换器模块需要的多维数据集表示X作为输入,并计算多头关注传销策略(Devlin et al ., 2018)。双向变换器模块所示的细节图2。一般来说,每个细胞的双向变压器模块生成地图的功能X1通过以下步骤:

X = 一个 t t ( N o r ( X ) ) + X , X = F F ( N o r ( X ) ) , X 1 = X + X , ( 1 )

在哪里丙氨酸(·)是多头self-attention操作,规范(·)是一个3 d规范化操作,和FF(·)前馈层(即。FC层)。+表示pixel-wise添加操作。特别是,多头注意计算如下:

一个 t t _ h e 一个 d x , y , z = 年代 D P ( , K , V ) × W , u l t H e 一个 d ( , K , V ) = C o n c 一个 t ( h e 一个 d x , h e 一个 d y , h e 一个 d z ) , ( 2 )

在哪里SDP(·)是按比例缩小的点积的注意,W是可训练的参数线性预测(例如,l,lk,lv图2),Concat(·)代表一个连接操作。问,K,V是定义的query-key-value三胞胎变压器单元。注意,我们建议关注机制可以产生关注分数通过扫描query-key-value三胞胎(即在三个不同的方向。,x, y,和z轴,分别),获得丰富的歧视和各向异性三维图像分割的语义信息。

图2
www.雷竞技rebatfrontiersin.org

图2。编码器第二部分:双向变压器多头的注意机制。

3.2。UNet-based译码器

所示图1与上升的维度,我们利用卷积块译码器部分。剩余之间的连接采用编码器和译码器。特别是,一个级联的多通道特性映射(FM)块集成到译码器部分,其中包含两个3×3×3卷积层和一个upsampling层。特征图的通道数量每个调频块后减少了一半。在过去的调频块,而不是upsampling层,1×1×1卷积层用于生成最终的分割预测。

3.3。损失函数和监督方式

由于传销编码器部分中使用的策略是,在图像特征的一部分(即是不公开的。,设置为0的值)和其他部分保持不变。因此,我们的目标是使用了部分预测蒙面部分(Devlin et al ., 2018),损失的只是估计基于掩盖了地区。特别是,损失函数可以被制定为:

= α × d c e ( ŷ 一个 年代 k , y 一个 年代 k ) + ( 1 - - - - - - α ) × B C E ( ŷ 一个 年代 k , y 一个 年代 k ) , ( 3 )

在ŷ面具y面具是分割的蒙面区域预测和地面实况,分别。α∈[0,1]是减肥。

4所示。实验

4.1。数据集

我们使用三个数据集来自不同的模式在这项研究中,包括胎盘MRI(胎盘)数据集,COVID-19 CT肺和感染分割(Covid20)数据集,和Multi-Atlas标签超出了颅穹窿(突触)的数据集。详细的数据描述和预处理如下所示。

胎盘核磁共振数据集收集从圣路易斯的华盛顿大学(第三)(太阳et al ., 2022在处理之前),所有数据被消除识别信息。数据收集及相关研究机构审查委员会批准的第三。81核磁共振扫描收集来自46个怀孕的患者(平均年龄23.91±3.02哟,平均体重指数= 25±3.66招聘)与正常单例妊娠晚期妊娠期间接受了核磁共振,由西门子3 t维达扫描仪。46岁的患者,21和25例患者单一扫描多个纵向扫描。核磁共振扫描期间平均妊娠年龄(GA)分别为34.12±1.07周(最小GA 28周3天,最大GA 38周6天)。核磁共振造影的整个子宫的收购与2 d EPI序列在左侧侧卧位。核磁共振数据有一个固定的128×128×115收购矩阵,和变量体素的大小从3×3×3毫米到3.5×3.5×3.5毫米,病人的大小。手动分割胎盘地区是由有经验的放射科医生对所有核磁共振图像。

COVID19-CT-Seg20数据集(Covid20)包含20 COVID-19 3 d CT图像,在肺和感染是由两个放射科医生和验证了带注释的一位有经验的放射科医师2(2021年6月et al .,)。我们只专注于细分的COVID-19感染在这项研究中,因为它是更具挑战性的和重要的。

Multi-atlas标签超出了颅穹窿(突触)的数据集。3我们使用从MICCAI腹部CT扫描2015 Multi-Atlas腹部标签的挑战。这些扫描捕获在门户静脉对比阶段与可变体积大小(512×512×85 - 512×512×198)和字段的视图(大约280×280×280毫米3-500×500×650毫米3)。平面分辨率从0.54×0.54不等毫米2到0.98×0.98毫米2,而切片厚度从2.5到5.0不等毫米。我们报告的平均实验结果八腹部器官(主动脉、胆囊、脾脏、左肾、右肾,肝脏、胰腺、脾、胃)与5倍验证。

4.2。实现细节

在预处理步骤中,我们只是规范化每个三维图像的强度为零均值和方差单位。在训练阶段,我们应用数据增强技术来减少潜在的过度拟合,包括随机旋转90°形象的三个维度和调整前3%的亮度像素。训练迭代设置为105。我们训练模型使用批量大小的亚当优化器1和同步批正常化。最初的学习速率是设置为1e−2和腐烂了 ( 1 - - - - - - c u r r e n t _ e p o c h 一个 x _ e p o c h ) 0 9 。我们还与辍学正规化培训变压器细胞。所有实验都使用5倍交叉验证,进行基于Pytorch 1.7.1上工作站2 NVIDIA泰坦RTX gpu。部门公共Covid20数据集的数据是通过以下的部门策略邱et al。(2021)

正如上面提到的,我们的编码器由两部分组成。在特征提取模块中,我们使用一个CNN网络有两个卷积层,一个max-pooling层,和一个一维全层的方向xy飞机z坐标转换原始维度的表示一个立方体。第一次卷积层,3×3×3的内核大小,输入3 d图像嵌入当地表示地图,而第二个卷积层项目当地地图表示的第二部分编码器通过一个线性变换。的输出维度转换(即特征提取模块。重塑) X 1 × 256年 × 256年 × 256年 。在双向变压器模块中,我们利用多个变压器单元与双向self-attention机制。具体来说,输入嵌入策略,我们采用了蒙面LM(传销)(Devlin et al ., 2018)。蒙面LM已被证明是有用的在前面的伯特纸(Vaswani et al ., 2017),蒙面编码器相匹配的图像部分的损失计算阶段。此外,由于我们不嵌入位置编码的数据在我们的框架中,我们需要一种方法来学习3 d表示通过一个特定的序列。传销可以达到这个要求。我们变压器细胞的数量设置为12日,6日,胎盘和6,Covid20,分别和突触的数据集。头的数量在每个变压器细胞是15,其中每个方向(即,xy,xz,yz飞机)包含五头计算self-attention分数。每个面具的长度设置为16个,32岁和32个胎盘,Covid20,分别和突触的数据集。每个多维数据集分为16个部分表示在训练阶段。

4.3。基线设置和评价指标

3系统的性能评估,我们选择以下框架作为基线:2网(Ronneberger et al ., 2015),3 d U-Net (克et al ., 2016),UNet + + (周et al ., 2019),TransUNet (陈et al ., 2021),维特(视觉变压器)(Dosovitskiy et al ., 2020),nnFormer (周et al ., 2021)和nnUNet (Isensee et al ., 2021)。2 d和3 d UNet FCN-based encoder-decoder与回旋的结构块和skip-connections编码器和译码器之间。UNet + +是nested-connected encoder-decoder结构,其中每个卷积块连接到所有其他的块。TransUNet是一个encoder-decoder网络,UNet的编码器是取代了2 d变压器包括位置嵌入方案,后跟一个视觉变压器(ViT)。nnFormer是3 d UNet-type框架,取代了卷积模块有三个不同的小说关注机制。

指标用来评估我们3系统包括mIoU,骰子点数,豪斯多夫距离(HD)。借据是重叠的区域预测的分割和地面真理的面积除以它们之间的联盟。二进制(两类)或多层次分割,图像的意思是借据(mIoU)通过计算每个类和平均的借据。骰子分数谐波均值分割的精度和召回的结果。mIOU和骰子分数是两个overlap-based指标测量地面真理和分割之间的相似性预测。mIOU和骰子分数的范围从0到1,大的值表明更好的分割性能。定向平均豪斯多夫距离(HD)从X到Y点集计算最小距离的总和所有点从X到Y点集的数量除以点X高清是一个形状基于距离度量,衡量不同表面之间的分割结果和相关地面真理。低价值的高清显示出更好的性能。

4.4。比较实验

表1提供我们提出3系统的性能和六个竞争基线,包括2 d UNet (Ronneberger et al ., 2015),3 d UNet (Ronneberger et al ., 2015),UNet + + (周et al ., 2019),TransUNet (陈et al ., 2021),视觉变压器(ViT) (Dosovitskiy et al ., 2020)和nnFormer (周et al ., 2021)在胎盘和Covid20数据集。它表明我们3系统优于所有竞争基准方法始终mIOU和骰子分数在两个数据集,而跳动的大多数方法在突触的基线数据集,说明我们的模型的分割结果与地面相匹配的真理。例如,我们建议3系统优于基线至少增加0.48%和0.44%骰子胎盘和Covid20得分数据集,分别。这可能归因于注意力机制提出了3系统,可以计算出关注分数从三个不同方向产生歧视和各向异性为3 d图像语义特征。比起一般来说,的基于变压器方法(如TransUNet,维特等)执行比其他基线的方法。此外,我们3系统和可视化的分割结果最好的基线法(即。三个数据集,nnUNet)图3- - - - - -5,分别。

表1
www.雷竞技rebatfrontiersin.org

表1。量化细分不同的方法在两个数据集的结果,mIOU和骰子%。

图3
www.雷竞技rebatfrontiersin.org

图3。胎盘上的分割结果的可视化数据集由我们3差和nnUNet。列(两者)显示了x- - - - - -y飞机,y- - - - - -z飞机,x- - - - - -z面三维分割预测,分别。真阳性区域以粉色突出显示。假阴性地区突出显示 红色的 绿色圆圈区域(例如,在最后一行)。更好地与颜色和放大视图。

图4
www.雷竞技rebatfrontiersin.org

图4。可视化的感染Covid20数据集分割结果由3里程计和nnUNet。列(两者)显示了x- - - - - -y飞机,y- - - - - -z飞机,x- - - - - -z面三维分割预测,分别。真阳性区域以粉色突出显示。假阴性地区突出显示 红色的 绿色圆圈区域(例如,在最后一行)。更好地与颜色和放大视图。

图5
www.雷竞技rebatfrontiersin.org

图5。突触上的分割结果的可视化数据集由我们3差和nnUNet。列(两者)显示了x- - - - - -y飞机,y- - - - - -z飞机,x- - - - - -z面三维分割预测,分别。假阴性的绿色圆圈表示部分地区。更好地与颜色和放大视图。

4.5。烧蚀研究

我们进行了一次消融研究数据集(即。,Pl一个cent一个和Cov我d20) to evaluate the effectiveness of each part in our 3DTU framework. Our 3DTU is an encoder–decoder-based framework, where the encoder consists of a CNN networks part as well as a bi-directional transformer (BiT) part, where the decoder is in the UNet decoder setting. Hence, we designed the following four experiments in our ablation study.

•我们删除了CNN网络编码器和美联储直接输入图像的一部分。

•我们删除了部分编码器和CNN网络直接连接到UNet解码器。

•我们移除UNet解码器和考虑一样(部分)编码器和译码器。4

•我们设计对比实验训练3系统与位置编码表示。我们编码表示的输入变压器编码器。

的结果表2显示所有的附带的有效性和必要性3差。的结果表3表明位置编码我们的框架中没有必要因为我们的注意力机制可以处理3 d数据作为一个整体。相比3系统w / o位置编码,3差带来的细分骰子得分位置编码不改变甚至下降。当我们把CNN网络,只有利用一点一点的编码器(见结果+ Unet解码器表2),两个数据集上的分割性能下降(例如,骰子从84.0下降到66.9%,从92.0到72.8%在胎盘和COVID数据集,分别)。这表明一个重要的角色CNN-based卷积编码器层,而self-attention变压器层可能不精确定位原始图像像素。同时,分割的性能提升,当我们用点代替UNet作为译码器(见结果CNN + UNet解码器和CNN +一点)。这体现,与UNet-based方法相比,(双向)变压器在提高分割结果更强大。

表2
www.雷竞技rebatfrontiersin.org

表2。骰子的分数(%)3差三个数据集。

表3
www.雷竞技rebatfrontiersin.org

表3。骰子的分数(%)3系统运行数据预处理有/没有位置编码。

4.6。参数分析

我们分析两个参数的影响,包括损失重量α和变压器细胞的数量,在我们提出的分割性能3系统跨两个数据集图6。一般来说,图6分割结果表明,由我们3系统是一致的。图6骰子结果表明增加然后减少随α的增加从0到1。最好的骰子分数达到α= 0.2时胎盘和Covid20数据集。图6 b表明,分割可以改善性能增加变压器的数量从3到6细胞。然而,性能将保持稳定(胎盘数据集),甚至略有减少(Covid20数据集),当框架深入。轻微的性能下降的原因Covid20数据集可能导致体积小的数据集。只有20个3 d图像中包括Covid20数据集,可能不便于培训过程当网络深入。此外,我们的导航系统共有70 m参数(当培训Covid20数据集和突触数据集),这比2 d UNet(7米)和3 d UNet(17美元)但节拍比起其他的基于变压器或混合框架在基线(TransUNet 80参数,和nnFormer拥有158参数)。

图6
www.雷竞技rebatfrontiersin.org

图6。α和变压器的数量的影响细胞分割性能。(一)3系统与α的骰子。(B)骰子的导航系统和变压器细胞的数量。

5。结论

在本文中,我们提出一个新颖的3 d变压器UNet(3差)框架来捕捉全球三维医学图像分割的上下文信息。提出了一种新的注意力机制与我们3系统框架,特别适用于计算self-attentions 3 d对象。实验结果在两个三维医学图像数据表明,我们的方法可以胜过几个先进的分割基线。在未来,我们打算探索如何减少变压器的计算负载层,这可能提高比起最新的基于变压器的效率的方法。

数据可用性声明

Covid20数据集是由冠状病毒疾病的社区Research-COVID-19 (2021年6月et al .,),是可用的通过https://zenodo.org/record/3757476 .Y1NGmy1h1B1。胎盘数据是可用的。

作者的贡献

XF负责构思、设计、实现方法,统计分析,写作手稿。z和YW负责数据收集和预处理。z, EZ、HH和YW负责实验设计,结果讨论,和手稿校对。HT和LZ负责工程设计,分析,解释,和手稿编写/修改。所有作者的文章和批准提交的版本。

资金

本项目部分由NSF IIS支持2045848和NIH / NICHD (R01HD094381和R01HD104822),以及由Burroughs Wellcome基金早产倡议(NGP10119)和比尔和梅林达•盖茨基金会(发票发票- 005417 - 035476,和发票- 037302)。

确认

我们感谢极端环境科学与工程发现(XSEDE),由国家科学基金会(NSF)支持格兰特aci - 1548562和NSF奖号码aci - 1445606,提供计算资源基于匹兹堡超级计算中心(PSC)我们工作的一部分。我们想欣赏努力奉献社会的冠状病毒疾病Research-COVID-19 Zenodo收集和分享COVID-19 CT图像数据集。同时,我们感谢华盛顿大学圣路易斯胎盘收集和共享数据的核磁共振数据集分割算法的评价。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

脚注

1。^我们使用术语“双向”遵循先前的研究。然而,我们3系统从三个方向的特性,而不是学习。

2。^https://zenodo.org/record/3757476 .Y1NGmy1h1B1

3所示。^https://www.synapse.org !突触:syn3193805 / wiki / 217789

4所示。^它显示在Devlin et al。(2018)双向的变压器可以作为编码器和译码器。

引用

Badrinarayanan, V。肯德尔,。,C我poll一个,R. (2017). Segnet: a deep convolutional encoder-decoder architecture for image segmentation.IEEE反式。模式。肛交。马赫。智能。39岁,2481 - 2495。doi: 10.1109 / TPAMI.2016.2644615

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

曹,H。,W一个ng, Y., Chen, J., Jiang, D., Zhang, X., Tian, Q., et al. (2021). Swin-Unet: unet-like pure transformer for medical image segmentation.arXiv预印本arXiv: 2105.05537。doi: 10.48550 / arXiv.2105.05537

CrossRef全文|谷歌学术搜索

陈,J。陆,Y。余问。,luo,X。埃德里E。王,Y。,et一个l。 (2021). TransUnet: transformers make strong encoders for medical image segmentation.arXiv预印本arXiv: 2102.04306。doi: 10.48550 / arXiv.2102.04306

CrossRef全文|谷歌学术搜索

陈,L.-C。、朱、Y。,P一个p和reou,G., Schroff, F., and Adam, H. (2018). “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in计算机视觉的欧洲会议(大会)(Cham: Springer), 801 - 818。

谷歌学术搜索

陈,Y。,Rohrbach, M., Yan, Z., Shuicheng, Y., Feng, J., and Kalantidis, Y. (2019). “Graph-based global reasoning networks,” in《IEEE / CVF计算机视觉与模式识别会议(长滩,CA: IEEE), 433 - 442。

谷歌学术搜索

陈,Y。,W一个ng, Z., Peng, Y., Zhang, Z., Yu, G., and Sun, J. (2018). “Cascaded pyramid network for multi-person pose estimation,” in《IEEE计算机视觉与模式识别会议(盐湖城犹他:IEEE), 7103 - 7112。

谷歌学术搜索

曹,K。,V一个n米err我ënboer, B., Bahdanau, D., and Bengio, Y. (2014). On the properties of neural machine translation: encoder-decoder approaches.arXiv预印本arXiv: 1409.1259。doi: 10.3115 / v1 / w14 - 4012

CrossRef全文|谷歌学术搜索

克,O。,一个bdulkadir, A., Lienkamp, S. S., Brox, T., and Ronneberger, O. (2016). “3D U-Net: learning dense volumetric segmentation from sparse annotation,” in医学影像计算和计算机辅助介入的国际会议(雅典:Springer), 424 - 432。

谷歌学术搜索

Devlin, J。,Ch一个ng, M.-W., Lee, K., and Toutanova, K. (2018). Bert: pre-training of deep bidirectional transformers for language understanding.arXiv预印本arXiv: 1810.04805。doi: 10.48550 / arXiv.1810.04805

CrossRef全文|谷歌学术搜索

Diakogiannis, f I。瓦尔德内尔,F。,C一个ccett一个,P。吴,c (2020)。Resunet-a:深入学习遥感数据的语义分割的框架。ISPRS j .传真电报。远程Sens。162年,94 - 114。doi: 10.1016 / j.isprsjprs.2020.01.013

CrossRef全文|谷歌学术搜索

Dosovitskiy,。拜尔,L。,Kole年代n我kov,一个。,We我年代senborn, D., Zhai, X., Unterthiner, T., et al. (2020). An image is worth 16x16 words: transformers for image recognition at scale.arXiv预印本arXiv: 2010.11929。doi: 10.48550 / arXiv.2010.11929

CrossRef全文|谷歌学术搜索

高,Y。,Zhou, M., and Metaxas, D. N. (2021). “Utnet: a hybrid transformer architecture for medical image segmentation,” in医学影像计算和计算机辅助介入的国际会议(斯特拉斯堡:Springer), 61 - 71。

谷歌学术搜索

格拉汉姆·古德费勒,我。,Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., et al. (2014). “Generative adversarial nets,”进步神经信息处理系统27。蒙特利尔,QC。

谷歌学术搜索

Hatamizadeh,。纳,V。唐,Y。杨,D。罗斯,H。,Xu,D。(2022一个)。斯温unetr:斯温变形金刚为语义分割脑部肿瘤的mri图像。arXiv预印本arXiv: 2201.01266。doi: 10.1007 / 978 - 3 - 031 - 08999 - 2 - _22

CrossRef全文|谷歌学术搜索

Hatamizadeh,。唐,Y。纳,V。杨,D。,米yronenko,一个。, Landman, B., et al. (2022b). “UNETR: transformers for 3d medical image segmentation,” in《IEEE / CVF冬季会议在计算机视觉的应用(Waikoloa你好:IEEE), 574 - 584。

《公共医学图书馆摘要》|谷歌学术搜索

他,K。,张X。,Ren, S., and Sun, J. (2016). “Deep residual learning for image recognition,” in《IEEE计算机视觉与模式识别会议(拉斯维加斯,NV: IEEE), 770 - 778。

《公共医学图书馆摘要》|谷歌学术搜索

Hochreiter, S。,年代ch米我dhuber, J. (1997). Long short-term memory.神经第一版。9日,1735 - 1780。doi: 10.1162 / neco.1997.9.8.1735

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

黄,H。林,L。,Tong, R., Hu, H., Zhang, Q., Iwamoto, Y., et al. (2020). “Unet 3+: a full-scale connected unet for medical image segmentation,” inICASSP 2020 - 2020年IEEE国际会议音响、演讲和信号处理(ICASSP)(巴塞罗那:IEEE), 1055 - 1059。

谷歌学术搜索

Isensee F。,Jaeger, P. F., Kohl, S. A., Petersen, J., and Maier-Hein, K. H. (2021). NNU-Net: a self-configuring method for deep learning-based biomedical image segmentation.Nat方法。18日,203 - 211。doi: 10.1038 / s41592 - 020 - 01008 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

霁,G.-P。,Chou,Y.-C., Fan, D.-P., Chen, G., Fu, H., Jha, D., et al. (2021). “Progressively normalized self-attention network for video polyp segmentation,” in医学影像计算和计算机辅助介入的国际会议(斯特拉斯堡:Springer), 142 - 152。

谷歌学术搜索

贾,H。,Tang, H., Ma, G., Cai, W., Huang, H., Zhan, L., et al. (2021). PSGR: pixel-wise sparse graph reasoning for covid-19 pneumonia segmentation in ct images.arXiv预印本arXiv: 2108.03809。doi: 10.48550 / arXiv.2108.03809

CrossRef全文|谷歌学术搜索

小君,M。,Yixin, W., Xingle, A., Cheng, G., Ziqi, Y., Jianan, C., et al. (2021). Toward data-efficient learning: A benchmark for COVID-19 CT lung and infection segmentation.地中海,物理。48岁,1197 - 1210。

《公共医学图书馆摘要》|谷歌学术搜索

Krizhevsky,。,年代ut年代kever,我。, and Hinton, G. E. (2012). “Imagenet classification with deep convolutional neural networks,” in神经信息处理系统的进步25。太浩湖。

谷歌学术搜索

李,J。,陈,J。,Tang, Y., Landman, B. A., and Zhou, S. K. (2022). Transforming medicalimaging with transformers? a comparative review of key properties, current progresses, and future perspectives.arXiv预印本arXiv: 2206.01136。doi: 10.48550 / arXiv.2206.01136

CrossRef全文|谷歌学术搜索

李X。,Yang, Y., Zhao, Q., Shen, T., Lin, Z., and Liu, H. (2020). “Spatial pyramid based graph reasoning for semantic segmentation,” in《IEEE / CVF计算机视觉与模式识别会议(西雅图:IEEE), 8950 - 8959。

谷歌学术搜索

李,Y。,Gupta, A. (2018). “Beyond grids: learning graph representations for visual recognition,” in神经信息处理系统的进步。蒙特利尔。

谷歌学术搜索

Lin。,Chen,B。徐,J。,Zhang, Z., Lu, G., and Zhang, D. (2022). Ds-transunet: dual swin transformer u-net for medical image segmentation.IEEE反式。Instrum。量。71年,4005615。doi: 10.1109 / TIM.2022.3178991

CrossRef全文|谷歌学术搜索

刘,M。,Cheng, D., Wang, K., and Wang, Y. (2018). Multi-modality cascaded convolutional neural networks for alzheimer's disease diagnosis.Neuroinformatics16,295 - 308。doi: 10.1007 / s12021 - 018 - 9370 - 4

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

刘,M。,米一个我t我,P。、Thomopoulos年代。朱,。,Ch一个我, Y., Kim, H., et al. (2021). “Style transfer using generative adversarial networks for multi-site mri harmonization,” in医学影像计算和计算机辅助介入的国际会议(斯特拉斯堡:Springer), 313 - 322。

《公共医学图书馆摘要》|谷歌学术搜索

刘,M。,Zhu, A., Maiti, P., Thomopoulos, S. I., Gadewar, S., Chai, Y., et al. (2022). Style transfer generative adversarial networks to harmonize multi-site mri to a single reference image to avoid over-correction.bioRxiv。doi: 10.1101 / 2022.09.12.506445

CrossRef全文|谷歌学术搜索

长,J。,年代helh一个米er,E。,和 Darrell, T. (2015). “Fully convolutional networks for semantic segmentation,” in《IEEE计算机视觉与模式识别会议(波士顿,MA: IEEE), 3431 - 3440。

谷歌学术搜索

能剧,H。,Hong, S., and Han, B. (2015). “Learning deconvolution network for semantic segmentation,” in《IEEE计算机视觉国际会议(圣地亚哥:IEEE), 1520 - 1528。

谷歌学术搜索

锅,X。,Zhao, Y., Chen, H., Wei, D., Zhao, C., and Wei, Z. (2020). Fully automated bone age assessment on large-scale hand x-ray dataset.Int。j .生物医学。成像2020年,8460493。doi: 10.1155 / 2020/8460493

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Parmar, N。,Vaswani)。,Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., et al. (2018). “Image transformer,” in国际会议上机器学习。(Stockholmsmassan: PMLR), 4055 - 4064。

谷歌学术搜索

珀蒂,O。,Thome, N., Rambour, C., Themyr, L., Collins, T., and Soler, L. (2021). “U-net transformer: self and cross attention for medical image segmentation,” in国际研讨会在医学成像机器学习。(斯特拉斯堡:Springer), 267 - 276。

《公共医学图书馆摘要》|谷歌学术搜索

秋,Y。,l我u,Y., Li, S., and Xu, J. (2021). Miniseg: an extremely minimum network for efficient COVID-19 segmentation.Proc。AAAI相依Artif。智能。35岁,4846 - 4854。doi: 10.1609 / aaai.v35i6.16617

CrossRef全文|谷歌学术搜索

Ronneberger, O。费舍尔,P。,Brox,T. (2015). “U-Net: convolutional networks for biomedical image segmentation,” in医学影像计算和计算机辅助介入的国际会议(慕尼黑:Springer), 234 - 241。

谷歌学术搜索

Simonyan, K。,Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition.arXiv预印本arXiv: 1409.1556。doi: 10.48550 / arXiv.1409.1556

CrossRef全文|谷歌学术搜索

太阳,Z。,Wu,W。,Zhao, P., Wang, Q., Woodard, P., Nelson, D., et al. (2022). Dual-contrast mri reveals intraplacental oxygenation patterns, detects placental abnormalities and fetal brain oxygenation.超声波Obstetr。Gynecol。doi: 10.1002 / uog.24959

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Tokunaga, H。,Teramoto, Y., Yoshizawa, A., and Bise, R. (2019). “Adaptive weighting multi-field-of-view cnn for semantic segmentation in pathology,” in《IEEE / CVF计算机视觉与模式识别会议(长滩,CA: IEEE), 12597 - 12606。

谷歌学术搜索

Valanarasu, J·m·J。Oza, P。,H一个c我h一个l我loglu, I., and Patel, V. M. (2021). “Medical transformer: gated axial-attention for medical image segmentation,” in医学影像计算和计算机辅助介入的国际会议(斯特拉斯堡:Springer), 36-46。

谷歌学术搜索

Vaswani)。,年代h一个zeer,N。Parmar, N。,Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). “Attention is all you need,” in神经信息处理系统的进步30(长滩会议及娱乐中心)。

谷歌学术搜索

王,W。,Chen,C。丁,M。Yu, H。,Zha, S., and Li, J. (2021). “Transbts: multimodal brain tumor segmentation using transformer,” in医学影像计算和计算机辅助介入的国际会议(斯特拉斯堡:Springer), 109 - 119。

《公共医学图书馆摘要》|谷歌学术搜索

谢,Y。,张,J。,年代hen,C。,和X我一个, Y. (2021). “COTR: efficiently bridging cnn and transformer for 3D medical image segmentation,” in医学影像计算和计算机辅助介入的国际会议(斯特拉斯堡:Springer), 171 - 180。

谷歌学术搜索

杨,Z。,胡锦涛,Z。,年代一个l一个khutd我nov,R., and Berg-Kirkpatrick, T. (2017). “Improved variational autoencoders for text modeling using dilated convolutions,” in国际会议上机器学习(PMLR长滩会议及娱乐中心),3881 - 3890。

谷歌学术搜索

Yu F。,Koltun,V。(2015)。 Multi-scale context aggregation by dilated convolutions.arXiv预印本arXiv: 1511.07122。doi: 10.48550 / arXiv.1511.07122

CrossRef全文|谷歌学术搜索

Yun, B。,W一个ng, Y., Chen, J., Wang, H., Shen, W., and Li, Q. (2021). Spectr: spectral transformer for hyperspectral pathology image segmentation.arXiv预印本arXiv: 2103.03604。doi: 10.48550 / arXiv.2103.03604

CrossRef全文|谷歌学术搜索

张,J。,Zhou, L., Wang, L., Liu, M., and Shen, D. (2022). Diffusion kernel attention network for brain disorder classification.IEEE反式。医疗成像。41岁,2814 - 2827。doi: 10.1109 / TMI.2022.3170701

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

张X。邹,Y。,年代h我,W。(2017). “Dilated convolution neural network with leakyrelu for environmental sound classification,” in2017年22日国际会议上数字信号处理(DSP)(伦敦:IEEE), 1 - 5。

谷歌学术搜索

周,H.-Y。郭,J。,Zhang, Y., Yu, L., Wang, L., and Yu, Y. (2021). nnFormer: Interleaved transformer for volumetric segmentation.arXiv预印本arXiv: 2109.03201。doi: 10.48550 / arXiv.2109.03201

CrossRef全文|谷歌学术搜索

周,Z。,年代我dd我问uee,米。米. R., Tajbakhsh, N., and Liang, J. (2019). Unet++: redesigning skip connections to exploit multiscale features in image segmentation.IEEE反式。医疗成像。39岁,1856 - 1867。doi: 10.1109 / TMI.2019.2959609

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:语义分割,COVID,肺、胎盘、变压器、3 d UNet, CT, MRI

引用:太阳傅X, Z,唐H,邹EM,黄H,王詹Y L (2023) 3 d双向变压器U-Net医学图像分割。前面。大数据5:1080715。doi: 10.3389 / fdata.2022.1080715

收到:2022年10月26日;接受:2022年12月06;
发表:2023年1月6日。

编辑:

全新课题王美国普渡大学

审核:

黄气美国犹他大学的
Mengting刘、中山大学、中国

版权©2023 Fu,太阳,唐、邹、黄,小王和詹。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:Haoteng唐、是的haoteng.tang@pitt.edu;梁詹是的liang.zhan@pitt.edu

下载