PAC-Net: Multi-pathway红外系统与位置注意引导连接和顶点距离借据为三维医学图像检测
- 1国家重点实验室电气设备的可靠性和情报,健康科学与生物医学工程学院,河北科技大学,天津,中国
- 2放射学、海南妇女和儿童的医疗中心,海口,中国
- 3计算机科学和软件工程学院,广东实验室人工智能和数字经济(深圳)、深圳大学、深圳,中国
- 4计算机科学部门,牛津大学,英国牛津大学
医学图像自动检测的目的是利用人工智能技术在医学图像准确、高效地检测病变,这是最重要的一个任务在计算机辅助诊断(CAD)系统中,并且可以嵌入到便携式成像设备(PoC)诊断智能的照顾。基于特征金字塔网络(红外系统)模型广泛应用deep-learning-based自动医学图像检测的解决方案。然而,FPN-based医疗损伤检测模型有两个缺点:对象的位置偏移问题,退化IoU-based损失的问题。因此,在这项工作中,我们提出一个新颖的FPN-based骨干模型,即。,米ulti-Pathway Feature Pyramid Networks with Position Attention Guided Connections and Vertex Distance IoU (abbreviated as PAC-Net), to replace vanilla FPN for more accurate lesion detection, where two innovative improvements, a position attention guided connection (PAC) module and Vertex Distance IoU Vertex Distance Intersection over Union loss, are proposed to address the above-mentioned shortcomings of vanilla FPN, respectively. Extensive experiments are conducted on a public medical image detection dataset, i.e., Deeplesion, and the results showed that i) PAC-Net outperforms all state-of-the-art FPN-based depth models in both evaluation metrics of lesion detection on the DeepLesion dataset, ii) the proposed PAC module and VDIoU loss are both effective and important for PAC-Net to achieve a superior performance in automatic medical image detection tasks, and iii) the proposed VDIoU loss converges more quickly than the existing IoU-based losses, making PAC-Net an accurate and also highly efficient 3D medical image detection model.
1介绍
医学图像自动检测的目的是利用人工智能技术在医学图像准确、高效地检测病变,这是最重要的一个任务在计算机辅助诊断(CAD)系统中,可以嵌入到便携式成像设备和智能的保健(PoC)诊断(另一位名叫et al ., 2021)。最近,和人工智能的不断发展,deep-learning-based方法已经开始发挥重要作用在医学图像自动检测(王et al ., 2018;王et al ., 2017;李et al ., 2018)。Deep-learning-based检测模型,利用卷积神经网络(cnn)学习输入图像的特性,如香草R-CNN更快(任et al ., 2015有人知道由罗()和香草Redmon et al ., 2016),已越来越多地采用医学图像检测任务。
然而,医学图像的检测通常是更加困难比在自然图像检测对象,因为两个原因:1)对象之间的相似性和医学图像的背景是高于自然图像,从而提高目标检测的难度(格林斯潘et al ., 2016),2)医学图像通常包含小而重要的损伤和器官为检测对象,其详细信息可能会丢失在深卷积处理功能学习(任et al ., 2018)。因此,为了更好的学习功能,医学图像检测工作基于模型如更快R-CNN和YOLO(意思李et al ., 2019;唐et al ., 2019;赵et al ., 2019;Zlocha et al ., 2019)主要介绍了特征金字塔网络(红外系统)(林et al ., 2017 a)来取代传统的有线电视新闻网的功能学习骨干。具体来说,不同与传统的cnn,红外系统第一次使用卷积的自下而上的路径提取特征,然后添加一个自上而下途径upsample高级特性,然后将它们与上一层相应的横向连接特性。通过使用红外系统为骨干,先进的检测模型可以融合不同的范围和深度的特点功能的过程中学习,使学习特征信息更加丰富和完整,避免损失的详细信息(他et al ., 2017年;刘et al ., 2018)。例如(Zlocha et al ., 2019),使用红外系统为骨干的视网膜检测模型来实现病变在CT图像的检测。类似的(赵et al ., 2019),提出了一种FPN-based PFA-ScanNet乳腺癌的检测。此外,要充分利用丰富的空间上下文信息在三维医学数据集(李et al ., 2019),提出了一种FPN-based MVP-Net使用three-pathway输入帮助网络学习空间上下文信息的特点在3 d CT图像,取得了良好的检测结果。
然而,现有的检测模型主要受到两个缺点:我)对象的位置偏移问题(林et al ., 2017 a):实现融合的多尺度特性,红外系统需要upsample自上而下的金字塔的每一层的特点,然后填补扩大与最近邻插值像素。这将不可避免地导致对象的位置的偏移。虽然红外系统融合特性与自下而上的精确位置信息横向连接补救位置偏移的问题,简单的横向连接并不能完全解决问题。因此,红外系统仍有位置偏移的问题。然而,物体的位置信息的检测是很重要的。当的位置检测对象是地图转移的特性,它将不可避免地使该地区建议(RPs)选择偏离项输入图像中对象的实际位置在某种程度上,造成检测的不准确。(二)IoU-based损失降低的问题(郑et al ., 2020):大多数现有的作品使用原借据损失(Yu et al ., 2016)或IoU-based损失函数,如GIoU (Rezatofighi et al ., 2019)和DIoU (郑et al ., 2020)。但大多数人有一定的问题,如借据损失只有法官基于借据bbox质量从而导致给相同的石头剪刀在面对不同的质量损失。虽然GIoU或DIoU考虑其他因素,当存在一个相互包容的rp和地面真理(GT)盒子,或存在一些rp的GT的中心点的距离,计算GIoU普通借据和DIoU将降低损失,从而错误地得到相同的借据损失价值bboxes不同的质量,从而影响模型训练的速度和精度。
因此,在这项工作中,我们提出一个新颖的Multi-Pathway红外系统与位置注意引导连接和顶点距离借据模型,命名PAC-Net,对三维医学图像检测。一般来说,PAC-Net地址上面的两个问题,首先提出了一个新职位的注意力引导连接模块救济对象的位置偏移问题引起的upsampling操作红外系统,然后提出一种新奇的顶点距离借据(VDIoU)损失来解决现有的问题不准确计算IoU-based损失。具体地说,我们第一次添加位置注意引导块原始红外系统的横向连接,导致位置注意引导连接(PAC)模块。不同于现有的空间注意和通道注意机制,提出PAC模块生成位置权重矩阵映射特性映射的自下而上的路径通过卷积的一层隐藏空间,然后计算不同地区之间的依赖关系转换特征图;然后乘以位置权重矩阵生成的特征图谱upsampling自上而下的金字塔的执行位置偏移对象上的复苏。小说的位置权重矩阵是有效的,因为它是计算从原始特征与精确的位置信息,它可以增强在该地区的特性对象的确切位置地图上自顶向下的特性和抑制特性在其他地区执行的位置收缩抵消对象。
PAC-Net的另一优点是提出一个新的顶点距离借据(VDIoU)损失来解决现有问题的准确计算IoU-based损失。借据损失是一个简单的方法来确定质量的RPs基于借据,但它有相同的损失不同RPs在许多情况下,从而影响网络的学习能力。现有IoU-based损失都是基于添加新的借据损失处罚条款,常见的GIoU以最低的非重叠区域封闭框RP和GT之间作为惩罚项,和其他常见DIoU以RP和GT质心之间的距离作为惩罚项。然而,当RPs和GTs包含彼此,GIoU退化到一个共同的借据。当石头剪刀GTs质心的距离一样,DIoU不能准确地评估这些石头剪刀的质量,因为他们有相同的DIoU损失。基于DIoU意识解决的问题DIoU通过引入比例作为额外的惩罚项。然而,由于意识包括逆的计算三角函数,其计算复杂度很大程度上导致使用超过损失。因此,我们提出了顶点距离借据(VDIoU)损失:它建立在借据损失通过计算之间的距离之和RP和GT的四个顶点,然后除以最低封闭盒子的对角线距离作为惩罚项。它不仅考虑了距离RP和GT还间接考虑长宽比的对角线距离除以最低封闭盒子。因此,它没有GIoU或DIoU的问题,及其计算比意识更简单。 In this work, we fuse PAC-Net as the backbone of the Faster-RCNN detection framework to improve the performance of medical image detection. Actually, PAC-Net can also be applied as a feature learning backbone in other detection models, such as YOLO and RetinaNet, to help them perform better.
本文的主要贡献如下:
•我们识别现有的缺点FPN-based检测模型,对象位置偏移的问题和IoU-based损失计算不准确,并提出一种新型Multi-Pathway红外系统与位置注意引导连接和顶点距离借据模型,PAC-Net,实现更精确的三维医学图像检测。
•我们首先提出一个新职位的关注块的横向连接红外系统生成一个位置权重矩阵,因此进口位置恢复解决upsampled特性映射对象位置偏移问题。这时,一个顶点距离借据(VDIoU)提出的损失进一步计算顶点之间的距离RP和GT的对角线长度除以最低封闭盒子借据损失的惩罚项,这避免了计算不准确的问题(DIoU和GIoU)或大型计算复杂性(意识)IoU-based损失计算。
•我们在DeepLesion数据集进行了广泛的实验研究(柯et al ., 2018),结果表明:1)PAC-Net明显优于最先进的FPN-based检测基线DeepLesion数据集。(二)提出了改进模块、PAC和VDIoU损失,都是有效的和必要的PAC-Net实现DeepLesion数据集上的性能优越。iii)拟议中的VDIoU损失收敛速度比现有的IoU-based损失,使PAC-Net准确和高效的三维医学图像检测模型。
2相关工作
2.1自动医学图像检测
当前deep-learning-based对象检测模型可以主要分为两类:1)两阶段模型,例如,Faster-RCNN (任et al ., 2015),2)单程模型,例如,YOLO(意思Redmon et al ., 2016)。基于RCNN R-CNN快速发展,保留R-CNN的总体框架(Girshick et al ., 2014),然后使用该地区建议网络(RPN)而不是选择性搜索(SS)生成地区建议输入后续网络分类和回归。通过使用RPN更快R-CNN实现更快和更准确的检测。提出了加快R-CNN的各种扩展,如瀑布R-CNN (Cai和塞·伐斯冈萨雷斯,他2018年)和面具R-CNN (他et al ., 2017年)。与两阶段模型,YOLO,意思最著名的单程方法,使用一个统一的网络直接预测整个特性映射而不是RPs分类和bbox预测,从而大大提高检测的速度。在此基础上,广泛的其他单程模型或框架已经提出,如YOLOv2 (Redmon和哈蒂,2017年),YOLOv3 (Redmon和哈蒂,2018年)和RetinaNet (林et al ., 2017 b)。
所有上述模型已经非常广泛用于医学图像自动检测。然而,为了利用多尺度特性更好的学习在医学图像的详细信息,其中大部分作品用红外系统代替传统的有线电视新闻网为特征的学习。例如,(Zlocha et al ., 2019),用红外系统的支柱RetinaNet和弱RECIST标签作为辅助监督实现病变CT图像的检测。PFA-ScanNet (赵et al ., 2019)提出了使用红外系统提取的局部和全局特征不同的接受字段来实现自动检测癌症转移从整个幻灯片图片(WSIs)。此外,(蔡,彭,2022红外系统),用于网络特征提取,然后用双头多任务管理方法与全球和本地标签来提高网络的学习能力特点,为不同的任务,然后把不同的数据增强方法正面作出不同的正面的网络实现好的结果从而提高肺结节检测能力(Sheoran et al ., 2022)。提出一个健壮的单级FPN-based anchor-free病变检测网络,可提高使用的预测框可以correlation-ranked根据他们的中心而不是重叠的对象在不同的病变大小达到良好的检测能力。此外,为了充分利用丰富的空间上下文信息在三维医学数据(李et al ., 2019),提出了一个FPN-based MVP-Net使用three-pathway输入帮助网络学习的详细特性更好,导致一个好的结果在3 d CT损伤检测。我们的工作类似于MVP-Net,但重要的区别在于MVP-Net协助网络添加,提高检测精度z设在片的位置信息作为额外的信息。同时,它并没有解决位置抵消红外系统网络结构中存在的问题。虽然我们的工作也集中在医学图像自动检测,我们确定了位置偏移和IoU-based损失函数退化问题在现有的工作和提出一个位置注意引导连接(PAC)模块和顶点距离借据(VDIoU)损失要解决这些问题,分别。
2.2注意机制
注意机制是广泛用于目标检测任务,帮助网络更加关注那些重要的地区改善检测结果(徐et al ., 2022;徐et al ., 2019)。(周et al ., 2019)使用检测GT作为细分标签和学习它的特性作为注意力地图融合到原始特征映射到抑制背景提高检测结果(黄et al ., 2020)。基于转置的梯度张量在空间注意和渠道产生反向的注意特征图谱敦促网络检测对象的基于部分不太敏感的对象(朱et al ., 2018)。结合区域的信息与全球和本地的信息对象来提高检测性能通过使用级联注意结构感知全球关注图和编码图注意到网络获取本地对象的知觉特征(林et al ., 2021)。提出一个关注正规化模块属性的局部和全局一致性和相互知识转移,使用类激活地图(摄像头)的图像分割对发现额外的监督回归网络,和摄像头可以作为增强盖茨感兴趣的区域,进而促进分割任务。不同于这些作品,我们专注于医学图像检测任务,和我们的立场关注针对upsampling在红外系统业务过程中遇到的位置偏移的问题。计算不同地区之间的关系基于特征映射没有位置偏移生成位置权重矩阵来帮助恢复位置偏移的问题。
2.3 IoU-based损失函数
IoU-based损失函数是广泛用于目标检测的任务。原借据损失(Yu et al ., 2016)作为质量评价标准的地区建议计算cross-merge比率RP和GT。基于借据损失,其他IoU-based损失的方法添加其他因素来判断处罚条款计算损失函数。GIoU损失(Rezatofighi et al ., 2019)的非重叠区域最小封闭盒子RP和GT之间的惩罚项。DIoU损失(郑et al ., 2020)质心之间的距离RP和GT的惩罚项。DIoU损失,意识丧失(郑et al ., 2020)另外相似比例的RP和GT的惩罚项。然而,GIoU DIoU损失将退化普通借据损失在某些情况下,意识丧失的高计算复杂度并不是有利于训练速度。因此,我们建议VDIoU损失,解决上述问题和计算复杂度很低,通过计算RP和GT顶点之间的距离除以的对角线长度最小封闭箱作为惩罚项。
3的方法
为了实现精确的医学图像检测,在这个工作中,小说FPN-based模型,称为Multi-Pathway红外系统与位置注意引导连接和顶点距离借据损失(PAC-Net)。所示图1,我们用该PAC-Net代替红外系统的骨干更快R-CNN提取特征,然后喂特征到后续的RPN R-CNN网络和使用VDIoU损失计算回归损失进行训练。相比传统的红外系统,PAC-Net主要由两个额外的高级模块:SPP块和位置注意引导连接(PAC)块。为了更好的特征提取中,我们添加了SPP块红外系统的自底向上的最后一层,因为它大大增加了接受域最重要的上下文和分离特性。同时,为了解决位置信息弥补问题up-sampling操作造成的横向连接在红外系统和SPP块,我们添加位置注意(PA)每个横向连接红外系统和SPP块形成位置注意引导连接(PAC)块。特别,为了更好地专注于重要的地区,我们还添加一个self-attention-based上下文的关注(CA)模块顶层功能后SPP使他们更多地专注于重要的区域通过全球的相关权重特性。爸爸恢复的位置偏移对象位置权重矩阵相乘计算从原始特征与准确的位置信息生成的特征映射upsampling自上而下的金字塔。具体来说,特征与高层语义信息和特性准确位置信息相结合来获得更全面的表征通过精炼PAC结构由CA和爸爸共同在红外系统的顶层。此外,PAC由PA仅用于横向连接红外系统解决问题的位置信息抵消upsampling操作造成的。除此之外,我们也使用VDIoU损失而不是IoU-based损失来解决可能不准确的评估问题。
一般来说,我们使用相对应的切片三维医学图像注释为中心片和邻片上下片。片的三组输入three-pathway PAC-Net,然后接受较大的特征字段与SPP块后获得多个曲线玲珑的自下而上的金字塔。这些特性被送入upsampling自上而下的金字塔,然后通过一个PAC由CA和PA多维注意力在顶层,并与相应的融合特征图谱通过PAC与精确的空间位置信息由单独的爸爸每次upsampling更好学习的重要信息,包括语义和位置信息。然后,相应的预测功能层的三个通道连接在一起,成一个卷积1×1层。最后,被送入RPN的特性和R-CNN网络损伤检测通过计算VDIoU回归和分类损失损失。这些先进的模块的详细信息将在本节的其余部分。
3.1位置注意引导连接模块
虽然SPP块含有丰富的接受域的特征信息,并不是所有的都有用促进目标检测的性能。精度可能会减少由于边界框或区域的建议被冗余信息误导,也由于抵消upsampling操作造成的对象的位置信息。因此,去除冗余的负面影响,进一步提高特征图的表示能力,我们建议关注引导连接(PAC)模块,它可以捕获突出依赖强大的语义和精确的位置。所示图1在红外系统的顶层,PAC模块由两部分组成:1)位置关注模块(PA)和ii)中关注模块(CA);在红外系统的横向连接,PAC模块由PA。
具体来说,在顶级PAC模块,专注于给定的条件之间的语义特征映射(即。从SPP层特性)。然而,每个对象的位置信息是抵消由于upsampling操作。为了缓解这个问题,我们引入了PA,将更加注重保证空间信息。最后,CA和PA精制的特性来获得一个更全面的表示。此外,横向连接PAC模块、特征与高层语义信息的准确的位置信息结合PA的浅特征提取模块,以确保功能可以获得一个更全面的表示。
3.1.1上下文的关注
积极捕捉语义条件之间的依赖关系,我们引入一个上下文的关注(CA)模块基于self-attention机制。我们给前面的特性,包含多尺度接受域信息,到CA模块。基于这些信息特征,自适应更多关注条件之间的关系,更相关。因此,输出特性从CA将有明确的语义和包含上下文依赖性在周围的对象。
我们可以看到图1,因为歧视特征图
在哪里
在哪里
在哪里
通过计算之间的关系包含多尺度信息的特征映射的条件,网络能够更加注意上下文信息,因此更注重这些关键区域来提高检测结果。
3.1.2地位的关注
由于upsampling的影响,地图中的位置信息功能是抵消,从而影响检测的准确性。为了解决这个问题,我们提出一个新的关注模块,称为位置注意(PA)模块,它使用中的精确位置信息未取样的特征图来指导深功能丰富的上下文信息获取特征图,保持高层语义信息,准确的位置信息。
所示图1,类似于CA,我们用卷积层将给定的特征图谱。不同于CA,巴勒斯坦权力机构的输入由两部分组成,这是Pn丰富的高层语义信息和相应的特征映射Fn精确位置信息计算权重矩阵。注意矩阵,首先,我们应用两个卷积层
在哪里
在哪里
权重矩阵由浅特性提取准确的位置信息可以增强在该地区的特性对象的确切位置的地图功能和抑制功能在其他地区执行的位置收缩抵消对象。因此,功能丰富的高层语义信息地图,但偏移位置信息可以被爸爸修理获取地图功能更全面的表征能力。
3.1.3位置注意引导连接
如前所述,红外系统融合包含位置信息的高分辨率特征图谱与低分辨率特征图谱包含更多的语义信息横向连接保存位置信息的特征图尽可能多。然而,后来特征图中的位置信息丰富的语义信息改变了由于大量upsampling操作,从而影响检测精度。因此,我们添加一个PA模块的横向联系,旨在让高分辨率特性映射的位置信息指导低分辨率特性有更多的语义信息映射到尽可能恢复损坏的位置信息。具体来说,在每一层的横向连接,我们使用功能映射Pn丰富的高层语义信息但抵消地图位置信息和相应的特性Fn包含精确位置信息的输入。然后,我们将获得的结果与特征映射Pn后1×1卷积。最后,1×1卷积后,地图的输出特性Pn−1获得的预测功能映射这一层,下一层的输入。
3.2 VDIoU损失
基于最初的借据,许多评价因素是来源于丰富评价维度从不同的方面对先前的借据。原借据损失的计算只考虑重叠区域。其计算公式如下:
只有重叠区域不准确地判断一个地区的质量计划(RP)。因此,借据损失评估中有一些错误的RP在某些情况下。同时,GIoU注重重叠与非重叠区域,加强评价体系的讨论。其计算公式如下:
MBR在哪里所示的最小边界矩形的面积图3。然而,GIoU显然忽视了测量RP和GT的区别。RP和GT的区别的测量包括中心点之间的距离和length-width的比率。忽略这些因素将导致GIoU无法评估一个RP是真正的多好。所示图2中在不同的位置,当rp GT内部,它们有相同的借据,GIoU损失,但很明显,这些石头剪刀的质量是不同的。边界框的好损失回归应该考虑三个重要几何措施,即。,overlap area, central point distance, and aspect ratio, which have been ignored for a long time. By combining these geometric measures, The Distance-IoU (DIoU) loss was proposed for bounding box regression, leading to faster convergence and better performance than IoU and GIoU losses. Its calculation formula is as follows:
d是GT和RP的中心点之间的距离和c的对角线长度的最小边界矩形(MBR) RP和GT见图3。但DIoU损失不能区分哪个区域建议更类似于地面实况的中心点地区建议在同一位置。此外,基于DIoU意识利用RP的长宽比的相似性和GT作为评价因子,使意识更准确评估RP的质量。其计算公式如下:
在哪里υ是:
的地方,如图3,wGT,hGTGT的宽度和高度,wRP,hRP是RP的宽度和高度。和α是:
图3。计算IoU-based损失和顶点距离借据(VDIoU)损失,红色,蓝色,和绿色虚线框代表地面真理(GT)地区的提议(RP)和最小边界矩形(MBR),分别;M, N是GT和RP的中心点,分别;c是GT和RP中心点之间的距离和d是MBR的对角线长度;A, B, C, D, E, F, G, H是GT和RP的顶点,分别。
然而,它的高计算复杂度由于使用的反三角函数计算训练速度会减慢。此外,它还可以在某些情况下失败。所示图2,当宽高比RP和GT是固定和质心之间的距离是一样的,不同位置的RP在GT的结果不影响几个借据损失上面提到的,但很明显,这些盒子有不同的品质。
因此,基于原借据损失函数,我们建议顶点距离借据(VDIoU)丧失功能。VDIoU损失函数获得通过的比例之和之间的距离相对应的四个顶点RP和GT的对角线长度最小封闭框架作为一个附加的点球的借据的损失。VDIoU损失函数收敛更快,大大减少了操作的复杂性。具体来说,顶点距离十字路口在联盟(VDIoU)间接损失是一种评价方法,探讨了相似的RP和GT没有直接测量质心之间的距离和形状的相似性但通过使用这两个题目以间接的方式。VDIoU-loss-specific公式如下所示:
在哪里
通过观察这个方程,我们可以直观地认为反向传播的过程中,模型往往会把该地区的四个顶点提议向地面的四个顶点真理,直到他们重叠。在这个过程中,重心之间的距离和长宽比的差异同时RP和GT减少。尽管VDIoU没有提到的公式质心距离和长宽比,它的计算结果是直接受到质心距离和长宽比的影响。所以最后的计算结果反映了测量之间的差异程度,RP和GT。较低的价值VDIoU代表更高程度的相似性RP和GT。
3.3 SPP块
一般来说,与一个更深的网络,接受域将会更大,更容易提取全局特征信息。然而,目标检测的性能不仅仅是与接受域呈正相关。深特征含有更多的对象类别信息,含有更多的对象的位置信息和肤浅的特性。因此,融合不同接受领域的特点和分区的特点可以提高网络的特征表征能力(王et al ., 2019)。因此,我们SPP的块添加到网络有效地使用多尺度特征信息来提高整个网络的特征表征能力。
4实验
4.1数据集
为了评估我们的表现提出了损伤检测PAC-Net任务三维医学图像,我们DeepLesion进行大量实验数据集1最大的公开数据集的多层次lesion-level注释临床医学CT图像。它是一个大型数据集与32735病变分布在32120轴向片从10594年−ΔΔCT研究4427个不同的病人。数据集不仅提供了关键包含病变的CT片,还其3 d上下文(额外的30毫米片上方和下方的关键部分,共有928020名−ΔΔCT图像)。此外,数据提供者已经将数据集分为三个子集,即。,15% of the dataset is used as the validation set (4889 lesions), another 15% is used as the test set (4927 lesions), and the rest is used as the training set (22919 lesions). In addition, unlike existing datasets that typically focus on one type of lesions, DeepLesion includes several different types of lesions, e.g., lung, liver, kidney, etc.; therefore, to better evaluate the performances of different methods under the detection tasks of different types of lesions, the dataset provider also further divides the validation set and test set, according to the different lesion detection tasks at different body parts, into eight subsets, i.e., lung (LU), abdomen (AB), mediastinum (ME), liver (LV), pelvis (PV), soft tissue (ST), kidney (KD), and bone (BN), respectively. Almost all the existing works directly adopt these two official divisions of the dataset in their experiments; to keep fair comparison, these two official divisions are also adopted for all the methods (including the proposed PAC-Net and all the baselines) in our work. The number of validation sets and test sets contained in different subsets is shown in表1。我们统一调整512 * 512的图像。
更好地展示不同的方法在不同的性能检测困难的任务,我们进一步将这八个子集部分为三种不同的检测子任务困难,即。检测任务,简单,中等,困难。简单的检测任务代表了与现有高检测精度的方法,并结合三个简单检测子集,陆,我,和LV;中检测任务代表平均检测准确性的现有方法,它结合了两种介质检测子集,PA和AB型;困难的检测任务代表了现有方法的检测精度差,三个子集相结合,检测难度高,BN, KD,圣验证集和测试集的数量中包含三种类型的检测子任务也显示在不同的困难表1。请注意,所有方法的所有实验结果显示在同一个表或图在我们的工作得到了通过实验在相同的数据集。
4.2基线
四个最先进的深模型对自然图像检测,即。,Faster R-CNN, Cascade R-CNN, YOLOv3, and RetinaNet, are used as the baselines. All the above models use FPN with ResNet-50 as the backbone. Besides, we also compare our proposed PAC-Net with two state-of-the-art methods on the DeepLesion dataset, i.e., 3DCE (燕et al ., 2018)和MVP-Net。MVP-Net使用红外系统使用多尺度信息,提高检测精度,而3 dce使用R-FCN。公平的比较,我们用红外系统3 dce替换R-FCN。和之前一样,这些方法使用ResNet50作为支柱。
4.3评价指标
接受者操作特征(FROC)自由反应曲线允许每个图像上任意异常的评估,因此常用于医疗检测任务。具体地说,医学图像的检测需要非常高的召回率,因此容忍一定数量的假阳性在一个单一的形象。因此,对于大多数医疗检测任务,敏感性不同的假阳性(FPs)在每个图像是一种常见的评价指标。此外,为了显示我们的模型更全面的性能优越,我们结果的敏感性为0.125,0.25,0.5,1、2、3、4、8 FPs DeepLesion数据集在每个图像表2。然而,尽管较高的灵敏度将会增加FPs,设置过高FPs会导致图像中太多的假阳性框,从而极大地影响了诊断和临床实践是不适用的。因此,大多数现有的作品使用灵敏度2和4 FPs作为评价指标,例如,(唐et al ., 2019),(燕et al ., 2018)和(李et al ., 2019)。因此,在这项工作中,保持公平的比较,我们遵循这个设置和报告2和4 FPs的敏感性表3- - - - - -表5。此外,我们使用地图,这是通常用于自然图像,作为评价指标。地图计算通过计算APs的借据阈值的平均值0.5 - -0.95。与此同时,p值是用来衡量进步的意义。
4.4实现细节
我们的实验使用PyTorch框架和实现NVIDIA GeForce RTX 2080 ti GPU上运行。我们使用红外系统与ResNet-50实验。初始化ResNet-50骨干与ImageNet pre-trained模型,和所有其他层随机初始化。每个mini-batch 2样品,每个样品由三路3对3 d图像融合。项将锚尺度(16、32、64、128、256)和锚纵横比(0.5、1、2)。不同于原始的upsampling红外系统,我们使用双线性插值代替加权插值。我们使用了SGD训练PAC-Net并设置基本的学习速率0.004,然后减少10倍后4时代。我们训练网络15时代batchsize 2,以确保网络的完全收敛。然后最好的模型结果验证集的选择进行测试。
5个结果
在本节中,我们进行大量的实验研究了该方法的有效性在医学图像检测任务。我们首先把我们提出PAC-Net与几个先进的基线DeepLesion数据集的方法。之后,我们进一步验证的有效性重要组成部分我们的模型,包括PAC、VDIoU损失,和SPP块。大量的实验结果证明该方法的有效性,并验证每个我们建议的方法是有效和重要的一部分。
5.1主要结果
结果对整个DeepLesion数据集所示Table.2,而在八个子类所示结果Table.3。同时,正如前面提到的,进一步验证我们的方法在不同的性能检测困难,结果在三个子类根据困难所示Table.4。调查的有效性提出PAC-Net,我们相比的性能PAC-Net基线四SOTA自然图像检测方法(R-CNN更快,级联R-CNN Yolo-v3, RetinaNet)和两个DeepLesion SOTA方法(3 dce和MVP-Net)。此外,由于3 dce的原始实现基于R-FCN,我们有重新实现3 dce作为基准使用红外系统骨干公平的比较。
一般来说,所示Table.2,我们发现我们的提议PAC-Net优于所有基线,这证明我们提出PAC-Net比SOTA更精确的三维医学图像检测的方法。具体地说,我们第一次发现的结果后3 dce改善很多使用红外系统代替R-FCN为骨干。这表明,红外系统使不同深度的网络学习特性在不同尺度上通过多尺度特征融合来提高最终的检测结果。然后,我们发现3片的结果为方法比单片的输入,因为输入3片可以充分利用空间信息的三维医学图像从他们学习更丰富的功能来帮助网络改善功能表示。最后,所示表2,提出PAC-Net达到更好的检测性能比SOTA方法3 dce而且MVP-Net在所有评价指标。我们也计算p提出了模型的价值PAC-Net w.r.t.最先进的基线,即。MVP-Net 3 dce。具体来说,p我们工作的价值w.r.t. SOTA 3 dce模型是0.0422,这证明我们的工作达到非常显著改善相比3 dce。此外,p我们工作的价值关于MVP是0.2855;虽然高于0.05,这也是一个显著的改善,因为它是不容易总是达到统计上显著改善深度学习的相关研究领域,例如,p值相比MVP-Net 3 dce是0.1745比0.05)(还大,和我们的工作的基础上进一步提高SOTA MVP-Net,更具挑战性。我们改善的原因比前一方法如下:1)PAC-Net利用位置注意引导连接模块来补偿对象位置偏移造成的问题upsampling操作红外系统,2)PAC-Net另外利用SPP块来有效地利用多尺度特征信息来提高整个网络的特征表征能力,和iii)改进VDIoU损失也可以帮助网络训练更准确。
DeepLesion数据集可以大致分为8个不同类型的损伤。在Table.3,我们将展示详细八种病变的检测结果。可以看出,在这八种病变,我们的检测精度有不同程度改善,最难的准确性检测骨头是最明显的。这说明我们的方法的有效性,证明了我们的网络已经完全学会了不同病变之间的特性差异,能够应付检测不同病变的艰巨的任务。
为了更充分地表明,我们的方法可以实现一定程度的改善甚至更加困难类型的检测,我们有这八个病变的子集划分为三个子集,简单的设置,中期,和困难,根据检测的困难。医疗原因,如低对比骨骼和周围组织和软组织的小目标和可变的形态,这三种类型的病变,BN, KD,和圣,整体是很难发现的,所以我们设置分类的困难。另一方面,AB, LU和LV更容易检测,因为他们更与周围组织和更大的探测目标,所以我们把这三个子集的简单集合。其他人被归类为媒介。
和之前一样,我们不仅比较了传统方法的结果在这些三组还SOTA DeepLesion数据集方法的结果。所示的结果Table.4。可以清楚地看到,我们的结果是最好的无论哪一种方法比较。此外,硬套,最难检测,我们有最大的提高。这是因为我们可以使用不同的接受字段通过使用多尺度特性的特点,检测较大的病变和小的学习。此外,3 d上下文信息和一个注意力机制,保留位置信息可以更准确地帮助bboxes返回。这有效地证明了我们的方法的有效性。
5.2烧蚀研究
调查这两家公司的效果提出了先进的模块,注意引导连接位置(PAC)模块和顶点距离借据损失(VDIoU),和额外添加的多尺度模块SPP层烧蚀研究中,表5显示了模型的检测精度DeepLesion数据集。首先,检测结果可以看出,改进后的多尺度模块添加SPP层,这意味着额外的多尺度信息融合对红外系统仍有帮助。
5.2.1 PAC的有效性
然后,我们比较了PAC模块检测的有效性。结果表明,红外系统与PAC总是优于香草红外系统的指标与PAC的帮助。因此,这表明PAC可以增强特性对象的确切位置区域和抑制特性在其他地区地图上自顶向下功能通过一个位置权重矩阵计算从原始特征与精确位置信息实现收缩补偿对象的位置。同时,来验证我们提出的有效性的关注,我们不仅上述消融实验,但是我们也可视化热图的关注。所示图4,上面是没有注意力热图的可视化,而底部的可视化与注意力热图补充道。两者之间的比较仍然是显而易见的,我们可以清楚地看到,在增加关注,该模型能够更加关注焦点区域,而不是分散的区域。
5.2.2 VDIoU损失的有效性
然后,我们比较与VDIoU红外系统的性能表5。结果表明,使用VDIoU损失可以提高模型的预测精度。这极大地支持我们的观点,即使用VDIoU损失取代IoU-based损失一般检测模型可以解决现有问题的借据系列的损失,从而提高准确性。
5.2.3使用PAC和VDIoU损失的有效性
最后,我们发现,通过使用PAC和VDIoU损失表5,结果比只使用其中的一个。这是因为PAC和VDIoU损失是为了解决不同的问题在FPN-based检测网络,可以互补提高探测深度模型的准确性。因此,上述观察证明PAC-Net是一种有效和高效FPN-based骨架模型,和PAC和VDIoU损失都是有效的和必要的PAC-Net实现优越的性能。
5.3可视化的结果
比较最终检测结果更直观地,图5可视化的最终检测结果不同的方法和我们的方法,左边是GT和最后三列是R-CNN更快,MVP-Net,我们的方法。图上的红色框表示地面真理(GT),蓝色的盒子代表真阳性(TP),和紫色的盒子代表假阳性(FP)。从第一行是直观的,所有其他方法给冗余检测盒,而我们没有。此外,在第二个三行,尽管所有的检测有多余的盒子,盒子的位置检测到我们的方法都是在GT,而其他方法给检测盒的地方是不相关的。这表明,我们的模型可以更准确地关注损伤的位置,所以检测盒更准确。
从结果中,我们可以看到,我们的结果与传统的目标检测相比是最好的网络或SOTA检测网络DeepLesion数据集。这是因为我们使用3 d信息输入、多尺度特征提取和共同注意力机制,保存位置信息从3 d CT片提取更丰富的功能。上述结果证明了该方法的有效性。
5.4损失函数的有效性
所示表6,我们比较的结果提出VDIoU损失等常用的损失函数smooth-L1损失和几种常见借据损失地图。纵是地图,横坐标是迭代的数量。可以看出,我们提出的方法可以快速提高地图导致早期的训练。此时,我们的方法比其他方法获得的地图,这证明我们的损失函数可以加快初始模型的训练速度。达到收敛后,我们的损失函数也可以达到最好的结果。这证明了损失函数可以加速模型的初始训练速度和改善最终收敛后的精度。
6的讨论
在本节中,我们首先总结提出FPN-based骨干模型之间的主要差异,PAC-Net,先前的研究在医学图像检测。我们也指出我们的模型的局限性以及可能的解决方案来处理这些限制的特性。
6.1比较与先前的工作
我们建议PAC-Net使用position-guided关注模块解决位置偏移问题造成upsampling红外系统。与以前方法的关注模块不同,我们使用特征图谱与精确位置信息来生成位置权重矩阵指导高层功能丰富的语义信息,融合特性都有丰富的语义信息和准确的位置信息来增强特性的综合表现。相比IoU-based损失函数常用的医学图像检测,我们提议VDIoU损失也有一些改进。在某些情况下,共同IoU-based损失可以降低甚至失败。因此,我们不同于普通IoU-based损失通过使用GT的顶点的距离和RP的总和除以最低封闭的对角线距离分段作为额外的惩罚项的借据损失避免上述问题。同时,这个计算过程并不会增加太多计算,从而影响了训练速度。因此,我们提出VDIoU损失可以帮助网络收敛更准确和快速。此外,PAC-NeT还增加了一个额外的SPP块扩展功能映射接受域,从而提高网络的整体特征表征能力。
6.2的局限性和未来的工作
虽然我们提出PAC-Net达到良好的性能在我们的任务,其性能可以进一步改善在未来通过仔细处理以下限制或挑战。
首先,在当前实现中,红外系统特性的融合在不同尺度导致信息丢失。红外系统失去了语义信息在深和浅的融合特性通道的数量改变了1×1卷积,使它们相互融合,从而削弱多尺度特征的表现力。因此,未来的研究方向找到一个更有效的特征融合方法的损失降到最低在融合过程中语义信息的特性在不同的尺度。第二,对医学图像数据不足检测一直是一个挑战,注释是耗费时间和需要的合作研究者和放射科医生。我们计划扩大的数据量,因此模型的能力,一些在未来数据扩增方法。
7结论
在本文中,我们首次发现现有FPN-based医疗损害的缺陷检测模型,然后提出了一个新颖的FPN-based骨架模型,PAC-Net,解决这些问题,实现更好的医疗损伤检测。我们进行了广泛的实验,结果表明,i)拟议中的PAC-Net达到更好的检测精度比最先进的基线。ii)先进的模块,PAC和VDIoU,都是有效和重要PAC-Net实现优越的病变检测的性能。在未来,我们打算运用PAC-Net更实用医学成像病变检测任务来验证其适用性和可伸缩性。
数据可用性声明
公开的数据集进行分析。这些数据可以在这里找到:https://nihcc.box.com/v/DeepLesion。
作者的贡献
ZX, LT和YL导致研究的构思和设计,进行了实验研究并进行统计分析。LT写了初稿的手稿。ZX LT, YL、YZ、JC, TL写的手稿。所有作者导致修订手稿、阅读和批准提交的版本。
资金
这项工作得到了国家自然科学基金资助下的中国61906063,62102265,62276089,,河北省自然科学基金,中国,在格兰特F2021202064下,河北省的“100人才计划”,中国,在格兰特E2019050017下,由广东实验室开放研究基金的人工智能和数字经济(深圳)授予GML-KF-22-29,广东省自然科学基金资助下的中国2022 a1515011474,重点研究和开发项目的海南省,中国,在格兰特ZDYF2022SHFZ015下,海南省自然科学基金,821年在格兰特rc1131。这项工作也由海南省临床医学中心(QWYH202175)。
的利益冲突
作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。
出版商的注意
本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。
脚注
1https://nihcc.app.box.com/v/DeepLesion。
引用
Cai, Z。,和Vasconcelos, N. (2018). “Cascade R-CNN: Delving into high quality object detection,” in《IEEE计算机视觉与模式识别会议,盐湖城,2018年6月18 - 23(IEEE),6154 - 6162。
Girshick, R。,Donahue, J., Darrell, T., and Malik, J. (2014). “Rich feature hierarchies for accurate object detection and semantic segmentation,” in《IEEE计算机视觉与模式识别会议,圣胡安,1997年6月17日至19日(IEEE),580 - 587。
格林斯潘,H。,Van Ginneken, B., and Summers, R. M. (2016). Guest editorial deep learning in medical imaging: Overview and future promise of an exciting new technique.IEEE反式。医疗成像。35岁,1153 - 1159。doi: 10.1109 / tmi.2016.2553401
他,K。,Gkioxari, G., Dollár, P., and Girshick, R. (2017). “Mask R-CNN,” in《IEEE计算机视觉国际会议,剑桥,1995年6月20 - 23日(IEEE),2961 - 2969。
黄,Z。柯,W。,和Huang, D. (2020). “Improving object detection with inverted attention,” in《IEEE计算机视觉的冬季会议上应用,纽约,2014年3月24 - 26日(IEEE),1294 - 1302。
柯,Y。,Wang, X., Le, L., and Summers, R. M. (2018). Deeplesion: Automated mining of large-scale lesion annotations and universal lesion detection with deep learning.j .医疗成像。5、1。jmi.5.3.036501 doi: 10.1117/1.
李,S.-g。,Bae, J. S., Kim, H., Kim, J. H., and Yoon, S. (2018). “Liver lesion detection from weakly-labeled multi-phase CT volumes with a grouped single shot multibox detector,” in学报医学影像计算和计算机辅助介入的国际会议,多伦多加拿大,9月18日- 22(施普林格),693 - 701。
李,Z。,Zhang, S., Zhang, J., Huang, K., Wang, Y., and Yu, Y. (2019). “MVP-Net: Multi-view FPN with position-aware attention for deep universal lesion detection,” in学报医学影像计算和计算机辅助介入的国际会议,哥本哈根丹麦,10月1日- 6(施普林格),13岁。
林,T.-Y。,Dollár, P., Girshick, R., He, K., Hariharan, B., and Belongie, S. (2017a). “Feature pyramid networks for object detection,” in《IEEE计算机视觉与模式识别会议,圣胡安,1997年6月17日至19日(IEEE),2117 - 2125。
林,T.-Y。,Goyal, P., Girshick, R., He, K., and Dollár, P. (2017b). “Focal loss for dense object detection,” in《IEEE计算机视觉国际会议,威尼斯,2017年10月29日(ICCV),2980 - 2988。
林,Y。,liu, L., Ma, K., and Zheng, Y. (2021). “Seg4reg+: Consistency learning between spine segmentation and cobb angle regression,” in《医学影像计算和计算机辅助介入的国际会议,哥本哈根丹麦,2021年10月1日(施普林格),490 - 499。
刘,S。,问i, L., Qin, H., Shi, J., and Jia, J. (2018). “Path aggregation network for instance segmentation,” in《IEEE计算机视觉与模式识别会议,旧金山,1996年6月18日至20日(IEEE),8759年。
另,J。,Gupta, R. K., and Roy, P. P. (2021). A review on automated cancer detection in medical images using machine learning and deep learning based computational techniques: Challenges and opportunities.档案第一版。Eng方法。29日,2893 - 2933。doi: 10.1007 / s11831 - 021 - 09676 - 6
Redmon, J。,Divvala, S., Girshick, R., and Farhadi, A. (2016). “You only look once: Unified, real-time object detection,” in《IEEE计算机视觉与模式识别会议,纽约,1993年6月15 - 17日(IEEE),779 - 788。
Redmon, J。,和Farhadi, A. (2017). “Yolo9000: Better, faster, stronger,” in《IEEE计算机视觉与模式识别会议,西雅图,1994年6月23日(IEEE),7263年。
任,S。,他,K。,Girshick, R。,和年代un, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks.放置神经Inf。过程。系统。28日,91 - 99。doi: 10.5555/2969239.2969250
任,Y。,Zhu, C., and Xiao, S. (2018). Small object detection in optical remote sensing images via modified faster R-CNN.达成。科学。8,813。doi: 10.3390 / app8050813
Rezatofighi, H。Tsoi, N。Gwak, J。,年代adeghian, A., Reid, I., and Savarese, S. (2019). “Generalized intersection over union: A metric and a loss for bounding box regression,” in《IEEE / CVF计算机视觉与模式识别会议,银泉,6月18 - 24(IEEE),658 - 666。
Sheoran, M。Dani M。,年代harma, M., and Vig, L. (2022). “An efficient anchor-free universal lesion detection in ct-scans,” in学报IEEE国际研讨会在生物医学成像,加尔各答,2021年4月13 - 16(IEEE),1 - 4。
唐,Y.-B。燕,K。,Tang, Y.-X., Liu, J., Xiao, J., and Summers, R. M. (2019). “ULDor: A universal lesion detector for ct scans with pseudo masks and hard negative example mining,” in《IEEE国际研讨会在生物医学成像,纽约,2021年4月13 - 16(IEEE),833 - 836。
蔡,c . H。,和Peng, Y. S. (2022). “Multi-task lung nodule detection in chest radiographs with a dual head network,” in学报医学影像计算和计算机辅助介入的国际会议,法国,2021年10月1日(IEEE),707 - 717。
王,B。气,G。,Tang, S., Zhang, L., Deng, L., and Zhang, Y. (2018). “Automated pulmonary nodule detection: High sensitivity with few candidates,” in学报医学影像计算和计算机辅助介入的国际会议,新加坡,9月在18到22岁(IEEE),759 - 767。
王,L。,王,B。,和徐,Z。(2019)。“肿瘤分割基于深多尺度u-net监管,”生物信息学和生物医学学报2019年IEEE国际会议,圣地亚哥,2019年11月21(IEEE),746 - 749。
王,Z。,Yin, Y., Shi, J., Fang, W., Li, H., and Wang, X. (2017). “Zoom-in-Net: Deep mining lesions for diabetic retinopathy detection,” in学报医学影像计算和计算机辅助介入的国际会议,法国,2021年10月1日(IEEE),267 - 275。
徐,Z。,刘,S。,Yuan, D., Wang, L., Chen, J., Lukasiewicz, T., et al. (2022). ω-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversely-connected multi-scale convolution.Neurocomputing500年,177 - 190。doi: 10.1016 / j.neucom.2022.05.053
徐,Z。,问i, C., and Xu, G. (2019). “Semi-supervised attention-guided cyclegan for data augmentation on medical images,” in生物信息学和生物医学学报2019年IEEE国际会议,圣地亚哥,2019年11月21(IEEE),563 - 568。
燕,K。,Bagheri, M., and Summers, R. M. (2018). “3D context enhanced region-based convolutional neural network for end-to-end lesion detection,” in学报医学影像计算和计算机辅助介入的国际会议,新加坡,16 - 9月- 2022(IEEE),511 - 519。
Yu, J。,Jiang, Y., Wang, Z., Cao, Z., and Huang, T. (2016). “Unitbox: An advanced object detection network,” inACM国际会议多媒体学报》上,加拿大,2021年10月17日(SIGMM),516 - 520。
赵,Z。,lin, H., Chen, H., and Heng, P.-A. (2019). “PFA-Scannet: Pyramidal feature aggregation with synergistic learning for breast cancer metastasis analysis,” in学报医学影像计算和计算机辅助介入的国际会议,多伦多加拿大,2011年9月18 - 22日(施普林格),586 - 594。
郑,Z。,Wang, P., Liu, W., Li, J., Ye, R., and Ren, D. (2020). Distance-IoU loss: Faster and better learning for bounding box regression.Proc。AAAI相依Artif。智能。34岁,12993 - 13000。doi: 10.1609 / aaai.v34i07.6999
朱,Y。,Zhao, C., Guo, H., Wang, J., Zhao, X., and Lu, H. (2018). Attention CoupleNet: Fully convolutional attention coupling network for object detection,IEEE图像处理,纽约,2018年8月13日(IEEE),113 - 126。doi: 10.1109 / tip.2018.2865280
关键词:计算机辅助诊断、三维医学图像检测、位置注意引导连接,multi-pathway红外系统,顶点距离借据
引用:詹徐Z,李T,刘Y, Y,陈J和Lukasiewicz T (2023) PAC-Net: Multi-pathway红外系统与位置注意引导连接和顶点距离借据为三维医学图像检测。前面。Bioeng。Biotechnol。11:1049555。doi: 10.3389 / fbioe.2023.1049555
收到:2022年9月20日;接受:2023年1月19日;
发表:2023年2月02。
编辑:
马西莫·马蒂内利,信息科学与技术学院“亚历桑德罗·Faedo”国家研究理事会的意大利,意大利版权詹©2023徐,李、刘、陈和Lukasiewicz。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。
*通信:Zhenghua徐,zhenghua.xu@hebut.edu.cn;汉乐府詹,zyfradiology@163.com