跳转到主要内容

观点文章

前面。Radiol。,30 January 2023
在放射学秒。人工智能
卷3 - 2023 | https://doi.org/10.3389/fradi.2023.1112841

使用人工智能研究应如何报道?教训在心脏MRI系统回顾

艾哈迈德maite 1、2,马汉萨利希1,__,安德鲁·j·斯威夫特 1、2Samer Alabed 1、2 *
  • 1部感染,免疫和心血管疾病、谢菲尔德大学,英国谢菲尔德
  • 2放射学、英国谢菲尔德谢菲尔德教学医院

近年来大幅增加在研究人工智能(AI)心脏成像工具。在这些人工智能工具的结构进行分割心脏MRI (CMR),获得临床相关的功能信息的必不可少的一步。这些研究报告的质量有重大影响的进步,人工智能的翻译工具临床实践。我们最近进行了系统回顾评价报告的质量的研究提供自动分割方法在心脏MRI (Alabed et al . 2022的报告质量AI心脏MRI分割那系统的回顾和对未来研究的建议。雷竞技rebat心血管医学前沿9:956811)。209项研究评估为符合人工智能在医学成像的检查清单(声称),一个报告的框架。有时我们发现变量和低质量报告和确定的重要和经常失踪的出版物的信息。符合要求的描述模型的高(100%,差80%—-100%),但低于预期的描述研究设计(71%,差63 - 86%),数据集用于训练和测试(63%,差50%—-67%)和模型性能(60%,差50%—-70%)。在这里,我们报告的总结我们的重要发现,针对一般读者可能不是人工智能的专家,并使用它们作为一个框架来讨论确定报告质量的因素,提出建议改善报告的研究在这个领域。我们的目标是协助研究人员称他们的工作和读者的评价证据。最后,我们强调需要密切关注的研究提出人工智能工具,即使面对周围的兴奋AI在心脏成像。

介绍

人工智能(AI)的开发和应用是一个令人兴奋的前沿在放射学(1- - - - - -3)。AI工具保证自动化的复杂和耗时的任务,使他们有吸引力的时代医学成像的需求和复杂性的增加。这反映在最近的快速扩张的数量研究提出人工智能成像工具。然而,有几个挑战需要克服人工智能可以有效地实现在常规临床实践(4)。透明的模型设计、培训和测试对理解generalisability至关重要的工具,但可以有问题的专有技术。评估性能的人工智能工具相关人群和环境也是一个重要的步骤来确定他们的外部效度。也有越来越多的人意识到领域内的道德问题。这些包括担忧AI人类偏见传播工具的风险,包括种族,这可能导致歧视少数民族人口组(5- - - - - -7)。这些挑战的方式和质量本质上是与人工智能的研究工具。

比较现代医学证据支撑的能力和需要,研究提出了一个透明的、一致的和可再生的方式。质量差的报告有助于研究浪费,阻碍进步的领域,限制临床适用性。重要的是各利益攸关者(包括人员,放射科医生使用人工智能工具,临床医生使用AI-derived信息和公转理解什么是高质量的报告。提出了结构化工具协助报告使用人工智能的研究,包括人工智能在医学成像的检查表(声称)(8)。

AI CMR的分割

心脏成像的需求正在增长,而且对自动化的需求。心脏磁共振成像(CMR)允许非侵入性评估心脏解剖和功能。CMR可以产生量化指标(如心室卷,心肌厚度和梗塞大小)的诊断和预后价值。然而,这些测量需要解剖结构的准确描述成像,或分割。那些阅读CMR研究传统上进行手工分割为了获得这些metrics-a过程是艰苦的,耗时和容易interobserver可变性。能够自动化这个过程使用人工智能方法的焦点近年来越来越多的研究(9- - - - - -12)。

在最广泛的术语中,传统上由人类人工智能自动化流程。机器学习是人工智能的一个主要分支,程序自动识别相关的特征数据和任务适应改善其性能。机器学习包括范围广泛的技术,包括深度学习和神经网络。在医学影像分割的背景下,这涉及到一个项目学习识别图像中的解剖特性(如心内膜)来描述结构(如心脏室)。尽管特定的方法和模型设计是无数,他们迄今为止共享一些相似之处发展。这通常包括三个阶段:培训、验证和测试。在培训期间,数据是通过算法和该算法识别特性,使其承担任务。在验证阶段,该算法暴露在看不见的验证集和其性能的任务是确定。然后适应算法优化其性能和训练和验证步骤是重复,直到达到令人满意的性能和最终的模型建立。新模型测试,看不见的,数据产生最终的性能结果。 This is a gross simplification of varied and complex processes, but is nonetheless important for contextualising how studies using AI are reported.

系统回顾

我们最近进行了系统回顾报告的质量的研究使用人工智能方法的分割结构CMR (13)。研究呈现完全自动化的人工智能方法的分割心脏室,心肌或疤痕组织成人CMR图像包含的资格。包括研究评估的描述性信息,符合要求。我们分组个人索赔标准分为四个领域:研究描述,数据集描述,模型描述和性能描述。包括209年的研究,在37个不同的国家,从2012年到2022年出版。中值总体研究都声称合规标准是67%(四分位范围(差)59 - 73%)。模型描述域值是最高(100%,差80% - -100%),大大降低研究描述(71%,差63%—-86%),数据集描述(63%,差50% -67%)和性能描述(60%,差50% -70%)域(图1)。

图1
www.雷竞技rebatfrontiersin.org

图1。小提琴情节表明合规的209包括研究索赔标准,分为领域的研究中,数据集、模型和性能描述。(中位数实线),第一和第三个四分位数(虚线)值表示。从Alabed et al (202213)。

人工智能模型需要培训的发展,暴露出一个算法的数据(如CMR图像)学习特性(如相对不同的解剖结构所在地),使其承担的任务(如描绘左心室心内膜)。这个过程是至关重要的,支撑着所有人工智能工具的性能和有效性。质量、大小和变化的数据集用于训练是特别重要的在考虑模型的临床适用性时,作为一个模型训练数据从一个人口或人群不能概括当应用于他人。例如,模型训练完全CMR图像年轻患者可能不会执行以及使用时的老年人口。至关重要的是,研究数据源描述他们在一个明确的和透明的方式,这样的generalisability模型可以理解。这包括病例信息(如数量、合格标准和临床特点)和数据本身的性质(如图像和它们是如何获得的类型)。

我们发现,尽管大多数研究表明他们的数据源(94%),这是一个重大的遗漏时失踪。大约一半使用公开数据集(49%),其中大多数(66%)通过医学影像计算和计算机辅助干预(MICCAI)挑战,强调他们的角色在推进。公开的数据集援助再现性和模型之间的比较,但与任何回顾数据源选择有自己的偏见。多个或合并数据集被用于一些研究(17%),但有可能改善模型的generalisability接触不同的人群。大多数研究报道病例数(95%),使用中值78和大范围的3到12984。不足的病例数和变化可能会影响generalisability。少数的研究未能报告CMR图像用于分割的类型(14%),极大地限制他们的模型的可解释性。

同样,详细描述结构的人工智能模型和训练方法很重要,期望在这个领域。这应该是透明的,可再生的。理解模型结构可以帮助突出generalisability性能偏差,因此模型。然而,这可能是一个挑战由于专有的“黑箱”方法在设计。此外,出版物应该写在一个可访问的方式,这样的方法并不模糊。例如,研究目前临床消息应该确保计算机科学方法和概念(如模型结构)解释清楚读者可能不是人工智能专家(反之亦然)。这种平衡很难实现在这样一个快速发展的技术领域。我们发现符合模型描述域的确是优秀的。这可能反映了一个事实,大多数发表在技术(58%)和混合型(11%)期刊。雷竞技电竞体育竞猜平台大多数研究提供模型的细节(95%)、训练方法(78%)和软件(74%)。 However, open source code was only provided in a minority of studies (10%). Publishing the open source code for an AI model greatly improves transparency and facilitates the comparison of different models.

了解有效的人工智能模型执行翻译成临床实践是至关重要的。性能需要以一致的方式描述,使模型之间的比较。然而,我们发现,模型性能变量的描述,与许多出版物未能提供关键信息。性能评估的方式各不相同,需要透明。理想情况下,这应该包括测试模型使用一个独特的和外部数据集(如图像从不同的人口获得不同的中心)。这是一个重要的步骤在确保一个AI模型generalisable和翻译成有效的临床使用。只有少数(22%)的研究中,我们评估了他们的模型外部数据。预计AI模型可以失败,是良好的实践研究提供了一个分析失败的案例来说明如何以及为什么发生。这是至关重要的发展领域和临床实施。临床医生使用一个AI模型将需要了解的因素可能导致错误的结果。 This goes hand-in-hand with understanding measures of diagnostic accuracy (such as sensitivity and specificity), which are major determinants of clinical utility. We noted that few studies reported failure analysis of incorrectly classified cases (32%) or estimates of diagnostic accuracy (21%).

我们所知,本研究最大的基于ai心脏成像文献回顾。当然,有限制。复习有一个狭隘CMR的人工智能的方法来分割。只包含期刊论文呈现完全自动化的技术。半自动技术包含手动和基于ai元素及其区别完全自动化技术是开放的一定程度的主观性。自动化技术的排斥,未公开发表的文献和会议摘要很重要,以确保一致的和可再生的评价纳入研究的特征,但狭窄的范围检查和选择性偏差的风险。最后,还有观察者偏见和interobserver可变性的固有风险评估报告的质量时,即使使用结构化的工具,如索赔;未来的研究可以考虑定量评估interobserver协议。然而,尽管有这些限制,我们的研究认为重要的因素对人工智能的研究一般,和我们的发现有可能适用于更广泛的领域,人工智能在医学成像。

讨论

这系统综述确定重要和频繁的现有文献的空白。在本文中,我们探索了一些高质量的AI出版物在心脏成像的特点。我们鼓励研究者和读者记住这些时使用人工智能方法和评价研究。基于这些发现在我们的系统回顾,我们给出了一些建议人工智能研究人员提高报告的质量的研究,提供了图2。研究方法应足够详细地描述,使再现性。关于所有数据源的信息,包括所有参与者的临床特点,应提供有效性和generalisability为了了解研究。测试在多个和外部数据集是一个重要的步骤在人工智能的翻译模型的临床实践。研究在这一领域可能有广泛的读者应该访问和透明的不管杂志和出版物的类型。工具,如声称可以帮助展示和评估研究。

图2
www.雷竞技rebatfrontiersin.org

图2。建议研究基于研究发现系统的审查。改编自Alabed et al (202213)和要求(8)。

作者的贡献

我和山:构思的需要一个更一般的讨论系统的审查结果。我和女士:写的手稿,由五角和批判性回顾了SA。所有作者造成了阅读最后的手稿。系统上的所有作者也被作者审查。我和女士:同样的这个手稿和应该考虑加入第一作者。所有作者的文章和批准提交的版本。

资金

支持的研究是NIHR格兰特AI_AWARD01706,威康信托基金会拨款215799 / Z / 19 / Z和205188 / Z / 16 / Z,医学研究委员会资助MC-A658-5QEB0,英国心脏基金会授予RG / 19/6/34387。投资者没有任何作用在研究的设计和实施;在收集、分析和解释数据;或准备,审查和批准。对开放存取的目的,作者由公共版权CC许可适用于任何作者接受手稿版本产生的提交。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

引用

1。Hosny, Parmar C, Quackenbush J,施瓦茨LH, Aerts HJWL。人工智能在放射学。Nat牧师癌症。(2018)18:500-10。doi: 10.1038 / s41568 - 018 - 0016 - 5

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

2。de Souza内里E, N,布雷迪,Bayarri AA,贝克尔CD,科波拉F, et al。欧洲社会的放射学(ESR)。放射科医生应该知道什么人工聪明ESR白皮书。见解成像。(2019)10点。doi: 10.1186 / s13244 - 019 - 0738 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

3所示。里尔登美国机器人放射学家的崛起。自然。(2019)576:S54-8。doi: 10.1038 / d41586 - 019 - 03847 - z

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

4所示。科波拉F, Faggioni L, Gabelloni M, De Vietro F, Mendola V, Cattabriga,等。人类,太人性吗?全面评价的“人工智能革命”在医学成像。前面Psychol。(2021)12:710982。doi: 10.3389 / fpsyg.2021.710982

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

5。Char DS,沙NH,马格努斯·d·实现机器学习在卫生保健——解决伦理挑战。N拉米夫地中海。(2018)378:981-3。doi: 10.1056 / NEJMp1714229

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

6。恩斯J, Creary M, Sjoding兆瓦。人工智能模型在卫生保健不色盲,我们不应该。柳叶刀数字健康。(2022)4:e399 - 400。doi: 10.1016 / s2589 - 7500 (22) 00092 - 9

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

7所示。Gichoya JW, Banerjee我Bhimireddy AR,伯恩斯杰,Celi洛杉矶,陈L-C et al。人工智能在医学成像识别病人的种族:造型研究。柳叶刀数字健康。(2022)4:e406-14。doi: 10.1016 / s2589 - 7500 (22) 00063 - 2

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

8。芒根J, Moy L,卡恩CE。清单为人工智能在医学成像(声称):代码开发者和评审者的指南。Radiol Artif智能。(2020)2:e200029。doi: 10.1148 / ryai.2020200029

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

9。奥雷根DP。将机器学习为运动:在心血管成像中的应用。中国Radiol。(2020)75:33-7。doi: 10.1016 / j.crad.2019.04.008

CrossRef全文|谷歌学术搜索

10。裘秦陈C, C, H, Tarroni G,段J,白W, et al .深度学习心脏图像分割:一个回顾。前面Cardiovasc地中海。(2020)25。doi: 10.3389 / fcvm.2020.00025

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

11。已经受理Alabed年代,Alandejani F, K, Karunasaagarar K,夏基M,加戈P, et al .验证人工智能的心脏MRI测量:心脏导管插入术和死亡率预测的关系。放射学。(2022)305:68 - 79。doi: 10.1148 / radiol.212929

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

12。Alandejani F, Alabed年代,加戈P,吴作栋ZM评选,Karunasaagarar K,尹浩然,萨基。人工智能的训练和临床测试导出右心房心血管磁共振测量。J Cardiovasc增效的原因从Soc理智Cardiovasc增效。(2022)哪。doi: 10.1186 / s12968 - 022 - 00855 - 3

CrossRef全文|谷歌学术搜索

13。Alabed年代,maite,萨利希米,马哈茂德,詹金斯年代,et al。丹尼尔•S AI的报告质量心脏MRI分割那系统的回顾和对未来研究的建议。前面Cardiovasc地中海。(2022)9:956811。doi: 10.3389 / fcvm.2022.956811

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:人工智能、机器学习、心脏MRI分割,系统回顾,报告的质量

引用:maite,萨利希米,斯威夫特AJ和Alabed年代(2023)使用人工智能研究应如何报道?教训在心脏MRI系统回顾。前面。Radiol。3:1112841。doi: 10.3389 / fradi.2023.1112841

收到:2022年11月30日;接受:2023年1月11日;
发表:2023年1月30日。

编辑:

甄钱,曼联成像研究所,中国

审核:

洛伦佐Faggioni意大利比萨大学

©2023 maite,萨利希,迅速而Alabed。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*函授:Samer Alabeds.alabed@sheffield.ac.uk

__这些作者贡献了同样的工作

专业:这篇文章是提交给人工智能在放射学,放射学科学前沿》杂志上的一个部分雷竞技rebat

下载