条文本

审查
复习的深度学习算法自动检测颅内出血的ct成像
  1. 梅丽莎·杨1,
  2. Bahman Tahayori2,3,
  3. 香港Kuan角4,5,
  4. 朱利安Maingard5,6,
  5. Numan Kutaiba7,
  6. 杰里米·罗素8,
  7. 文森特Thijs9,10,
  8. 阿苏Jhamb11,
  9. Ronil V钱德拉6,12,
  10. 马克布鲁克斯9,13,
  11. Christen d .彭14,15,
  12. 哈米德Asadi9,12
  1. 1墨尔本医学院,墨尔本大学的医学院牙科和健康科学,墨尔本,维多利亚、澳大利亚
  2. 2生物医学工程系,墨尔本大学的,墨尔本,维多利亚、澳大利亚
  3. 3IBM研究澳大利亚,墨尔本,维多利亚、澳大利亚
  4. 4美国放射学,北部的健康,埃平,维多利亚、澳大利亚
  5. 5医学院的,迪肯大学教职员工的健康,伯伍德,维多利亚、澳大利亚
  6. 6介入神经放射学单元,莫纳什大学健康,克莱顿,维多利亚、澳大利亚
  7. 7美国放射学,奥斯汀健康,海德堡,维多利亚、澳大利亚
  8. 8神经外科学系,奥斯汀健康,海德堡,维多利亚、澳大利亚
  9. 9中风的主题,弗洛里研究所神经科学和心理健康,海德堡,维多利亚、澳大利亚
  10. 10神经学部门半岛投注体育官网,奥斯汀健康,海德堡,维多利亚、澳大利亚
  11. 11美国放射学,圣文森特医院的墨尔本企业有限公司,菲茨罗伊,维多利亚、澳大利亚
  12. 12医学院、护理和健康科学,莫纳什大学,克莱顿,维多利亚、澳大利亚
  13. 13介入神经放射学服务,奥斯汀健康,海德堡,维多利亚、澳大利亚
  14. 14医学院的,阿德莱德大学的,阿德莱德,南澳大利亚、澳大利亚
  15. 15南澳大利亚州健康和医学研究所,阿德莱德,南澳大利亚、澳大利亚
  1. 对应到梅丽莎·杨,墨尔本医学院,墨尔本大学的医学院牙科和健康科学,墨尔本,维克3010年,澳大利亚;melissayeoxw在}{gmail.com

文摘

人工智能是一个快速发展的领域,随着现代技术的进步和电子健康的增长数据诊断放射学中打开新的可能性。近年来,深度学习的性能(DL)算法在各种医学图像任务不断改善。DL算法已被提出作为一种工具来检测各种形式的颅内出血non-contrast计算机断层扫描(NCCT)头上。在微妙的,严重的情况下,DL算法图像判读能力支持可能提高CT的诊断检测的时序要求严格的条件,在适当的地方可能加速治疗和改善患者的结果。然而,有多个挑战DL算法实现,如标签数据集的相对稀缺性,困难在发展中算法能够体积医学图像分析,并部署到临床实践的复杂的现实。本文考察了文学和采取的方法发展的DL算法的检测颅内出血NCCT头上的研究。考虑在制作这样的算法将讨论,以及必须克服的挑战,以确保有效,可靠的实现作为自动化工具在临床设置。

  • 大脑
  • CT
  • 出血
  • 中风
  • 技术

来自Altmetric.com的统计

请求的权限

如果你想重用任何或所有本文的请使用下面的链接,这将带你到版权税计算中心的RightsLink服务。你将能够获得快速的价格和即时允许重用内容在许多不同的方式。

介绍

颅内出血是一种潜在威胁生命的神经系统应急特点是血管破裂出血颅穹窿。其主要亚型的位置是基于出血:脑出血进入大脑实质(我);蛛网膜下腔出血蛛网膜下腔(SAH);脑室内出血的心室(IVH);硬膜外的出血硬脑膜之间的潜在空间和头骨(电火花强化);和硬膜下出血可能性空间之间的硬脑膜和蛛网膜板牙(SDH)。我与30天死亡率高达50%,和高水平的残疾幸存者之一。1我将近一半的死亡率发生在第一个24小时。2SAH演示了同样糟糕的结果,观察30天死亡率在33%和45%之间。3 4

延迟检测颅内出血转化为主动管理延迟,导致潜在的脑损伤,预防发病或死亡。5金本位的成像方式的选择是non-contrast计算机断层扫描(NCCT),具有快速扫描采集时间,和高敏感性和特异性检测急性出血。6此外,CT更广泛使用,降低成本,更容易和安全地访问比磁共振成像(MRI)。5 7

鉴于临床放射学家的增加工作量,确定头部CT研究包含颅内出血可能因竞争而推延急性成像研究。每检查,技术进步导致了更多的图片,因此,放射科医生现在需要解释更多的图片相比十年前执行同一地区的考试。8盘后报告或农村设置特点是缺乏有经验的临床医生和放射科医生化合物可用性降低的困难及时,准确的检测颅内出血。研究显示显著差异的最初解释CT扫描通过初级放射科医生或急诊医师,由高级放射科医生和最终的解释,9 - 11错过了sdh,长官,9骨折和慢性缺血性病灶。10因此,一个自动化的过程有可能减少误诊和加快颅内出血的评估和管理,改善患者的结果。

自动化机器学习(ML)的计算机辅助诊断(CAD)系统已经被提议作为1980年代以来临床放射学的工具。12毫升是人工智能(AI)的一个分支,列车计算机算法来分析数据,自动执行迭代学习规则和关系来改善他们的表现。DL,毫升的亚型,使计算模型是由多个处理层学习复杂的数据和多个层次的抽象表示。13理论和计算能力的进步加速了DL研究,与成功的CAD应用程序在多个医学领域图像分析。它取得了dermatologist-level皮肤癌的分类能力,14和超过在乳房x光片乳腺癌临床放射科医生的诊断性能检测。15neurointervention领域的自动算法,检测大血管闭塞(LVO)或量化核心卷在急性缺血性中风可以加快紧急治疗和快速治疗决策提供有价值的帮助。16日17

的背景下检测颅内出血,存在一些挑战影响这些自动化系统的使用作为一种临床工具。在文献中已经采取了多种方法,特点是使用不同的数据集变化准确的图像标签,预处理技术,DL网络体系结构和实现方法。然而,目前还不清楚哪些技术最有助于算法性能。

在这种叙事评论,我们首先探索DL的崛起在DL CAD系统和基本概念。讨论将分析DL算法实现的检测颅内出血NCCT头上图像,研究各种方法及其可行性实施临床工作流。最后,结论和需要进一步研究将识别区域。

提高CAD与深度学习

算法中使用CAD工具可以大致分为传统ML和DL算法。18这两种方法遵循典型的工作流的数据预处理模型训练和预测,19但是两种类型之间的根本差异导致深化对DL /传统ML的兴趣。

早期的CAD工具使用传统ML算法。这些包括聚类算法模糊聚类和分类算法(决策树、支持向量机(svm)、逻辑回归分类器)。月19 - 21日然而,这些算法都只能执行在狭隘的任务进行了优化。22此外,专家领域知识和广泛的数据预处理(原始数据格式的转换/表示适合ML算法分析)都必须关注目标的算法。23在头部CT分析中,这可能涉及到图像去噪、分割的感兴趣的区域(roi),例如,头骨剥离和其他特征提取。19此外,指导毫升的学习模型,具体与明显的病理样本可能被选中。24这样的数据集不是反映现实的临床情况。考虑到这些因素,传统ML-based CAD系统的停滞不前的性能限制了他们的临床效用。23

研究图像分析对DL最近趋势。并行发展的图形处理单元(GPU)计算,获得越来越多的数据,由于无处不在的图像存档和通信系统(PACS),和理论的进步DL增加了DL应用的可行性。DL是基于一个人工神经网络结构受到人类的大脑。在图像分析,DL网络可以学习层次特征表示图像,自动构建高级信息从低级特性。这使得对细节敏感,同时保留在后台大无关紧要的变化不敏感。13最终,DL算法比传统ML算法可以提取信息更复杂,而消除广泛的数据预处理和feature-handcrafting的必要性。24

大多数DL模型用于图像分类,如卷积神经网络(cnn),通过监督学习学习。这种算法的细节超出了本文的范围;然而,简单地说,cnn是前馈神经网络包含顺序连接层,在后续层过程更高级的抽象。简化来说,第一层图像中的边缘检测,下一层可能从这些边缘检测图案,和深层可能发现更大的对象通过结合前一层的信息。13另一个DL模型,递归神经网络(RNN),执行类似的抽象,但专业分析顺序输入数据如文本和语言。这两个模型火车通过监督学习的方法使用数据集注释与地面实况参考标签。读者是指向最近的技术审查这些ML / DL算法作进一步的细节。18 25

方法

电子搜索是在2020年4月进行的利用MEDLINE和arXiv数据库。搜索限于英语文章和使用医学主题词和自由文本包括:“机器学习”,“深度学习”、“计算机”、“颅内出血”,“断层”。(在线补充表1)进一步详细地描述了搜索历史。arXiv开放获取电子预印本库;虽然不是同行评议,它接受了大量的科学论文在计算机科学和计算机视觉。额外的研究确定了相关文章的参考书目。见解从2019年相关在线Kaggle挑战举办的北美放射学会(RSNA)也包括在内。

使用预定义的入选标准,定义如下:研究利用DL算法,旨在分类/检测颅内出血NCCT研究,发表在英语,在全文。所有识别研究最初根据标题和摘要,筛选,随后如果适合包含了全文。搜索过程和排斥决策是总结成一个首选项报告系统评价和荟萃分析(棱镜)流程图(图1)。

图1

研究选择的流程图。CT断层;NCCT,造影或非。CT

叙述评论探讨整体图景方法已发现最有助于DL算法这种情况下的性能。通过试错技术复杂性可以优化,如hyperparameter调优,超出了审查的范围。

结果

最初的文献检索发现184独特的文章。一些164篇文章被排除由于全文不可用,主要目的无关NCCT出血检测(图1)。进一步的五篇文章使用传统ML代替DL被排除在外。共15篇文章符合入选标准(在线补充表2)。13篇文章旨在检测颅内出血,其中5此外分类出血亚型。两篇文章旨在检测更大范围的疾病包括但不限于颅内出血。

在研究中,灵敏度是最广泛使用的算法性能报告(n = 13;87%),其次是特异性(n = 11;73%),接受者操作特征曲线下的面积(AUROC) (n = 10;67%),和准确性(n = 7;47%)。这些指标范围的值是0.68 - -1.00,0.48 - -0.99,0.73 - -1.00,-0.99和0.81,分别。七15研究检测了他们的算法使用数据来自同样的回顾性数据集用于训练算法,而三个使用一个独立的回顾数据集和四个未来的数据集使用。训练数据集大小从246年到313年318 NCCT头研究。

DL架构使用而言,八个研究使用二维(2 d) cnn,22 26 - 324使用三维(3 d) cnn,22日24 33 34和两个联合CNN-RNNs使用。35 36后者的两项研究也表现之间的直接比较2 d cnn和2 d CNN-RNNs (表1)。一项研究使用了一个autoencoder,37火车的一个神经网络无标号数据之前进行监督学习。一项研究使用专有软件与算法细节无法提供。38

表1

之间的性能比较二维卷积神经网络(CNN)和联合CNN-RNN(递归神经网络)模型

讨论

多重挑战参与开发和部署一个算法的检测NCCT脑部出血(表2)。首先,由于NCCT头的体积性质的研究,DL模型必须学会处理三维空间信息的挑战使它有别于传统的二维图像分析。第二,监督DL模型依赖于大量的标记数据;然而,获得准确的地面实况标签对于这个应用程序需要耗时的注释由经验丰富的神经放射。重要的是,这些挑战都是相互关联的,后者是影响前处理的方式。

表2

概述的挑战和可能的解决方案的发展深度的检测/分类学习算法non-contrast计算tomography-identified脑部出血

接下来,为了这些DL实现临床可靠的工具,他们必须证明有效性。然而,不同的验证方法和不同程度的可靠性已经使用,对临床意义与影响。此外,模型应用程序需要与临床工作流集成工具和透明的预测方法获得认同。考虑这些因素是至关重要的在确保临床效用和鼓励这些机动过程的吸收。

考虑在制作颅内出血检测的深度学习算法

体积性质的数据

分析NCCT研究的一个主要挑战是需要处理3 d体积信息。2 d cnn、3 d cnn和联合CNN-RNNs提出在文献中解决这个问题在不同区段(图2)。

图2

描述的二维(2 d)卷积神经网络(CNN), 2 d CNN-RNN(递归神经网络)和三维(3 d) CNN处理信息。每个架构接收不同的输入过程。2 d CNN(上)过程个人2 d计算机断层扫描(CT)片,与地面限制电平真理(GT)标签。输出预测(出血或缺席)为每个片形成。信息从其他片在同一头部CT研究体积不贡献为这片模型的预测。最后预测病人(出血或缺席)获得所有片相结合的预测研究中。联合2 d CNN-RNN(中)使用相同的2 d CNN的架构,但使用的输出2 d RNN CNN作为输入。2 d CNN输出每个片(包含浓缩信息的图像)re-stacked成序列按其体积内的地位。然后RNN解释这个序列信息为每个片形成最终的预测。最后预测病人获得类似于以前的方法。 The 3D CNN (bottom) processes 3D volumetric head studies, with study-level GT labels. An output prediction is formed for the entire study, which serves as the final prediction for the patient. NCCT, non-contrast computed tomography.

2 d CNN架构分析二维CT图像,独立于其他片在相同的体积。尽管使用2 d模型cnn表现良好,代谢途径2 d cnn的主要限制是无法捕捉interslice依赖性。为了解决这个问题,一些研究补充与RNNs的cnn。35 36在此体系结构中,2 d CNN将获得重要的图像特征在每个2 d切片。每个片然后堆在CNN的输出序列(模仿他们的体积布局),作为RNN的输入。RNN分析这个序列如何影响预测最终的标签,从而捕捉interslice依赖性。这些研究将他们联合CNN-RNN模型与基准2 d cnn(在同一训练数据),并演示了相似或改进的性能与前,确认利用interslice上下文(所带来的好处表1)。35 36最近网上Kaggle挑战提供了进一步了解这些网络的功效。主办的挑战,RSNA,竞争对手与构建一个算法来检测颅内出血及其亚型,使用手动slice-labeled超过25 000 CT研究的数据集。39最上面的两个表现最好的解决方案利用一个关节2 d CNN-RNN模型。40 41

另一个选择将interslice信息在2 d CNN模型可以通过预处理。从片切片插值相邻切片合并信息立即优越伪劣当前切片。30.而不是原始输入图像,该模型将获得一幅图像包含的信息三片。这类似于关节2 d CNN-RNN模型,但需要更多当地的上下文信息,避免公司不必要的信息从遥远的片。这两种技术的一个好处是能够利用转移学习(TL),这是容易接近进行2 d cnn(进一步探讨“有限的数据可用性”部分)。

另一个DL模型能够封装体积信息3 d CNN。这些模型获得3 d量作为输入,而不是二维切片图像。然而,一项研究报告了更高意味着平均精度(mAP)与2 d CNN模型相比,它的3 d (0.686 vs 0.328),30.提供洞察3 d cnn的一个至关重要的限制。根据定义,3 d cnn过程一个额外维度的信息,与多个后遗症。首先,增加输入体元信息不可避免地会导致增加模型参数。研究采用3 d cnn经常downsample输入减少所需的参数数量,24 34一项研究将采样的512×512×28日至50×50×25立体像素分辨率。24然而,过度downsampling删除信息和潜在影响算法的性能。第二,3 d CNN的参数限制增加模型的复杂性:一项研究是无法尝试更复杂的模型由于硬件限制。34最后,3 d cnn需求更大的数据集。由于“维度”的诅咒,每个增加数据维数成倍增加火车模型所需的数据量。42一个数据集大小的不足会增加模型过度拟合的的风险(进一步探讨“有限的数据可用性”部分)。此外,使监督学习,必须标注数据集,这可能是难以实现大规模。考虑到这些限制,2 d cnn和关节2 d CNN-RNNs可能是一个更实际的选择在3 d cnn的数据可用性和硬件能力有限的上下文。

尽管有这些限制,几项研究已经使用3 d cnn检测颅内出血。其中两项研究自然语言处理(NLP)训练算法自动提取标签从放射学报告,从而消除了时间/资源成本与手动标记由内科医生。33 34这使的实现3 d cnn回顾性比较大的数据集(> 35 000 CT研究)。然而,与2 d CNN和联合CNN-RNN相比研究,26日27日35这些实现实现AUROC较低。几个原因可以解释这个:(1)他们的数据还不够大,(2)介绍了错误使用NLP算法获得标签,或(3)目标分类任务不太特定的颅内出血。值得注意的是,另一个3 d CNN实现使用一个小得多的数据集(399 CT研究)实现AUROC更高。24这一发现可能归因于手动标记数据集,或者更集中的任务;作者重点检测的具体子类颅内出血,从而简化了问题的任务。重要的是,他们还使用了一种不可靠的验证评估模型,测试在一个小得多的样本相同的数据集作为训练数据。

在文学,不同的方法验证使用,它可能会高估或低估算法性能(这是进一步探索“绩效评估”部分)。出于这个原因,很难得出建筑——3 d CNN,关节2 d CNN-RNN,或2 d CNN——最适合处理体积医学图像数据。从理论上讲,2 d cnn不依赖于大型数据集,downsampled输入,和沉重的计算需求,并能更容易地利用TL的力量。因此,他们的利益可能超过3 d cnn。然而,进一步的研究比较这些不同的架构在一个有效的研究是必需的。

帮助机器来“看”

预处理形成一个基本的第一步准备任何ML / DL算法。虽然扮演更重要的角色在传统ML,简单的图像处理可以大大提高DL模型的学习能力特性和提高算法精度。

一个预处理步骤通常用于CT脑出血检测是图像窗口。26日27日30 34-36放射科医生使用窗口来突出特定的组织或异常的评价。这个调整图像的亮度和对比度通过操纵像素显示的范围。一项技术提供窗口的图像作为输入的DL模型是通过每一个频道CT图像转换成三个通道,每个通道代表一个不同的CT窗口(如大脑、骨骼和硬膜下windows)。26日30事实上,李30.发现这样的步骤对提高算法精度的影响大于底层CNN架构本身的选择。同样,根据24采用一种新颖的空间直方图阈值法抛弃像素强度常见的正常和异常的CT扫描,从而强调个人边缘周围的ROI。阈值图像显著提高其准确性(F1分数)。

数据集贴上更多的细节可以提供更强的监督和改善模型性能。几项研究使用进行像素级标签数据集,每个图像块与出血的位置标注。22日31日43这使CNN略有不同的架构,将分割的方法检测任务。郭31日patch-based CNN,使用设计模式来处理补丁内而不是整个2 d图像。常22介绍基于区域使用面具R-CNN (CNN)。该模型首先扫描预配置边界框为潜在的异常在每个片/卷。如果存在,这些边界框然后用于生成地区建议,算法的注意力集中于特定区域的图像。基于这个盒子,模型进行分类预测,随后段出血如果存在。两张22和郭31日验证他们的模型对独立测试数据集,实现AUROCs超过0.98,说明增加监督的潜在好处。然而,这种方法的主要缺点是需要进行像素级标签,放射学家典型非常耗时的任务需要专家经验。

有限的数据可用性

数据集大小限制在DL应用非常普遍,特别是在医学图像必须获得批准,鉴定、和地面truth-labeled放射科医师专业知识。

DL网络处理高维数据和经常overparameterized模型,容易“过度学习”训练数据特征。没有一个适当的大型数据集,cnn可以overfit训练数据,导致高估了训练数据和糟糕的泛化性能的新数据。这是一个重要的问题对于复杂3 d cnn等架构。通过简化模型,该模型可以减少overfit的倾向。因此,深,复杂架构不一定是最好的。44

正则化方法,如体重衰变,辍学的层,和早期的使用停止也是常用的方法来减轻过度拟合。这些技术不断出现在文学。22日24 26日28日30 31到三十五43他们通常函数通过保持网络参数小,减少噪音或统计模型的灵敏度波动输入数据。44一些研究也使用整体方法,结合预测从单独的模型训练在同一数据集,生成一个单一的预测。30 33 34由于变量性质的训练,每个模型学习不同版本的输入输出映射函数,从而产生不同的性能。44结合模型降低了预测的方差,从而过度拟合。事实上,整体性能已被证明是优于单模性能。30 45

最近,TL数据集被用来克服有限的可用性。TL涉及使用一个模型pretrained在大型数据集,比如ImageNet数据库包含数以百万计的图像。46初始化模型与随机权重,而是pretrained模型的学习权重可以转移到目标模型,然后调整在一个较小的数据集。的目的是双重的:(1)以提高性能,通过从头训练模型,(2)减少火车模型所需的数据量。47从理论上讲,TL用于医学成像时遇到的一些挑战。存在固有的差异在源和目标数据集-自然图像从源pretraining数据集有不同的像素表示和范围与目标相比,放射学影像数据集。48这种差异在数据分布数据集可以影响TL的转移效果。49尽管如此,TL已经成功应用在乳腺肿瘤诊断50 51和皮肤癌症分类。14在CT检测颅内出血,Dawud28threshold pretrained 2 d CNN模型在他们自己的数据集,实现精度(92.13%)与此实现略大于他们的模型从头训练(90.65%)。值得注意的是,很少有其他的研究在文献中TL申请这个任务。29 30尽管如此,大多数成功的解决方案从RSNA颅内出血检测算法融入了TL Kaggle挑战,39-41 52-56因此强调技术需要进一步研究。

TL的另一个重要的缺点是缺乏可用pretrained 3 d cnn。动力学数据集57被用来创建pretrained 3 d cnn。然而,这些模型是培训视频,大大不同于体积图像。57 58相反的第三维空间的另一个轴作为输入,Kinetics-trained 3 d cnn分析时间维度。作为回应,一些研究旨在创建医疗image-pretrained 3 d cnn。这些cnn大型医疗训练数据集通过聚合多个数据集59或利用self-supervised模型学习无标号数据集。60他们实现优越的性能与网络训练与自然视频或从头开始训练。59Image-pretrained 3 d CNN尚未应用于CT颅内出血的背景下检测和代表着大道为未来的研究,考虑到他们可能提高3 d CNN的表现。

解决数据集的限制通常采用的方法是增加数据。24日26日28 30 34 35这涉及到图像转换水平翻转等生成的模型训练更多的图片。这可以另外address类不平衡——通过执行提高扩增的弱势阶层,平衡的数据集可以人为地创造。61年的另一种选择是/ /欠采样的某些类。31日然而,尽管这些是任何ML / DL算法的基本要素,他们不增加真实数据集的多样性。

生成方法已经提出建立人工图像模拟的实例的原始数据集。甘斯(生成对抗网络)的特点是两个同时训练神经网络。62年一个试图生成现实的图像,而其他函数作为鉴别器评估生成和原始图像之间的相似之处。他们作为“敌人”,旨在超越对方。最近,甘斯已经被用于生成人工2 d脑核磁共振图像区别真正的核磁共振图像。63年如果外推到其他应用程序中,这种技术是一个潜在的解决方案合成数据增加,减轻对大的需要,已标示的数据集。24然而,甘斯是出了名的难以训练,因此在放射学仍相对较新的应用。

另一种类型的生成DL算法,autoencoder,提出了。37不像cnn, autoencoders不能占规模、旋转、平移不变性。64年然而,他们对于少量的标签问题非常有用数据和大量的未标记数据。首先pretrained autoencoder大无标号数据集,进行无监督学习,目的是生成一个输入图像的重建。这使得重要的训练数据集的基本特征是学习,呼应了TL的pretraining方面。一旦pretrained网络,然后进行监督学习,把标签输入图像和学习图像分为他们的标签。与2 d相比CNN训练在同一个小数据集(2577 2 d切片),以往37增加了1.3%在堆叠autoencoder准确性。虽然温和改善,他们的研究表明的潜在适用性autoencoders在小数据集的实现。

使用这些技术,训练模型与一个小数据集仍然是可行的。然而,小数据集限制了该模型的有效性。

考虑在实现深度学习算法在临床工作流程

评估性能

有效性和普遍性是必不可少的元素考虑当评估任何预测诊断算法。可靠的验证对DL算法很重要,它很容易过度拟合和随后的可怜的泛化新数据。最近人工智能算法用于医学图像的诊断分析发现,只有6%的516年发表的研究进行外部验证,与大多数无法验证其性能在实际临床设置。65年

在颅内出血检测的背景下,许多研究使用split-sample验证。24 28 33 35 36在这种方法中,算法性能评估看不见的伸出样本最初源自于训练数据集。这是一种相对缺乏的结果数据,这使得测试在一个独立的数据集上困难。然而,模型训练CT研究获得某些扫描仪在某些机构可能无法推广到其他地方获得的数据。此外,在数据集内,类不平衡度和光谱图像包含扮演一个角色。这些光谱与偏见,光谱数据集导致病人表现的模型性能不反映真实的性能目标人群。66年小,密度较低出血经常发现错过了DL的实现。35 43这些包括sah,被认为是最具挑战性的一个亚型诊断、9是位于靠近颅底或相邻的radiodense颅穹窿工件更常见。67年在一个实现中,检测SAH的敏感性明显低于其他亚型(表1)。35针对这一点,尽管多个研究文献中报道在颅内出血检测精度高,一些没有描述出血出现在数据集的类型,它们的相对比例样本,或微妙的出血性病变的程度在图像。28日36 37因此,尽管他们提供技术可行性的证据,令人印象深刻的表现从同样的训练数据集,数据集获得代表性的目标人群,风险谱偏见和质疑适用性。66年

外部验证与独立数据集收集在不同的时间从不同的网站需要改善的有效性。几项研究实现了这一点,22日26日27日30 31 34 38一些使用未来的数据集来评估性能。22日30 34 38后者的研究为评价提供最有用的信息,与测试集模拟真实世界临床人群。Ginat38测试了DL-based颅内出血检测软件对所有执行NCCT扫描2个月的学术医疗中心。结果表明,算法的性能取决于病人的访问地点,以更好的颅内出血急诊病例的检测精度比住院病例。这可能是由于增加的住院病人存在混杂特性扫描——比如术后发现——这可能会被误解为假阳性。这加强了考虑测试数据集的来源的重要性在评估模型。

评估的临床可行性和实用性

挑战快速部署的机器生成的决策与缺乏信任机器生成的决策,以及工作流集成和成本的考虑。

一个重要的问题困扰DL模型缺乏可解释性。由于复杂的特征提取方法,它可以不可能解释DL的预测模型。68年“黑盒”特点提出了挑战中的谬误的识别算法。无法合理的算法的决定破坏了信任放在这些系统,特别是当存在潜在的法律和道德的影响。为了解决这个问题,一些研究类激活使用映射技术来产生注意力地图从2 d cnn,突出图像像素模型的最终预测有极大的帮助。30 35然而,这种复杂的可视化方法实现3 d网络,34限制对3 d cnn的适用性。然而,增加模型的可解释性和explainability接受更广泛的医疗社区至关重要。

部署一个自动化的DL系统需要特定的硬件设施和软件集成。尽管高性能计算机可以是昂贵的,这种计算能力是至关重要的对算法性能的不利影响降到最低。这尤其担忧3 d cnn,计算量比2 d cnn。34与临床工作流集成环境如pac也是至关重要的。临床决策支持工具的使用与pac集成时被发现增加三倍。69年因此,实现应该适应一个完全自动化的过程中CT研究转移到设备执行训练网络推理,并传送回相关临床工作流工具(s)。常22这样做,为其实现提供证据的临床可行性。

展示潜力作为自动分流系统,几项研究实现其算法在实际临床设置。33 34 38在一个模拟、随机、双盲临床试验,Titano33报道,他们自动DL诊断工具是150倍的放射科医生在萎靡不振的一个潜在的紧急头部CT异常(1.2 vs 177年代)。虽然他们的算法的表现不佳(AUROC = 0.73, = 0.79敏感性,特异性= 0.48),他们展示了其效用在换换工作队列,确保紧急头由放射科医生之前解释的图像。在此基础上,Arbabshirani34实现他们的DL系统前瞻性为3个月,用它来理清思绪放射学列表。他们的算法实现更高AUROC(0.85)并成功地减少新门诊诊断颅内出血的时间96%。此外,它识别微妙的颅内出血由放射科医生忽视。虽然有前途,这些算法不能报告出血的子类,它的位置,或其敏锐度。此外,临床效用的最佳衡量标准在于病人的评估结果。还需要进一步的研究来解决这些问题。

采用的另一个障碍是困难的在医疗监管环境周围的人工智能的实现。有增加美国食品和药物管理局(FDA)批准AI / ML-based软件作为一个医疗设备(SaMD)在过去的十年。70年Viz.ai,于2018年得到FDA的监管批准,展示了潜在的AI中风保健改革。它自动识别和分类LVO中风,立即通知相关的中风专家和简化沟通,储蓄平均52分钟前LVO治疗。71年最近批准的实现颅内出血检测承诺类似的流程改进。72 73尽管如此,目前没有统一标准,具体调节SaMD等。74年通路FDA监管部门的批准或CE标志通常始于建立产品的预期用途和它的类(或风险),74年紧随其后的是安全性和有效性评估通过科学理解和临床试验。75年然而,如前所述,达到全面了解黑盒算法往往是困难的。此外,快速自适应人工智能的本质和DL算法与漫长的临床试验过程冲突。长期的临床试验来验证的设备修改会阻碍进步的自学习算法,通过持续改善真实的反馈和培训。75年作为回应,美国食品和药物管理局最近提出了一个框架,修改AI / ML-based SaMD,概述的总产品生命周期管理方法,旨在促进更快速的算法更新,同时维持有效的保障措施。76年尽管有这些最近的监管的发展,不确定性依然存在,加上缺乏透明的标准在与其他伦理和法律因素包括数据隐私,和法律责任的分配算法失败的情况下。77年解决这些不确定性在促进这些创新的部署至关重要。

总之,一个模型的价值取决于它的有效性等因素,普遍性、可解释性,实现临床工作流。增加信任一个黑盒子算法,评价一个独立数据集的代表目标人群是必需的,最好是在实际实现的背景下。临床效用最大化算法最好国旗颅内出血,亚型,找到他们,和一定程度的explainability执行这些步骤。未来的研究分析后病人结果算法实现也需要更好地评估临床意义。最后,正如黑盒算法在医疗保健的空间成长,那么监管当局需要涉及到技术主管专家,帮助导航越来越复杂的监管体系。

结论

DL拥有巨大的潜力成为自动化系统中实现的检测颅内出血。在这里,我们回顾了它的实现面临的挑战和可能的解决方案来解决这些问题。克服稀缺性的成像数据(特别是带安全标签的数据时),技术,如数据增加,学习,转移和利用的nlp可以使用有效地扩大训练数据集。将三维容积图像的空间信息,各种选择的体系结构存在(3 d cnn、联合CNN-RNNs和2 d cnn),每个建筑都有自己的优点和缺点。无论架构,其他小说预处理措施可以用来提高算法精度。

尽管多项研究证明了一个自动化的临床可行性DL系统的检测颅内出血,限制一些研究的有效性评价标准的变化以及它们之间呈现比较困难。因此,有效的研究直接比较这个任务需要的各种方法。此外,很少有研究和临床验证其算法实现。现有的研究是有限的,他们无法亚型出血或可视化算法决定。因此,努力创建一个临床工具地址这些差距,同时保持准确性、可行性,并顺利融入临床工作流,将加速这些系统的临床应用在不久的将来。

引用

补充材料

  • 补充数据

    仅这个web文件已经由英国医学杂志出版集团从一个电子文件提供的作者(年代)和没有对内容进行编辑。

脚注

  • 推特@Dr阿苏Jhamb

  • 贡献者概念化:哈,我。文献综述:我。手稿草案准备:我。审查和编辑:BT, HKK JM, NK, JR, VT, AJ, RVC, MB, CB,哈。所有作者进行审核和批准最终的手稿。

  • 资金作者并没有宣布具体资助这项研究从任何公共资助机构,商业或非营利部门。

  • 相互竞争的利益没有宣布。

  • 病人同意出版不是必需的。

  • 出处和同行评议不是委托;外部同行评议。

  • 补充材料此内容已由作者(年代)。尚未审查由BMJ出版集团有限公司(BMJ)和可能没有被同行评议。任何意见或建议讨论仅代表作者(年代)和不了BMJ的支持。和责任起源于BMJ概不负责任何依赖的内容。内容包括任何翻译材料,BMJ并不保证翻译的准确性和可靠性(包括但不限于当地法规、临床指南,术语,药物名称和药物剂量),和不负责任何错误或遗漏引起的翻译和改编或否则。