RADIOLOGY:用于整合胸部X光片和临床参数的多模态深度学习
时间:2023-10-06 11:37:13 热度:37.1℃ 作者:网络
在医学上,疾病的诊断是基于来自多个来源的数据。临床医生将根据放射图像、临床数据、患者病史、实验室发现和许多其他模式的信息做出决定。人类的思想能够将所有这些输入浓缩成一个理性的决定。
长期以来,人们一直认为深度学习有能力协助医生完成某些任务,并且已经表现出与人类专家同等或更好的表现。然而,有一个关键障碍限制了此类模型的一般适用性——这些模型几乎完全是为了一次使用一种类型的数据来解决任务,无论是诊断放射图像的病理还是检测组织病理学图像的遗传改变。
在此实现的基础上,需要能够将成像和非成像数据作为输入相结合的模型来真正支持医生的决策。不幸的是,过去流行的深度学习架构不适合处理大量成像和非成像数据;卷积神经网络(CNN)利用基于图像属性的内在偏差,例如相邻像素之间的相关性;非成像信息的集成并不简单。
基于变压器的神经网络架构最初用于自然语言任务,最近被证明在图像处理方面与CNN具有竞争力,同时非常适合结合成像和非成像数据。这种在很大程度上与输入无关的属性是通过使用注意力机制来实现的,该机制为输入数据的不同部分分配重要性分数,无论这些数据是成像还是非成像性质。此外,这些重要性分数的可视化为变压器模型的决策过程提供了宝贵的见解。因此,它们在医学中的应用是下一个合乎逻辑的步骤。
然而,变压器有一个明显的缺点;即它们的计算负载随着输入数量的二次尺度。如果没有补救措施,这将限制医学研究的进展。为了解决这个问题,2023年10月3日发表在RADIOLOGY的研究,其目的是开发一个专门针对医疗环境的变压器模型,即应以可解释的方式高效处理成像数据和特定于每个患者的潜在大量非成像数据。
本文摘要图
另一个目标是使用来自公共数据集的多模态输入和重症监护病房(ICU)环境中患者的独立内部数据集来评估该模型的诊断能力。假设是,当对成像和非成像数据(多模态)进行训练时,变压器模型的诊断性能将优于仅对成像或非成像数据(单模态)进行训练。
在这项回顾性研究中,从重症监护医疗信息市场(MIMIC)数据库和由重症监护病房(ICU)住院患者胸部X光片和临床参数组成的内部数据库中提取了成像和非成像患者数据(2008年1月至2020年12月)。MIMIC和内部数据集分别分为训练(n = 33 893,n = 28 809)、验证(n = 740,n = 7203)和测试(n = 1909,n = 9004)集。一种新的基于变压器的神经网络架构被训练为仅使用非成像数据、仅使用成像数据或多模态数据来诊断多达25个条件。使用接收器操作特性曲线(AUC)分析下的区域来评估诊断性能。
研究结果显示,MIMIC和内部数据集分别包括36 542名患者(平均年龄,63岁±17[SD];20 567名男性患者)和45 016名患者(平均年龄,66岁±16;27 577名男性患者)。多模态模型显示了所有病理条件的诊断性能的提高。对于MIMIC数据集,当同时使用胸片和临床参数时,平均AUC为0.77(95%CI:0.77,0.78),而仅使用胸片时,平均AUC为0.70(95%CI:0.69,0.71;P < 0.001),仅临床参数为0.72(95%CI:0.72,0.73;P < 0.001)。这些发现在内部数据集上得到了证实。
研究的概述
综上所述,这项研究表明,在大规模成像和非成像数据上训练的变压器模型优于在单模数据上训练的模型,尽管未来的研究应该调查其他成像场景,以可靠地确认可推广性。随着变压器架构的出现和对多模态深度学习模型的兴趣日益增长,我们预计包括从X线摄影到核磁共振成像的不同模式、从头到脚的解剖学以及各种条件的大规模数据集将公开。这将成为本研究中提出的变压器模型的理想应用和测试场地。
原文出处
Multimodal Deep Learning for Integrating Chest Radiographs and Clinical Parameters: A Case for Transformers
Firas Khader, Gustav Müller-Franzes, Tianci Wang, Tianyu Han, Soroosh Tayebi Arasteh, Christoph Haarburger, Johannes Stegmaier, Keno Bressem, Christiane Kuhl, Sven Nebelung, Jakob Nikolas Kather, and Daniel Truhn
Radiology 2023 309:1