编辑推荐:
基于海量临床数据,Merlin是一种新型三维医学视觉语言模型,能够融合体部CT扫描、电子健康记录和放射学报告,在诊断、预后及质量评估等6类752项任务中表现优异,超过二维VLM、CT基础模型和现有放射学模型,并已在多个独立机构验证,结果具有广泛泛化性。公开了25,494对腹部CT和报告数据集。
大量的腹部计算机断层扫描(CT)数据,加上放射科医生的短缺,加剧了对自动化医学图像分析工具的需求。以往的先进自动化分析方法依赖于视觉-语言模型(VLMs),这些模型能够同时处理图像和放射学报告。然而,当前的医学VLMs主要局限于2D图像和简短的报告。为了解决腹部CT解读中的这些问题,我们提出了Merlin,这是一种能够从体积CT扫描、电子健康记录数据和放射学报告中学习的3D VLM。该方法通过一个多阶段预训练框架实现,无需额外的手动标注。我们使用了一个高质量的临床数据集对Merlin进行了训练,该数据集包含15,331份CT扫描的超过600万张图像、超过180万个诊断代码以及超过600万个放射学报告的文本信息。我们在6种任务类型和752个具体任务上对Merlin进行了全面评估,这些任务涵盖了诊断、预后和质量相关的方面。非定制化的任务包括零样本分类(30种发现)、表型分类(692种表型)以及跨模态检索(图像到发现和图像到印象)。定制化的任务包括5年慢性疾病预测(6种疾病)、放射学报告生成和3D语义分割(20个器官)。我们通过内部测试(5,137份CT扫描)和外部测试(来自3个独立机构和2个公共数据集的44,098份CT扫描)验证了Merlin的性能。结果表明,Merlin在跨机构和不同解剖结构上的泛化能力很强,其性能优于2D VLMs、CT基础模型以及现成的放射学模型。我们还计算了模型的扩展规律,并进行了消融研究以确定最佳的训练策略。我们公开了我们的训练模型、代码和数据集,这些数据涵盖了25,494对腹部CT扫描和放射学报告。我们的研究结果表明,Merlin可以帮助解读腹部CT扫描结果,减轻放射科医生的工作负担,同时为未来的生物标志物发现和疾病风险分层提供价值。
生物通 版权所有