Merlin：一个基于计算机断层扫描（CT）技术的视觉-语言基础模型及数据集

时间：2026年3月6日

来源：Nature

编辑推荐：

基于海量临床数据，Merlin是一种新型三维医学视觉语言模型，能够融合体部CT扫描、电子健康记录和放射学报告，在诊断、预后及质量评估等6类752项任务中表现优异，超过二维VLM、CT基础模型和现有放射学模型，并已在多个独立机构验证，结果具有广泛泛化性。公开了25,494对腹部CT和报告数据集。

摘要

大量的腹部计算机断层扫描（CT）数据，加上放射科医生的短缺，加剧了对自动化医学图像分析工具的需求。以往的先进自动化分析方法依赖于视觉-语言模型（VLMs），这些模型能够同时处理图像和放射学报告。然而，当前的医学VLMs主要局限于2D图像和简短的报告。为了解决腹部CT解读中的这些问题，我们提出了Merlin，这是一种能够从体积CT扫描、电子健康记录数据和放射学报告中学习的3D VLM。该方法通过一个多阶段预训练框架实现，无需额外的手动标注。我们使用了一个高质量的临床数据集对Merlin进行了训练，该数据集包含15,331份CT扫描的超过600万张图像、超过180万个诊断代码以及超过600万个放射学报告的文本信息。我们在6种任务类型和752个具体任务上对Merlin进行了全面评估，这些任务涵盖了诊断、预后和质量相关的方面。非定制化的任务包括零样本分类（30种发现）、表型分类（692种表型）以及跨模态检索（图像到发现和图像到印象）。定制化的任务包括5年慢性疾病预测（6种疾病）、放射学报告生成和3D语义分割（20个器官）。我们通过内部测试（5,137份CT扫描）和外部测试（来自3个独立机构和2个公共数据集的44,098份CT扫描）验证了Merlin的性能。结果表明，Merlin在跨机构和不同解剖结构上的泛化能力很强，其性能优于2D VLMs、CT基础模型以及现成的放射学模型。我们还计算了模型的扩展规律，并进行了消融研究以确定最佳的训练策略。我们公开了我们的训练模型、代码和数据集，这些数据涵盖了25,494对腹部CT扫描和放射学报告。我们的研究结果表明，Merlin可以帮助解读腹部CT扫描结果，减轻放射科医生的工作负担，同时为未来的生物标志物发现和疾病风险分层提供价值。