大规模多中心乳腺癌 DCE-MRI 基准数据集:推动乳腺癌诊疗新突破

时间:2025年3月20日
来源:Scientific Data

编辑推荐:

为解决乳腺癌 MRI 专家标注稀缺问题,研究人员构建 MAMA-MIA 数据集,助力相关 AI 模型发展。

广告
   X   

# 大规模多中心乳腺癌 DCE-MRI 基准数据集:乳腺癌诊疗的新希望
在医疗技术飞速发展的今天,乳腺癌依旧是女性健康的重大威胁。磁共振成像(Magnetic Resonance Imaging,MRI)作为乳腺癌评估的重要手段,尤其是 T1加权动态对比增强成像(T1-weighted dynamic contrast-enhanced imaging,DCE-MRI),能够借助对比剂增强乳房内的血管和组织,帮助医生定位肿瘤。精准勾勒肿瘤边界(肿瘤分割,tumor segmentation),对于准确评估肿瘤的形状、大小和体积至关重要,这不仅有助于监测疾病进展,还能评估治疗效果。同时,金标准分割(gold-standard segmentations)对于深入分析乳腺癌特征、开发人工智能(Artificial Intelligence,AI)模型以改善诊断和预后也具有重要意义。
然而,目前的研究面临着诸多挑战。一方面,公开数据集中专家标注的数量极为有限,这使得当前许多研究的样本量较小,通常不超过 300 例。另一方面,开放获取的 DCE-MRI 数据集不仅数量稀少,而且缺乏标准化,在文件夹结构、文件命名和临床变量等方面存在差异。在这样的背景下,开展一项旨在解决这些问题的研究显得尤为迫切。

来自巴塞罗那人工智能医学实验室(Barcelona Artificial Intelligence in Medicine Lab,BCN-AIM)、卡罗林斯卡学院(Karolinska Institutet)等多个国外机构的研究人员,共同进行了一项重要研究。他们的研究成果发表在《Scientific Data》上,为乳腺癌研究领域带来了新的曙光。

研究人员主要采用了以下关键技术方法:

  1. 数据收集与整理:从癌症影像存档库(The Cancer Imaging Archive,TCIA)的四个不同数据集中收集了 1506 例治疗前的 DCE-MRI 病例,这些病例均来自接受新辅助化疗(neoadjuvant chemotherapy,NAC)的乳腺癌患者,并对收集的数据进行了整理和标准化处理。
  2. 专家分割:16 位平均拥有 9 年经验的专家参与了肿瘤分割工作。为提高效率,研究人员先利用深度学习模型生成初步分割结果,再由专家进行校正和验证。
  3. 模型训练:使用 nnU-Net 框架训练自动分割模型,并提供了预训练权重,这些权重可用于多种分割任务。

研究结果如下:

  1. 构建 MAMA-MIA 数据集:研究人员成功构建了 MAMA-MIA 数据集,该数据集包含 1506 例治疗前的 DCE-MRI 病例,以及专家对原发性肿瘤和非肿块增强区域的注释。同时,数据集还整合了 49 个经过协调的临床和人口统计学变量,以及基于注释数据训练的基线 nnU-Net 模型的预训练权重。
  2. 数据多样性:数据集涵盖了多种不同的病例特征,如双侧和单侧乳腺癌、不同的磁场强度、切片数量、切片厚度和扫描仪制造商等,反映了真实世界的临床实践,增强了数据集的通用性。
  3. 质量控制评估:对初步自动分割结果进行了视觉质量控制评估,将其分为 “良好”“可接受”“差”“遗漏” 四个质量类别。通过分析发现,简化为 “良好” 与 “需要校正” 的二元分类方案可提高专家之间的一致性。

研究结论和讨论部分表明,MAMA-MIA 数据集是目前乳腺癌 MRI 领域最大的专家标注数据集,它填补了乳腺癌研究中缺乏金标准分割的重要空白。该数据集可用于开发、验证和基准测试先进的深度学习模型,推动乳腺癌诊断、治疗反应预测和个性化医疗的进步。例如,在治疗反应和生存预测方面,可作为开发 AI 模型的基准;在自动分割方面,有助于开发大规模、可推广且稳健的自动肿瘤分割模型。同时,研究人员也指出数据集可能存在潜在偏差,如初步自动分割和专家间的差异,但这并不影响其在乳腺癌研究中的重要价值。

总之,这项研究成果为乳腺癌的研究和临床实践提供了重要的资源和支持,有望推动乳腺癌诊疗领域取得新的突破,让更多患者受益。

生物通微信公众号
微信
新浪微博


生物通 版权所有