在全球范围内,肝癌是导致癌症相关死亡的主要原因之一,其中肝细胞癌(HCC)是最常见的原发性肝癌类型。B型超声作为一种无创、便捷、成本相对较低的影像学检查手段,是肝癌筛查和早期诊断的重要工具。然而,准确区分肝脏中的恶性病灶(如HCC)和良性病灶(如最常见的良性肝肿瘤——肝血管瘤)是临床实践中的一大挑战。这种分类的准确性直接影响着后续治疗方案的制定和患者的预后。传统上,超声图像的解读高度依赖于放射科医生的经验和主观判断,存在一定的诊断异质性。近年来,深度学习技术为自动化、精准的医学影像分析带来了革命性的希望。然而,一个核心瓶颈在于,要训练出强大而鲁棒的深度学习模型,需要有大规模、标注准确、且临床相关性强的数据集作为“燃料”。当前,公开可用的、专门针对肝脏局灶性病变分类的高质量超声数据集非常稀缺,这严重制约了相关人工智能模型的开发、验证和临床转化。为了破解这一困局,来自韩国三星医疗中心(Samsung Medical Center, SMC)的研究团队在《Scientific Data》上发表了一项重要的研究工作。
本研究旨在构建并发布一个大规模、公开可用的B型肝脏超声数据集,专门用于HCC和肝血管瘤这两种关键肝脏局灶性病变的分类。该数据集被命名为SMC-LUD (Samsung Medical Center - Liver Ultrasound Dataset)。研究人员收集了韩国三星医疗中心在2015年至2024年间产生的超声影像数据,经过严格的匿名化处理和专业的医学标注,最终构建的数据集包含了来自1,021名患者的5,385张B型超声图像。这些图像被明确分为两个临床核心类别:肝细胞癌(HCC)和肝血管瘤。其中,所有HCC病例(共2,716张图像)的诊断均通过手术切除或活检获得了组织病理学(histopathologically)的确认,这是诊断的“金标准”。而所有肝血管瘤病例(共2,669张图像)则依据其特征性的影像学表现,由放射科医生进行诊断。每一张图像的标签都由具有执业资格的放射科医生和病理学家进行了审核和验证,并且数据按照患者级别进行组织,确保了其临床研究的实用性。SMC-LUD的发布,直接针对当前肝脏超声人工智能研究领域数据匮乏的核心问题,为开发和验证用于肝癌筛查和诊断的深度学习模型提供了一个高质量的基础。