MDS骨髓细胞大规模数据集:推动骨髓增生异常综合征AI形态学诊断新突破

时间:2025年11月21日
来源:Scientific Data

编辑推荐:

本推荐介绍一项针对骨髓增生异常综合征(MDS)诊断难题的研究。研究人员构建了包含25,009张骨髓细胞图像的大规模数据集,涵盖27种细胞类型。通过三重专家标注验证和创新的图像裁剪技术,该数据集训练的AI模型在识别病态造血细胞方面表现出色,为血液疾病AI诊断提供了重要资源。研究成果发表于《Scientific Data》,对推动血液病理学智能化发展具有重要意义。

广告
   X   

在血液系统疾病的诊断领域,骨髓涂片细胞形态学评估始终扮演着不可替代的角色。特别是对于骨髓增生异常综合征(MDS)这种高度异质性的疾病,病理造血过程导致细胞形态复杂多变,给准确诊断带来巨大挑战。目前诊断需要两位病理医师人工鉴别和计数至少500个有核细胞,这个过程不仅耗时耗力,而且结果易受主观因素影响。
尽管近年来自动形态分析仪已逐步应用于实验室工作,机器学习的发展也提升了分析仪的准确性,但其进步很大程度上依赖于大规模高质量数据集的可用性。令人遗憾的是,现有研究多集中于外周血细胞,而骨髓细胞数据集相对稀缺。由于骨髓细胞形态特征多样、类型众多,且某些细胞出现频率较低,很难获得足够数量的细胞进行有效算法训练。此外,在细胞分割过程中,骨髓涂片因细胞重叠现象更为严重而比外周血涂片更具挑战性。
为了解决这些难题,浙江大学医学院附属第一医院的研究团队联合杭州金斯顿生物科技有限公司开展了开创性工作,他们在《Scientific Data》上发表了题为"A large dataset of bone marrow cells in myelodysplastic syndrome for classification systems"的重要研究成果。
研究方法的核心在于建立高质量的MDS骨髓细胞图像数据集。研究团队收集了125例MDS患者的首次骨髓涂片,这些患者根据世界卫生组织(WHO)2022年分类标准确诊,包括MDS-LB(44例)、MDS-IB1(46例)、MDS-IB2(31例)等亚型。患者年龄范围23-82岁,中位年龄64岁,男性69例,女性56例。
数据采集采用两种方式:主要部分通过MorphoInsight全自动玻片扫描分析系统完成,该系统配备100倍油镜和LED光源,生成像素距离为75纳米的全玻片图像(WSI);补充部分则通过安装在显微镜上的数码相机获取。创新之处在于,细胞裁剪时基于最长边将边界框转换为正方形,并扩展10%,从而保证细胞边界和形态特征的完整性,同时最小化周围细胞的包含。
数据标注流程极其严谨:首先由具有8年工作经验的医学技师鉴定骨髓有核细胞亚型,随后由20年经验的专家审核,出现不一致时再由25年经验的专家复核。细胞图像最终分为32个类别,包括正常骨髓细胞和MDS病态造血相关的异常细胞,如原始细胞、病态粒细胞、小巨核细胞和微巨核细胞等。
数据记录与组织
数据集根目录包含两个文件夹:"main"文件夹存储通过MorphoInsight获取的细胞图像,"add"文件夹存储补充细胞图像。每个文件夹中,图像按细胞分类分组,图像名称采用细胞分类和索引的格式。CSV文件列出了图像路径和对应信息,其中"main"文件夹的CSV文件提供细胞分类和直径信息,"add"文件夹的CSV文件还包含拍摄原始图像时使用的相机分辨率设置。
技术验证结果
通过MorphoInsight获取的图像按70%(15987张)、10%(2352张)和20%(4503张)的比例随机分为训练集、验证集和测试集。使用MorphoInsight的细胞分类模型进行迁移学习,该模型专门用于正常骨髓细胞分类作为基础模型,最终整体准确率达到80.13%。
在训练过程中,小巨核细胞、微巨核细胞、病态粒细胞和病态幼红细胞作为新类型加入。这四类病态造血细胞的F1分数分别为50.85%、64.94%、31.25%和59.31%。病态细胞与其相应正常类型之间存在一定的混淆,这可以通过它们之间的形态相似性来解释。基础模型无法将病态粒细胞和幼红细胞与正常细胞区分开来,并将小巨核细胞和微巨核细胞主要预测为淋巴细胞和破碎细胞。
模型性能分析
混淆矩阵显示了对训练模型分类结果的详细分析。对角线的绿色单元格表示每个类别的真阳性数,非对角线值给出了错误预测的数量。例如,小巨核细胞的召回率为58.82%,精确率为44.78%;微巨核细胞的召回率为58.14%,精确率为73.53%;病态粒细胞的识别性能相对较低,召回率仅为27.03%,精确率为37.04%;而病态幼红细胞的表现较好,召回率达到64.18%,精确率为55.13%。
测试表明,使用该数据集可以实现对病态细胞的可接受分类性能。随着细胞图像数量的增加,可以预期更好的结果。事实上,这里提供的数据集仅构成收集数据的一小部分,因为每个WSI可能包含数千个细胞,其余部分尚未经过彻底注释,可用于进一步学习和优化MorphoInsight的细胞分类模型。
研究结论与意义
这项研究成功构建了目前最大的MDS骨髓细胞形态学数据集,为AI在血液疾病诊断中的应用提供了重要资源。数据集通过多重专家验证确保了标注质量,创新的图像处理技术保证了细胞形态特征的完整性。研究证明,基于该数据集训练的AI模型能够有效识别MDS特有的病态造血细胞,为解决骨髓细胞形态学分析的瓶颈问题提供了可行方案。
该数据集的发布填补了MDS特异性骨髓细胞数据资源的空白,对推动血液病理学AI技术的发展具有里程碑意义。它不仅可用于开发自动细胞分类系统,还能作为研究病态造血细胞形态特征的重要参考。随着数据规模的不断扩大和算法的持续优化,AI辅助MDS诊断有望成为临床实践的标准流程,显著提高诊断效率和准确性,减轻病理医师的工作负担。
需要注意的是,由于某些细胞类别出现频率较低,数据集中的细胞数量可能不足以获得理想的分类结果。在实际应用中,可以考虑排除诸如巨幼样晚幼红细胞、组织细胞和病态巨核细胞等类别,或者合并形态学和临床意义相似的类别,如将不明来源的原始细胞、原始粒细胞、原始单核细胞和幼单核细胞全部视为原始细胞进行处理。
该数据集以JPEG图像和CSV格式信息文件组成,无需特殊软件即可查看和使用,可通过figshare数据仓库公开获取(https://doi.org/10.6084/m9.figshare.28737170.v1)。这一重要资源的开放共享将极大促进血液病AI诊断领域的研究进展和临床转化。

生物通微信公众号
微信
新浪微博


生物通 版权所有