在计算机断层扫描肺部数据集中检测混杂因素及潜在混杂因素

时间：2025年11月13日

来源：Journal of Imaging Informatics in Medicine

编辑推荐：

针对CT图像机器学习模型易受成像参数差异影响的问题，提出基于元数据的无监督方法自动检测潜在偏倚因素，实验表明控制这些因素可使分类准确率提升5-15%，增强模型鲁棒性和临床适用性。

摘要

在计算机断层扫描（CT）图像上训练的机器学习模型对成像采集参数的变化非常敏感。即使是微妙的不一致性，也常常被人类的放射科医生忽略，但它们可能会显著降低模型的准确性。在临床实践中，由于成像协议和扫描仪特性的差异，数据集经常表现出异质性，这使得相关的元数据成为识别偏差来源的宝贵资源，但却往往没有得到充分利用。为了解决这个问题，我们提出了一种新颖的无监督方法，该方法能够系统地识别元数据中嵌入的混淆因素和潜在的混淆因素。我们方法的主要优势包括：自动检测具有影响力的元数据属性、对人工输入的依赖性极低，以及能够主动标记可能在模型部署后引起模型漂移的变量。在两个不同的CT数据集上的实证评估表明，控制我们方法识别出的因素可以显著提高模型性能，与这些因素未被控制的数据集相比，分类准确性提高了5%到15%。这些比较结果凸显了我们这种方法在大幅提高放射组学机器学习模型的鲁棒性、一致性和临床适用性方面的潜力。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部