PySERA:面向自动化、可扩展且可复现的手工与深度影像组学的开源标准化Python库

时间:2026年5月25日
来源:Computer Methods and Programs in Biomedicine

编辑推荐:

摘要:影像组学分析旨在从医学图像中提取定量生物标志物以支持精准建模,然而现有工具受限于异构且有限的功能实现,在可重复性与可扩展性方面仍存在不足。为解决上述问题,研究人员开发了PySERA——一个开源、原生Python、标准化的影像组学框架,专为自动化、可重复性

广告
   X   

摘要:影像组学分析旨在从医学图像中提取定量生物标志物以支持精准建模,然而现有工具受限于异构且有限的功能实现,在可重复性与可扩展性方面仍存在不足。为解决上述问题,研究人员开发了PySERA——一个开源、原生Python、标准化的影像组学框架,专为自动化、可重复性及人工智能集成而设计。PySERA采用模块化、面向对象架构重新实现了基于MATLAB的SERA(标准化影像组学分析环境)。该库可计算557个特征,其中包括487个符合影像生物标志物标准化倡议(IBSI)的特征、10个矩不变描述符以及60个额外诊断特征,同时支持从预训练深度学习模型ResNet50(2048个特征)、DenseNet121(1024个特征)和VGG16(512个特征)中提取深度影像组学嵌入。其包含标准化预处理(重采样、离散化、归一化)、多格式输入/输出(DICOM、NIfTI、NRRD)、自适应内存处理及并行多核引擎,以实现可扩展的特征提取。PySERA可直接与scikit-learn、PyTorch、TensorFlow、MONAI等库集成,用于下游机器学习应用。结果显示,PySERA的IBSI可重复性优于94%,与MITK表现接近,并在487个IBSI合规特征的参考集上显著优于PyRadiomics。在8个公共数据集上,PySERA在结局预测任务中的准确率达0.43–0.84,超过PyRadiomics。基准测试表明其处理效率优异(包含其他软件未实现的高阶特征):提取166个特征耗时583秒(内存占用305 MB),全量提取耗时2325秒(内存占用491 MB),且在各平台上输出具有确定性。综上所述,PySERA将标准化的手工/深度影像组学整合于一个可扩展、透明且与Python兼容的框架中,为下一代人工智能就绪的精准影像学研究奠定了可复现且可扩展的基础。
研究背景方面,影像组学正推动医学图像判读由定性观察向定量数据驱动分析转变,通过提取描述形状、强度及纹理的大量化数学特征,将常规CT、MRI、PET、SPECT、超声及X线图像转化为高维可挖掘数据,捕捉人眼难以察觉的形态与空间异质性,从而为疾病表型解析、进展监测及疗效评估提供支持,并服务于精准医疗的预测与预后建模。然而,由于特征实现方式各异、预处理流程不统一以及缺乏标准化互操作框架,影像组学在可重复性与可扩展性上仍面临持续挑战。尽管影像生物标志物标准化倡议(IBSI)已发布数学定义与参考标准,现有工具如LIFEx虽提供临床友好界面但缺乏Python集成与大规模自动化工作流;PyRadiomics虽广泛应用但特征覆盖有限,高阶空间描述符缺失;MATLAB平台的SERA虽特征全面却依赖专有许可,限制了在现代Python生态中的推广。此外,深度影像组学特征虽能超越手工特征预测临床结局,但缺乏开源标准化提取框架。为此,研究人员开发了PySERA,这是一个完全基于Python的下一代影像组学引擎,重新实现并扩展了SERA框架,填补了当前领域的空白。
关键技术方法方面,研究人员构建了涵盖四个阶段的研发管线:概念设计与需求定义、算法设计与标准化、工程实现与软件架构开发、测试验证与基准评测。研究纳入8个独立多中心数据集,包括999例肺癌CT、883例头颈癌PET、1000例前列腺癌MRI、326例HPV状态PET/CT、539例BraTS2021脑肿瘤MRI及236例BC Cancer肺PET-CT,用于评估预测效能。通过对比PyRadiomics v3.1.0、MITK及LIFEx,在六种IBSI配置下进行准确性与一致性基准测试。性能评估采用Windows工作站,控制硬件变量,分别在半匹配(PySERA 166特征 vs PyRadiomics 107特征)与全量提取模式下测试运行时间与峰值内存。跨平台验证在Windows、Linux及macOS上重复执行以确保确定性。集成测试覆盖3D Slicer与Radiuma软件平台。
研究结果方面,首先在预测效能上,PySERA手工影像组学特征在8个数据集上的表现与PyRadiomics相当或更优,准确率介于0.43至0.84之间。例如在HPV(CT)数据中,PySERA结合高斯过程分类器达0.84±0.03;在头颈癌PET中最高达0.63±0.05。深度影像组学特征同样表现稳健,在肺癌CT中与手工特征最高准确率持平(0.75±0.01)。AUC分析进一步支持其判别能力,在BC Cancer PET中深度特征AUC达0.64,超过PyRadiomics的0.60。配对t检验显示两者性能无统计学显著差异。其次在IBSI准确性与一致性方面,PySERA在六项配置中均保持高于94%的一致性,配置D下达97.09%,接近MITK的98.77%。PySERA支持557个手工特征(含487个IBSI特征),远超PyRadiomics的107个与LIFEx的187个,特征覆盖与标准化程度领先。第三在性能与可扩展性测试中,半匹配模式下PySERA耗时583秒(内存305 MB),全量提取557特征耗时2325秒(内存491 MB)。深度模型方面,DenseNet121在效率与内存间平衡最佳(395秒,743 MB),VGG16内存需求最高(1454 MB)。尽管PyRadiomics速度更快,但这是以其较小特征集为代价的。第四在软件集成方面,PySERA成功作为扩展模块集成入3D Slicer 5.11.0及Radiuma 1.0.0,支持图形界面下的手工与深度特征提取,并能衔接下游分类、回归及聚类算法,实现端到端自动化工作流。
讨论与结论部分,研究人员指出PySERA通过严格遵循IBSI定义,实现了跨平台确定性与可审计性,解决了现有工具的黑箱问题。其扩展的特征空间(含高阶纹理、矩不变及诊断特征)在多项任务中展现出预测优势,虽提升幅度有限,但证明了特征粒度标准化的重要性。深度影像组学提供了互补的空间层次表征,但可解释性仍是临床转化的障碍,未来需结合特征归因与原型分析。PySERA的并行与内存管理机制使其能稳定处理大规模数据,且跨操作系统结果一致,符合FAIR(可发现、可访问、可互操作、可重用)原则,为多中心研究提供基础。研究人员强调PySERA定位于上游特征提取,不直接作为临床决策支持系统,需经独立临床验证与监管审批方可应用于患者管理。未来工作将聚焦于GPU加速、分布式计算、IBSI 2与3标准支持(如小波滤波、SUV标准化)、以及针对特定模态的领域适配预训练。通过融合手工与深度特征,PySERA为可解释、合规的下一代定量影像学研究建立了坚实基础。该研究发表于《Computer Methods and Programs in Biomedicine》。

生物通微信公众号
微信
新浪微博


生物通 版权所有