乳腺癌是全球女性中最常见的癌症之一,也是癌症相关死亡的主要原因之一。早期诊断对疾病的预后和生存率起着关键作用。根据2022年的全球癌症统计数据,乳腺癌占约2000万例癌症病例的11.5%,其中新发病例为230万例[1]。这种高发病率迫切需要开发出能够准确区分良性和恶性病变的可靠诊断系统。
目前,诸如乳腺X光检查和组织病理学检查等基于成像和活检的方法被广泛用于乳腺癌的识别[2]。然而,由于这些技术的有效性在很大程度上依赖于专家的解释,因此经常会出现人为错误和解释差异[3]。此外,患者数量的增加和图像密度的提高进一步增加了快速准确决策的需求。因此,开发自动且可靠的分类系统已成为乳腺癌诊断的重要需求。
近年来,人工智能(AI)和机器学习(ML)技术的进步在医学和生物医学工程领域取得了显著进展。研究人员使用分形维数分析和混沌功能连接矩阵处理了颈椎(C2、C3、C4)的侧位头影X光图像,通过人工智能支持的模型以高达96.30%的准确率确定了生长阶段[4]。基于人工智能的模型被研究用于使用眼底图像高精度且计算复杂度低地诊断糖尿病视网膜病变(DR)[5]。Batool和Zainab比较了机器学习算法(SVM、KNN、DT、RF和GWO)在乳腺癌早期检测中的性能,发现SVM与GWO的组合取得了最佳结果,准确率为99.1%[6]。他们还发现,特征选择方法ReliefF的有效性最高,准确率为98.2%[6]。特别是基于深度学习的技术和卷积神经网络(CNN)在医疗成像领域变得非常流行,因为它们能够有效地识别复杂数据结构中的有意义特征[7]。与传统方法不同,CNN模型通过多层学习机制提供了高精度的分类性能[8]、[9]。
基于CNN的模型在癌症分类方面取得了成功的结果,尤其是在乳腺癌、肺癌和皮肤癌方面。然而,基于单一CNN模型的方法在数据不平衡、样本量小和类别复杂的情况下可能会导致过拟合或泛化性能低下等问题,这些情况在医学数据中很常见。为了克服这些问题,提出了集成学习方法。通过聚合多个模型的输出,集成学习不仅降低了错误率,还提高了模型在未见数据上的表现能力。
深度学习的进步在乳腺癌检测和分类方面取得了显著进展[10]、[11]。文献中报告了将不同的CNN架构与集成方法结合、使用迁移学习技术以及将预训练模型适应医学数据等方法,以提高诊断的准确性和可靠性[12]、[13]。此外,整合多种数据源(如统计特征工程、遗传标记和患者人口统计信息)进一步提高了诊断系统的性能。然而,现有方法存在显著局限性。数据分布不平衡、标记成本高、多模态数据整合困难以及癌症组织的异构结构是影响模型准确性和泛化能力的主要因素[14]。在这种背景下,设计更加新颖和高效的解决方案对于实现越来越可靠的乳腺癌诊断结果至关重要。
为了克服这些挑战,本研究提出了一个名为EBCNet(集成乳腺癌网络)的复杂集成深度学习框架,它结合了基于CNN的深度特征提取和手工制作的统计属性。该框架的核心动机是利用深度表示和统计描述符的互补优势,提供对肿瘤特征的更全面理解。
虽然CNN模型在捕捉图像数据中的复杂模式方面非常有效,但它们有时难以处理小型数据集或区分特征较为微妙的情况。另一方面,从结构化数据中提取的统计特征可以提供关于肿瘤形态和分布模式的可解释且有意义的见解。然而,单独使用这些手工制作的特征可能无法完全捕捉成像数据中存在的高层次空间表示。通过在集成学习框架中整合这两种不同的但互补的信息源,EBCNet旨在减轻每种方法固有的缺点。
此外,集成设计——结合多个密集神经网络与CNN架构和元学习器(如XGBoost)——通过降低过拟合的风险来提高鲁棒性,这在处理样本量少的医疗数据时尤为重要。与单一模型不同,集成模型从不同的学习器中捕获了多样的视角,从而提高了泛化能力和诊断性能。
EBCNet的新颖之处不仅在于其架构设计,还在于它能够在成像数据(例如乳腺X光)和结构化表格数据集(例如WBCD)之间进行泛化。这种双能力架构在性能上优于传统的仅基于CNN的模型或传统的机器学习分类器。
本研究做出了三项关键贡献。第一项主要贡献是设计了一个强大的混合集成框架,将基于CNN的深度学习与统计特征工程相结合,以提高诊断准确性。第二项贡献是设计了三种创新的统计特征。基于CNN的模型以其自动学习图像数据中复杂模式的能力而脱颖而出,但在样本量小或特征区分细微的情况下可能会遇到困难。另一方面,手动定义的统计特征提供了可解释的可见信息,如肿瘤形态和密度分布。在这项研究中,我们提出了三种创新的统计度量方法,即鲁棒中位数偏差、小波能量和GLCM对比度。这三种手工提取的特征被添加到从CNN获得的深度空间表示中,使模型同时利用了强大的视觉特征和可解释的结构信息。因此,EBCNet在基于图像(MIAS)和表格(WBCD)的数据上都具有高泛化能力和准确性。第三项贡献是在基于图像和结构化的乳腺癌数据集上对所提出模型进行了全面验证,证明了其与传统方法相比的一致性和优越性能。
这项研究旨在通过提供一种可扩展且高度准确的乳腺癌分类方法,推动基于AI的医学诊断领域的进展。最终目标是通过提供更快的、更可靠的诊断结果来帮助临床医生,从而改善患者预后并优化医疗流程。