自20世纪70年代以来,肝癌的发病率一直在稳步上升,预计至少会持续到2030年[1]。在发展中国家,肝病的患病率更高,风险因素包括乙型肝炎病毒(HBV)和丙型肝炎病毒(HCV)[2]、[3]。由于早期阶段缺乏典型的临床症状,大多数患者在晚期才被诊断出来[4],仅有5%至15%的患者适合接受手术切除。其余患者主要依赖化疗和免疫疗法,但这些方法的效果有限,导致生存率显著降低[5]、[6]。因此,早期筛查对于改善肝癌预后和降低复发率至关重要。目前的诊断方法包括血清学检测(针对HBV、HCV和AFP)以及影像学检查(如超声、CT和MRI)[7]。然而,这些方法存在局限性,包括复杂性、依赖专业医生、成本高昂以及检测早期肝癌的敏感性不足,这凸显了迫切需要更便捷、高效和准确的检测方法。
表面增强拉曼散射(SERS)技术以其高度敏感的分子检测能力而备受关注,为肝癌的非侵入性筛查和诊断提供了有希望的途径。SERS利用了纳米材料(如金和银)的表面增强效应,可以将拉曼信号放大10^6到10^14倍,表现出优异的信号重复性[8]、[9]、[10]。与传统诊断方法相比,SERS在灵敏度、特异性和无标记检测方面具有显著优势,在化学检测[11]、食品安全[12]、生物医学[13]、[14]和环境分析[15]领域展现出巨大潜力。然而,SERS数据的分析常常受到噪声干扰和实验条件变化的影响,光谱信息的复杂性要求与先进的机器学习算法和深度学习相结合以实现有效的分类和解释。Sun等人将SERS与主成分分析-线性判别分析(PCA-LDA)和偏最小二乘支持向量机(PLS-SVM)结合,成功区分了早期(T1–T2)和晚期(T3–T4)的肝癌[16]。Cheng等人开发了一种基于深度学习的卷积神经网络(CNN)分类器,利用SERS技术对正常个体、乙型肝炎(HB)和肝癌患者进行分类[17]。Yang等人将SERS与小波变换和深度学习结合,对肝癌患者和正常个体进行分类[18]。尽管在肝癌SERS光谱分析方面取得了进展,但仍存在挑战。SERS光谱数据通常包含数百到数千个波数,且样本量相对较小,具有高维和小样本的特点[8]、[9]。此外,光谱数据常常包含冗余信息、噪声和低区分度的带,这可能导致分类模型过拟合。无监督降维方法(如主成分分析(PCA)已被广泛使用[16]、[19],但其方差最大化方法可能会忽略具有低方差但高区分能力的特征[20]、[21]。相比之下,递归特征消除(RFE)通过与分类器的协作迭代评估特征贡献,可以有效去除冗余带并保留高维光谱中的区分特征[23]。梯度提升决策树(GBDT)通过残差迭代优化,有效捕捉了非线性特征相互作用[24],特别适合处理SERS光谱中的复杂分子振动模式。
在这项研究中,我们开发了一种基于表面增强拉曼光谱(SERS)和递归特征消除(RFE)以及梯度提升决策树(GBDT)的有效肝癌分期模型。RFE算法用于光谱数据的降维,选择最具区分能力的特征。随后,使用GBDT分类器进行迭代带选择,构建了一个五类肝癌SERS模型,包括正常、乙型肝炎(HBV)和三个分期(T1、T2、T3)。该模型在分类健康对照组、慢性乙型肝炎(HBV)以及不同分期的肝癌(T1、T2、T3)方面表现出高准确率。此外,还使用了局部可解释模型不可知解释(LIME)算法来识别关键区分带,突出了每种疾病阶段的特定分子振动特征。基于这些发现,为了进一步评估该方法在实际应用中的可行性,所提出的基于血清的无标记SERS方法与常规临床血液采集工作流程高度兼容,无需复杂的样本预处理或额外的侵入性程序。这种兼容性表明,该方法作为肝癌筛查和分期的辅助工具具有良好的可行性,适用于未来的前瞻性和多中心临床研究。