背景:尽管机器学习(Machine Learning)常被应用于医疗诊断,但其在癌症诊断中的有效性仍不确定。目的:旨在探讨机器学习在预测癌症术后并发症与早期复发方面的能力。方法:研究人员从数据库建立之初至2024年10月4日,对PubMed、Web of Science(WoS)、Embase、Scopus、Cochrane Library、万方和中国知网(CNKI)进行了全面检索。采用合并敏感度、特异度、Fagan列线图分析以及曲线下面积(AUC)来评估机器学习的整体诊断性能。此外,采用荟萃回归分析以进一步探索异质性的来源,并使用Deeks漏斗图不对称性检验评估发表偏倚。结果:最终纳入31篇文献进行荟萃分析。在预测术后并发症的亚组中,所有研究的合并敏感度、特异度和AUC值分别为0.75(95% CI,0.65–0.83)、0.78(95% CI,0.65–0.87)和0.83(95% CI,0.79–0.86)。此外,提出最佳预测模型研究的合并敏感度、特异度和AUC值分别为0.85(95% CI,0.71–0.93)、0.76(95% CI,0.39–0.94)和0.88(95% CI,0.85–0.91)。在预测早期复发的亚组中,所有研究的合并敏感度、特异度和AUC值分别为0.74(95% CI,0.68–0.80)、0.73(95% CI,0.67–0.77)和0.80(95% CI,0.76–0.83)。进一步地,提出最佳预测模型研究的合并敏感度、特异度和AUC值分别为0.78(95% CI,0.70–0.85)、0.76(95% CI,0.70–0.82)和0.84(95% CI,0.80–0.87)。此外,Deeks漏斗图P值>0.05,表明不存在发表偏倚。荟萃回归分析显示,样本量和机器学习方法可能是主要的异质性影响因素。结论:机器学习可以准确预测癌症术后并发症与早期复发。然而,其准确性受到多种因素影响,包括机器学习模型类型、肿瘤类型、样本量、发表年份和发表国家。因此,需要更多样本量更大、方法学更规范的研究来提高其预测的可靠性。
癌症是导致全球高死亡率的主要原因之一。癌症的主要治疗方式包括手术、放化疗和靶向治疗。然而,癌症患者在术后可能出现多种并发症及早期复发,导致生存率降低和预后不良。目前,减少和预防癌症术后并发症及早期复发主要依赖医生的临床经验。然而,机器学习的出现可能为临床医生的手术提供一些理论参考。机器学习是人工智能(Artificial Intelligence, AI)的一个分支,它能够利用多种统计技术提高癌症预测的准确性。机器学习有助于提高预测癌症术后并发症和早期复发的准确性和效率。因此,通过机器学习选择个性化治疗方案并预测长期结局,可以改善癌症疗效。
然而,用于检测的机器学习技术的准确性在研究间差异显著,主要源于算法技术的不同。一些算法可能更适用于特定的癌症亚型。但是,目前缺乏在术后并发症预测和早期复发检测背景下,全面比较和评估这些算法的研究。此外,每种癌症类型具有独特的生物学特征,因此机器学习模型的适用性也可能存在差异。
基于上述考虑以及缺乏评估机器学习在预测癌症术后并发症和早期复发准确性方面的系统评价与荟萃分析,本研究旨在为此提供证据。本研究严格遵循PRISMA-DTA(系统评价和荟萃分析优先报告条目-诊断准确性研究)指南进行。
**检索策略与文献筛选**
两名独立的研究人员对多个数据库从建库至2024年10月4日的文献进行了全面检索。纳入标准为:研究类型为前瞻性试验、观察性研究或队列研究;研究对象为确诊或筛查的癌症患者;能够从文献中直接或间接提取真阳性(TP)、真阴性(TN)、假阳性(FP)、假阴性(FN)值;语种限于中文和英文。排除标准包括:非标准化诊断流程的研究、无法提取数据的研究、体外研究或动物实验、以及数据无法获取的重复发表文献。最终,经过严格的筛选流程,共纳入31篇文献(包含106项研究)。其中,13篇文献(49项研究)涉及术后并发症预测,18篇文献(57项研究)涉及早期复发预测。
**质量评价与数据提取**
研究人员根据诊断准确性研究质量评价工具2(Quality Assessment of Diagnostic Accuracy Studies-2, QUADAS-2)的14个项目对纳入研究进行质量评价。数据提取内容包括文献作者、发表年份、样本量、研究设计、肿瘤类型、盲法等信息,以及从原始文献中提取或计算获得的TP、TN、FP、FN值。
**亚组分析与统计方法**
为探索异质性来源并在不同临床场景下评估预测性能,研究进行了预先设定的亚组分析,分层因素包括:肿瘤类型(如结直肠癌、乳腺癌、颅内肿瘤、肝细胞癌等)、机器学习算法类型(如随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)、梯度提升、神经网络(Neural Network, NN)、K-近邻(K-Nearest Neighbor, KNN)、决策树、逻辑回归)、样本量(术后并发症:中位数200例;早期复发:中位数40例事件)、地理区域(中国、美国、韩国、欧洲等)以及发表年份(以2020年为界)。统计分析采用Review Manager 5.3和Stata 15.1软件。所有分析均采用随机效应模型计算合并的敏感度、特异度和AUC值,异质性通过Cochran’s Q检验和I
2统计量评估。此外,采用Deeks漏斗图不对称性检验评估发表偏倚,并进行了敏感性分析以验证结果的稳健性。
**研究结果与亚组分析**
基本特征显示,纳入的研究主要来自中国、美国等国家,以回顾性研究为主。在术后并发症预测亚组中,最常见的肿瘤类型是结直肠肿瘤和乳腺癌;在早期复发预测亚组中,肝细胞癌的研究最多。
总体性能分析显示,在预测术后并发症方面,所有研究的合并敏感度、特异度和AUC分别为0.75、0.78和0.83;而提出最佳模型的研究则表现出更高的敏感度(0.85)和AUC(0.88)。在预测早期复发方面,所有研究的合并敏感度、特异度和AUC分别为0.74、0.73和0.80;提出最佳模型的研究性能同样更优(敏感度0.78,AUC 0.84)。
详细的亚组分析揭示了以下发现:在预测术后并发症时,梯度提升算法的敏感度最高(0.87),而随机森林和结直肠肿瘤的特异度最高(均为0.94)。小样本量(<200例)的研究表现出更高的敏感度和特异度。在预测早期复发时,结直肠癌肝转移的敏感度最高(0.94),而KNN算法的特异度最高(0.87)。所有纳入的早期复发预测研究均发表于2020年之后。
受试者工作特征曲线(SROC)亚组分析显示,无论是在术后并发症还是早期复发预测中,提出最佳模型的研究AUC值均高于所有研究的平均水平。在算法亚组中,随机森林(RF)在预测术后并发症时取得了最高的AUC值(0.92),在预测早期复发时也表现良好(AUC=0.82)。此外,2020年后发表的研究以及针对特定肿瘤类型(如结直肠癌)的研究通常表现出更高的AUC值。
**异质性、发表偏倚与敏感性分析**
荟萃回归分析表明,发表国家、机器学习类型、肿瘤类型、研究设计、发表时间等均不是导致异质性的主要因素,而样本量和机器学习方法可能是异质性的主要来源。Deeks漏斗图检验结果(P > 0.05)提示本荟萃分析不存在显著的发表偏倚。敏感性分析在排除四项异常研究后,异质性(I
2)显著降低,但合并的敏感度、特异度及AUC值保持不变,证实了结果的稳健性。
**讨论与结论**
研究发现,机器学习,特别是随机森林(RF)和梯度提升等算法,能够有效预测癌症术后并发症和早期复发,其中RF模型在多个亚组中表现突出,尤其适用于结直肠癌和颅内肿瘤。研究结果也提示,2020年后发表的研究可能因技术进步而表现更佳。然而,纳入研究的异质性较高,且大部分为小样本、单中心回顾性研究,仅少数进行了外部验证,语言限制(仅中英文)也可能引入偏倚。因此,本研究结论虽支持机器学习的应用价值,但强调未来需要更多多中心、大样本的前瞻性研究,以及开发兼具性能和可解释性的混合模型(如结合影像组学或多组学数据),以进一步验证和优化预测效能。