本研究为多中心回顾性观察性研究,旨在采用先进机器学习(Machine Learning, ML)算法识别挽救性睾丸取精术(Testicular Sperm Extraction, TESE)成功的预测因素。研究对象为2021年至2024年间接受二次TESE、且首次手术未获精子的503例不育男性,采集其术前临床特征与实验室检查结果,应用10种ML算法建模分析,包括极限梯度提升(Xtreme Gradient Boosting, XGB)、随机森林(Random Forest, RF)、梯度提升(Gradient Boosting, GB)、决策树(Decision Tree, DT)、自适应增强(AdaBoost, AB)、逻辑回归(Logistic Regression, LR)、多层感知机(Multi-Layer Perceptron, MLP)、支持向量机(Support Vector Machine, SVM)、K近邻(K-Nearest Neighbors, k-NN)及朴素贝叶斯(Naive Bayes, NB)。模型性能评价指标包括准确率、灵敏度、特异度、预测值、F1分数、约登指数(Youden Index)及受试者工作特征曲线下面积(Area Under the ROC Curve, AUC)。结果显示,211例患者(41.9%)获精子,292例(58.1%)未获精子,平均不育病程为7.25年。XGB在所有性能指标中均优于其他算法。术前体重指数(Body Mass Index, BMI)、TESE部位、黄体生成素(Luteinizing Hormone, LH)水平及精液量为二次TESE成功的关键预测因子,双侧睾丸体积与不育病程亦显著提升预测准确性。将多维度临床与实验室参数纳入ML预测模型,可优化手术规划与术前咨询,识别极低获精概率患者,减少不必要的重复手术干预。
本研究发表于《International Journal of Impotence Research》,聚焦非梗阻性无精子症(Non-Obstructive Azoospermia, NOA)患者在首次睾丸取精术(TESE)失败后的挽救性二次TESE结局预测难题。NOA约占男性人群1%、不育男性的10%,主要源于原发性睾丸功能障碍或下丘脑-垂体-性腺轴异常。显微TESE(micro-TESE)虽可将初始获精率提升至50%,但首次失败后再次手术的获精率仅为12.5%~74.7%,且重复操作可能加重睾丸组织损伤、纤维化甚至萎缩,给患者带来经济与心理双重负担。当前欧洲泌尿外科协会(EAU)与美国泌尿外科协会(AUA)指南仅推荐个体化咨询,尚未纳入经验证的预测工具。机器学习擅长处理复杂的非线性医学数据,但既往模型多针对首次TESE,挽救性TESE因既往手术已改变睾丸微环境及生理参数,预测难度更高,因此亟需开发针对性预测模型以辅助临床决策。
研究人员基于土耳其泌尿外科协会男科学工作组2021至2024年的多中心回顾性数据集,共纳入503例符合标准的NOA患者。排除标准为精液检出精子、梗阻性无精子症、非TESE取精方式、既往TESE次数≥2次、完全AZFa或AZFb缺失及不明生育治疗史,部分Y染色体微缺失患者予以保留。研究遵循TRIPOD+AI与STREAM-URO报告规范,将数据集按8:2划分为训练集与测试集,采用10种ML算法建模,通过重复分层五折交叉验证(重复5次)稳定评估性能,并计算准确率、灵敏度、特异度、阴性预测值(Negative Predictive Value, NPV)、阳性预测值(Positive Predictive Value, PPV)、F1分数、约登指数及AUC等指标。最优模型进一步通过SHapley加性解释(SHapley Additive exPlanations, SHAP)分析识别关键预测因子并量化贡献方向与强度,统计显著性定义为p<0.05。
研究结果如下:
研究人群:503例患者中,211例(41.95%)二次TESE获精子,292例(58.05%)未获精子。
患者特征:平均年龄35.65±6.28岁,两组年龄无显著差异。成功组术前BMI、精液量、LH水平显著低于失败组(p<0.001),双侧睾丸体积显著更大(p<0.001)。
手术类型与病史:失败组中二次TESE行双侧探查的比例显著更高(p<0.001);失败组二次TESE前行精索静脉曲张结扎术的比例更高(p=0.029),且有不孕家族史、泌尿生殖道感染史、尿路感染史及吸烟史的比例显著更高(p分别为0.004、0.014、0.008、0.015),成功组既往睾丸炎比例更高(p=0.024)。
遗传与病理:克氏综合征、生精成熟阻滞及唯支持细胞综合征与获精失败高度相关(p≤0.002),间质Leydig细胞增生在失败组中更常见。
机器学习模型性能:XGB准确率最高(0.90±0.03;95%CI 0.89~0.91),其次为RF(0.90±0.03)与GB(0.89±0.03),三者无显著差异但显著优于其余模型。XGB灵敏度达0.92±0.04(95%CI 0.90~0.93),特异度0.87±0.07(95%CI 0.84~0.90),NPV 0.89±0.05(95%CI 0.87~0.91),PPV 0.91±0.04(95%CI 0.89~0.93),F1分数0.91±0.03(95%CI 0.90~0.92),约登指数0.79±0.07(95%CI 0.76~0.82),AUC达0.96±0.02(95%CI 0.95~0.97),在各指标中均表现最优且均衡。
SHAP分析结果:术前BMI、TESE部位、术前LH水平及精液量是影响预测的最强因子,高BMI、高LH、低精液量倾向于降低获精概率;TESE部位反映术中是否需双侧探查,与手术复杂程度及睾丸功能受损严重性相关。双侧睾丸体积与不育病程亦具重要贡献,较小体积与较长病程降低获精可能性;术前睾酮与卵泡刺激素(Follicle-Stimulating Hormone, FSH)呈中等贡献,低睾酮与高FSH与不良结局相关。
讨论部分指出,XGB模型凭借优异的判别能力成为挽救性TESE结局预测的可靠工具,SHAP分析既验证了已知的生精障碍预测因子,也强调了BMI等可干预因素的潜在价值。TESE部位虽在模型中权重较高,但属于术中所决定的变量,更多反映疾病严重程度而非独立生物学效应,临床应用时应结合术前参数综合解读。LH在既往研究中预测价值不一,本队列中其为最强激素预测因子,凸显下丘脑-垂体-性腺轴调节异常对重复TESE结局的影响。睾丸体积与组织病理学类型共同构成预测依据,与既往报道一致。尽管克氏综合征及唯支持细胞综合征患者获精率低,但模型仍可辅助筛选仍有获益可能的个体,避免过度医疗。BMI与获精率的负相关关系仍需前瞻性研究验证因果性。研究优势在于大样本多中心设计提升了结果外推性,多种ML算法比较与SHAP可解释性分析增强了模型的临床适用性。局限性包括回顾性设计可能引入选择偏倚,手术技术与病理评估在不同中心间存在差异,缺乏外部验证及未控制环境、生活方式等混杂因素,因此模型应作为临床决策的辅助工具而非替代医师判断。
研究结论表明,整合多维临床与实验室参数的ML模型可有效预测NOA患者挽救性TESE结局,优化术前咨询并减少不必要手术,未来需通过前瞻性外部验证推动临床转化应用。