背景:人工智能(AI)与机器学习(ML)被视为改善胚胎筛选及预测体外受精(IVF)结局的重要方向,但现有模型在架构、验证方法及针对最终临床结局——活产的实际效用方面存在显著异质性。
目的:评估基于人工智能的预测模型在预测体外受精周期后实现活产这一最终结局时的诊断性能与验证方法学。
方法:本项不含荟萃分析的系统评价遵循PRISMA 2020指南开展,研究方案已在PROSPERO数据库注册(注册号CRD420261298569)。研究人员检索了PubMed/MEDLINE、Scopus、EMBASE、Web of Science及CENTRAL数据库,纳入2010年1月至2026年1月间发表、以开发或验证用于胚胎评估或IVF结局预测的AI模型为核心内容,且将活产作为主要或次要结局的原始研究。研究人员采用QUADAS-2工具评估研究的方法学质量与偏倚风险,并使用改良版GRADE方法评估证据确定性。
结果:共纳入23项主要临床研究(20项回顾性队列研究、2项前瞻性队列研究、1项随机对照试验)。验证队列中模型评估涉及的胚胎/周期总数约45,000例,训练数据集规模超过200,000胚胎/周期。诊断准确性随模型架构差异呈现高度变异:融合胚胎图像数据与患者层面临床变量的多模态模型表现最优,曲线下面积(AUC)最高可达0.97,准确率范围为74%至82%;基于时差成像(Time-Lapse)的模型AUC为0.64至0.97(准确率64%至78%);仅使用临床变量的模型AUC为0.70至0.80(准确率76%至78%);基于静态图像的模型表现最低(准确率62%至69%)。中心特异性模型的性能始终优于基于国家登记数据库的模型。值得注意的是,唯一一项评估AI算法(iDAScore)与传统形态学对比的前瞻性、双盲随机对照试验中,AI组未显示出非劣效性,其临床妊娠率分别为46.5%与48.2%。
结论:就预测IVF后活产的诊断潜力而言,采用多模态预测策略同时评估胚胎发育潜能与母体系统性生殖环境的AI模型效能较高。然而现有证据主体来自回顾性队列,受限于选择偏倚风险与内部验证过拟合等问题。由于尚无前瞻性随机对照试验数据证实AI预测IVF结局具有独立的临床优效性或非劣效性,当前阶段其仅应作为胚胎学家的辅助工具使用。
引言
体外受精(IVF)已彻底改变生殖医学实践,为不孕夫妇提供了实现生物学亲权的重要途径。尽管卵巢刺激方案、实验室技术与胚胎移植策略持续优化,IVF成功率仍处较低水平,活产率普遍介于20%至50%,具体取决于产妇年龄及其他临床因素。胚胎筛选是IVF流程中的关键瓶颈,约40%形态学判定为“正常”的胚胎在移植后无法着床,提示传统形态学评估方法对胚胎发育潜能的指示作用并不完善。当前胚胎评估主要依赖特定发育阶段的视觉显微形态学评价,常用囊胚期(第5或6天)的Gardner与Schoolcraft分类系统,对囊胚腔扩张程度、内细胞团(ICM)及滋养外胚层(TE)进行分级。该方法虽广泛应用且具临床相关性,但存在主观性,即使是经验丰富的胚胎学家,在卵裂期与囊胚期的评估中也存在显著的观察者间与观察者内变异。这一局限性推动了时差成像(TLM)监测与形态动力学分析等客观标准化胚胎评估方法的研究。人工智能特别是深度学习与机器学习技术的发展,为提升胚胎筛选提供了新的可能。此类计算方法可处理海量图像数据与临床变量,识别与生殖成功相关的复杂模式。已有多种商用AI工具进入临床应用,但其支持性临床证据的强度存在差异。现有研究仍存在若干关键缺口:模型架构、训练数据集与输入变量异质性显著;缺乏AI筛选与传统形态学评估对比的前瞻性随机对照试验证据;诊断准确性指标与结局定义报告不一致;单中心或有限多中心训练的模型在不同临床人群与实验室环境中的泛化能力存疑;深度学习算法的“黑箱”特性限制了透明度与临床解读。既往系统评价多混合植入、临床妊娠与活产等异质性结局定义,且未系统使用标准化诊断准确性评估工具评价研究质量与偏倚风险。本研究旨在填补上述空白,全面定性概述针对活产的预测模型、其诊断性能特征、验证方法与泛化能力。
方法
方案与注册
本研究严格遵循《系统评价与荟萃分析优先报告条目2020》(PRISMA 2020)指南开展。研究方案于2025年2月1日在PROSPERO注册(注册号CRD420261298569),注册时间在初始检索策略完成后、数据提取与偏倚评估前,符合PROSPERO的注册规范。
信息来源与检索策略
研究人员检索了PubMed/MEDLINE、Scopus、EMBASE、Web of Science及Cochrane对照试验中心注册库(CENTRAL)五个主要生物医学数据库,无语言限制。检索时间跨度为2010年1月至2026年1月,覆盖AI胚胎评估从概念验证到近期多中心验证试验的完整发展轨迹。检索策略围绕“人工智能/机器学习”“IVF/辅助生殖”“胚胎筛选/评估”“临床结局(以活产为核心)”四个关键概念构建,结合受控词汇与自由词,并根据各数据库特点调整语法。
研究选择与纳排标准
纳入标准为:原创性研究,描述用于胚胎评估或IVF结局预测的AI或ML模型的开发与/或验证;研究对象为接受IVF/ICSI治疗并行胚胎移植的患者;干预措施为深度学习、机器学习、神经网络等AI预测模型;对照措施为标准形态学评估、其他AI模型或胚胎学家评估;主要结局为活产,若临床妊娠或植入结局与胚胎筛选模型性能相关且报告了活产数据也可纳入;限定同行评审的英文文献,且需报告敏感性、特异性、准确率、受试者工作特征曲线下面积(AUC)等定量性能指标。排除非原创研究(综述、评论、会议摘要等)、非胚胎评估相关的AI应用(如卵母细胞筛选、精子分析)、动物或体外实验、无临床结局数据的研究、传统形态动力学评估研究、病例报告及未报告定量性能指标的研究。同一队列或模型的重复发表仅纳入最新且最全面的报告。
研究筛选与数据提取
两名独立研究者按预设标准筛选标题与摘要,随后对全文进行资格评估,分歧通过讨论或第三方裁定解决,评估者间信度采用Cohen’s kappa统计量计算。研究人员使用标准化数据提取表提取信息,内容包括:研究特征(作者、年份、国家、设计、随访时间、资助来源);人群特征(样本量、产妇年龄、BMI、不孕病因、IVF指征);模型开发细节(AI架构、输入数据类型、训练集规模、数据来源中心数);验证方法(内部验证如k折交叉验证、外部验证如独立前瞻性队列、多中心验证);结局定义与测量方法;诊断准确性指标;对照措施性能;模型报告质量(校准、泛化性、亚组分析);偏倚风险相关域。数据通过电子表格管理并汇总至定性总结表。
证据合成与偏倚风险评估
本研究为不含荟萃分析的系统评价,不对准确性指标进行定量合并,仅作描述性汇报。因研究设计、模型架构、输入模态、验证方法与结局定义异质性过高,未进行正式荟萃分析与跨研究统计检验。研究人员采用修订的《诊断准确性研究质量评估工具2》(QUADAS-2)评估纳入研究的偏倚风险与适用性,涵盖患者选择、待评价试验(AI模型)、参考标准(临床结局)、流程与时序四个域,每个域判定为低风险、高风险或不明确风险。同时采用改良版GRADE方法评估主要结局的证据确定性,从研究设计局限性、不一致性、间接性、不精确性与发表偏倚五个维度,将证据评级为高、中、低或极低确定性。
结果
研究筛选与特征
初检共获得2862条去重记录,经标题摘要筛选后316篇进入全文评估,最终23项研究符合纳入标准,标题摘要与全文筛选的评估者间一致性较高(kappa值分别为0.84与0.79)。纳入研究中52%来自亚洲,22%来自欧洲,9%来自北美,13%为多中心国际合作,4%来自澳大利亚,发表年份介于2019至2026年。研究类型分布为:20项回顾性队列研究(87%)、2项前瞻性队列研究(9%)、1项多中心随机对照试验(4%)。验证队列总样本量约45,000胚胎/周期,训练数据集规模超200,000胚胎/周期。
不同模型类型的性能
时差成像模型(11项研究)的准确率为64%至78%,AUC为0.64至0.97。例如Huang等(2022)在15,434例单囊胚移植的大队列中报道ResNet样卷积神经网络(CNN)的AUC达0.968;Ueno等(2022)在3010例单冻融囊胚移植中报道无注释AI评分系统iDAScore v1.0的AUC约为0.70;Theilgaard Lassen等(2023)在181,428例胚胎的最大规模队列中报道iDAScore v2.0的内部验证准确率为77.5%。
静态图像模型(4项研究)的准确率范围为62%至69%。Khosravi等(2019)使用静态显微图像的准确率为62.1%;He等(2024)预测胚胎倍性与植入的准确率为68.5%;Enatsu等(2022)联合静态图像与临床数据的准确率为65.2%。
仅使用临床变量的模型(4项研究)的准确率为76%至78%。Nguyen等(2024)证明基于各生育中心临床与人口学因素的梯度提升模型显著优于基于国家登记数据的传统模型;Bereczki等(2025)仅使用女性术前因素即达到78.3%的准确率;Yao等(2025)报道中心特异性模型预测每周期活产的准确率为76.8%。
多模态/集成模型(融合图像与临床数据,2项研究)表现最优,准确率介于74%至82%。Borji等(2025)采用基于Transformer的深度学习模型整合胚胎图像与临床特征,准确率达81.5%;Coticchio等(2021)整合形态学与时差成像胞质动力学的混合AI模型准确率为73.8%。
前瞻性验证证据
唯一一项前瞻性、双盲、多中心随机对照试验(Illingworth等,2024)比较了AI胚胎筛选与传统形态学评估,共纳入1066例患者,按1:1分配至iDAScore算法组与标准形态学组。主要结局为临床妊娠率,AI组为46.5%,标准组为48.2%,未达到预设的非劣效性界值,未能证实AI算法的非劣效性。该阴性结果与多项回顾性研究的高性能指标形成鲜明对比,凸显了前瞻性验证的必要性。
研究质量与证据确定性
QUADAS-2评估显示,回顾性研究普遍存在选择偏倚与未知混杂因素风险,多数仅采用内部验证,外部验证比例低。偏倚风险分布为:患者选择域低风险26%、不明确48%、高风险26%;待评价试验域低风险61%、不明确30%、高风险9%;参考标准域低风险78%、不明确17%、高风险4%;流程与时序域低风险52%、不明确39%、高风险9%。GRADE评估显示,活产预测的证据主要源于回顾性队列,整体确定性为低,因研究设计局限、异质性高、不精确性及前瞻性数据匮乏而被降级。
讨论
本研究系统评价了23项AI预测IVF活产的主要临床研究,结果显示AI模型性能存在显著异质性。多模态模型因同时整合胚胎图像与患者临床变量,能兼顾胚胎发育潜能与母体系统性生殖环境,表现最为优异。但需注意AI模型的预期用途差异:若目标是预测跨患者的绝对活产概率,多模态模型优势明显;若目标仅为同一患者群体内胚胎排序,仅依赖形态动力学的时差成像模型即可满足需求,因临床变量在同一患者队列中对所有胚胎评分贡献一致,无法提升排序区分度。此外,基于中心本地数据的模型性能始终优于基于国家登记库的模型,提示实验室特异性信息对模型效能具有重要影响。唯一的前瞻性随机对照试验未证实AI筛选的非劣效性,与回顾性研究的乐观结果形成反差,反映了回顾性设计的潜在偏倚。与既往综述相比,本研究聚焦活产这一最终临床结局,提供了更准确的临床应用图景。当前AI尚不能替代胚胎学家独立决策,但可作为决策支持的辅助工具,减少主观变异、提升评估效率并发挥电子质控功能。未来研究需开展大样本前瞻性随机对照试验,实施严格的外部验证,推进模型可解释性研究,探索预测结果的生物学机制,针对特定人群优化模型,并遵循TRIPOD+AI等标准化报告规范,以提升证据质量与临床转化价值。
结论
本系统评价表明,基于AI的IVF活产预测模型具有可观但变异较大的诊断准确性,AUC范围为0.64至0.97。融合胚胎形态动力学与患者临床特征的多模态模型始终优于单一模态模型,中心特异性模型亦优于国家登记库模型。然而现有证据主体为回顾性队列,存在选择偏倚与内部过拟合风险,且唯一的前瞻性随机对照试验未证实AI的非劣效性,GRADE证据确定性总体处于低至中等水平。当前AI仅应作为胚胎学家的辅助决策支持工具,未来亟需开展以活产为主要结局的大样本前瞻性随机对照试验、多场景外部验证、多模态数据整合研究,并严格遵循TRIPOD+AI报告规范,以推动该领域的规范化发展与临床合理应用。
打赏