研究人员提出了一种新型人工智能(AI)辅助框架,该框架实现了信息识别与提取的自动化,可提供最新分析结果,证实了多发性骨髓瘤中微小残留病阴性(MRD−)率在疑似完全缓解(MRD-CR)时的生存终点之间存在着中等程度的试验水平关联以及强个体患者水平关联。具体而言,该研究利用AI辅助框架识别相关研究并筛选关键信息,通过两个独立目标分析已发表数据。首先,研究人员基于已发表的MRD治疗效应统计量以及各种终点的统计数据,采用决定系数(R2)及其95%置信区间(CI)检验了试验水平关联。其次,研究人员通过AI筛选工具生成具有协变量的合成个体患者数据(Individual Patient Data, IPD),以估计个体水平关联。该AI工具检索合格的随机对照临床试验(Randomized Clinical Trial, RCT),共分析了来自19项RCT的20个双臂比较。试验水平分析显示,合并疾病亚群后的R2为0.71(95% CI, 0.52–0.89)。此外,研究人员应用AI技术创建合成个体数据,结合从Kaplan–Meier曲线和已发表文献中的亚组分析提取的信息。利用生成的合成数据,研究人员采用双变量Copula模型估计了MRD-CR率与无进展生存期(PFS)结局之间的个体水平相关性,计算出全局比值比(OR)为7.28(95% CI, 5.60–8.95)。研究意义包括:(i)提出了一种新型AI辅助框架,实现了信息识别与提取的自动化,可提供快速、最新的分析;(ii)证实了多发性骨髓瘤中MRD与多种临床终点之间存在中等程度的试验水平关联和强个体患者水平关联。
在过去几十年中,多发性骨髓瘤(Multiple Myeloma, MM)治疗取得了显著进展,患者的长期结局得到实质性改善。最新报告显示,新诊断多发性骨髓瘤的无进展生存期(Progression-Free Survival, PFS)现已超过4年,部分研究中治疗组和对照组的客观缓解率(Objective Response Rate, ORR)均接近100%。然而,PFS的延长需要大规模试验和长期随访,这阻碍了新疗法的开发,延迟了药物审批和患者获得有效治疗的时间。同时,对照组极高的ORR使得治疗组难以展现出有意义的ORR改善,ORR已成为多发性骨髓瘤试验中吸引力下降的终点。在此背景下,微小残留病(Minimal Residual Disease, MRD)作为与改善PFS和总生存期(Overall Survival, OS)相关的新兴终点, recently获得了美国食品药品监督管理局(FDA)肿瘤药物咨询委员会(ODAC)的认可,可作为多发性骨髓瘤新药加速审批的终点。
尽管MRD及其他替代终点前景广阔,但多发性骨髓瘤的治疗选择正快速演变,新型免疫调节剂、蛋白酶体抑制剂和单克隆抗体频繁进入临床实践。随着新药的不断涌现,先前经验证的替代终点可能需要重新评估以确认其替代性,尤其当新药物涉及作用机制改变时。此外,随着更多试验的成熟和发表,先前的替代性分析可能无法完全捕捉最新试验的数据;同时,标准治疗方案的变化或同一标准治疗随时间延长的生存改善也可能需要重新评估。监管机构日益依赖替代终点来加速药物审批,因此持续证明MRD(及其他潜在替代终点)能准确反映长期临床获益至关重要。可重复的更新分析——在基于替代性的早期发现后及时进行——有助于明确这些终点是否仍能预测有意义的结局,并指导临床决策和未来药物开发。然而,基于大量已完成随机对照临床试验(Randomized Clinical Trial, RCT)的个体患者数据(Individual Patient Data, IPD)进行恰当的替代性分析耗时费力,迫切需要创新工具和方法来实现快速或更新的替代性分析。
本研究引入了一种AI辅助的专家参与循环(expert-in-the-loop)框架,旨在高效识别相关研究并筛选关键信息以满足复杂医学分析目标。作为示例,研究人员将该框架应用于两个同等重要的目标:(i)估计MRD-CR终点与PFS/OS之间的试验水平关联;(ii)通过AI工具生成新型合成IPD,以在缺乏真实IPD的情况下辅助估计MRD-CR终点与PFS/OS之间的个体患者水平关联。
主要关键技术方法包括:AI辅助的文献检索与信息提取技术,用于系统性识别2010年1月1日至2024年5月29日期间发表的PubMed全文文章及主要学术会议摘要中的RCT;基于AI的合成IPD生成算法(SynthIPD),该方法捕获已发表临床试验文章中的可缩放矢量图形,数字化Kaplan–Meier(KM)生存曲线的坐标,重现生存终点、失效状态和治疗指征,并能生成与真实协变量分布最佳匹配的合成协变量(如MRD-CR状态)信息;加权最小二乘法,以样本量为权重计算试验水平决定系数(R
2)及95% CI;以及双变量Plackett Copula模型,用于利用AI生成的合成IPD估计个体水平关联,以全局比值比(OR)量化MRD-CR状态与PFS结局之间的关联。
研究结果部分如下。
目标1:试验水平关联
对于第一个目标,研究人员计算了以下试验水平决定系数:(i)log(HR)PFS与log(OR)MRD的关联;(ii)log(HR)OS与log(OR)MRD的关联;(iii)log(ORR)与log(OR)MRD的关联;(iv)按疾病类型(NDTE、NDTI和RRMM)分层的log(HR)PFS/OS与log(OR)MRD的关联。
以样本量为权重的汇总分析显示,20个双臂比较中log(HR)PFS与log(OR)MRD-CR的加权试验水平R
trial2为0.71(95% CI, 0.52–0.89)。留一法敏感性分析显示R
trial2范围为0.63至0.80。仅使用10
−5灵敏度阈值研究的敏感性分析显示中等相关性,R
trial2分别为0.59和0.70。针对NDTE、NDTI和RRMM人群的亚组分析显示,NDTE的R
trial2 = 0.78(0.61–0.95),NDTI的R
trial2 = 0.85(0.74–0.97),RRMM的R
trial2 = 0.72(0.50–0.93)。值得注意的是,NDTI亚组表现出强相关性,R
trial2 > 0.8且CI下限大于0.6,但该结果仅基于5项NDTI研究,应谨慎解读。OS的试验水平替代性 consistently弱于PFS,尤其是在NDTE人群中,这是因为OS作为更晚期的终点受进展后治疗、治疗交叉和后续治疗线的影响,这些因素未被MRD状态捕获,可减弱试验水平关联。
目标2:个体水平替代性分析
第二个目标旨在基于合成IPD探讨MRD-CR率在长期生存结局中的作用。AI检索了既往18项研究中按MRD-CR状态分层的KM曲线,其中7项研究有更新版本可用(GRIFFIN、ALCYONE、CLARION、OCTANS、POLLUX、CASTOR和IKEMA):1项NDTE、3项NDTI和3项RRMM研究。通过SynthIPD方法为所有7项研究生成并汇总了合成IPD,NDTI和RRMM人群分别获得207、1,149和1,372个观测值。汇总全部7项研究,全局OR为7.28(95% CI, 5.60–8.95);汇总NDTI和RRMM人群,全局OR为7.58(95% CI, 5.80–9.37)。按疾病亚群分别考虑时,全局OR分别为6.37(95% CI, 4.32–8.41)和9.21(95% CI, 6.01–12.42)。所有结果均显示MRD-CR状态与PFS延长存在非常强的关联信号。
讨论部分,研究人员指出试验水平分析产生的R
trial2 = 0.71(0.52–0.89)和R
trial2 = 0.78(0.64–0.92)虽证实了中等相关性,但未达到验证MRD-CR作为mPFS替代终点的阈值(R
trial2 > 0.8)。这些发现与先前研究一致,同时反映了排除2项不符合标准研究并纳入5项额外研究后的改进。个体水平分析使用新提出的SynthIPD技术,显示MRD-CR与延长生存结局相关,结果与真实数据高度吻合(汇总统计误差通常在2%以内)。研究还强调,个体水平与试验水平分析回答不同问题:全局OR量化患者内部MRD阴性与PFS的预后关联,而试验水平R
2评估跨试验中更大的MRD治疗效应是否转化为更大的PFS治疗效应;强个体水平关联并不意味着强试验水平替代性,因为后者对治疗机制间的试验间异质性敏感。
该研究引入的新型AI驱动框架代表了相对于传统荟萃分析和汇总IPD分析的重大进步。传统方法通常需要6个月至数年的时间投入,而本研究通过AI与专家参与循环设计以及AI生成的SynthIPD,在不到2周内完成了稳健全面的统计分析。该方法不仅大幅缩短时间,还通过整合最新临床证据确保了分析的全面性和统计稳健性。研究局限性包括:分析完全基于文献,不同研究间治疗方案、MRD-CR评估时间点、MRD-CR状态详细推导和方法的差异引入异质性;隐私和专有 concerns阻碍了MRD-CR率与PFS/OS关系的直接个体水平评估;分析受限于有限的试验数量(共19项,仅7项贡献于第二个目标,且仅1项NDTE试验),可能影响结果的泛化性和可靠性。
研究结论指出,该研究强调了MRD-CR在多发性骨髓瘤中的临床相关性,并证明AI驱动方法可大幅缩短严格替代性评估所需的时间。