综述:自适应临床剂量探索试验设计与统计方法知识库

时间:2026年5月21日
来源:Pharmaceutical Statistics

编辑推荐:

自适应临床剂量探索试验旨在识别可用于后续II期和III期试验的最优药物剂量。在自适应剂量探索试验中,新入组患者的剂量水平由试验早期接受药物患者的结局信息所指导。关于自适应剂量探索试验的方法学研究体系已相当庞大,但仍缺乏清晰的总体概览。本文的目标是通过文献综述构

广告
   X   

自适应临床剂量探索试验旨在识别可用于后续II期和III期试验的最优药物剂量。在自适应剂量探索试验中,新入组患者的剂量水平由试验早期接受药物患者的结局信息所指导。关于自适应剂量探索试验的方法学研究体系已相当庞大,但仍缺乏清晰的总体概览。本文的目标是通过文献综述构建一个关于自适应临床剂量探索试验设计与统计方法的知识库。研究人员共识别出315篇自适应剂量探索试验方法学文章,其中大多数受肿瘤学问题驱动。近年来的方法主要聚焦于在同时考虑毒性与疗效终点的前提下识别最优剂量,并处理与亚组特异性剂量探索、联合治疗剂量探索以及在剂量探索中纳入延迟结局相关的挑战。这些发展受到新型癌症药物类别出现的推动,例如靶向治疗和免疫治疗,以及诸如Project Optimus之类倡议的促进。大多数文章聚焦于模型法设计,例如持续重评估法(CRM);但近年来模型辅助或区间法设计显著增加,包括毒性概率区间(TPI)设计、贝叶斯最优区间(BOIN)设计及其扩展形式。鉴于自适应剂量探索试验设计的可获得性不断提高且类型日益丰富,研究人员要找到适合其具体需求的相关设计具有较大挑战。因此,本文提供了一个交互式图谱,用于汇总研究结果的分类,以促进相关设计/方法的识别,并将对其进行定期更新。
1 Introduction

本文首先界定了自适应临床试验设计的核心内涵,即依据试验内部不断累积的结局数据,对试验进行预先规划的调整,以在不损害试验完整性与有效性的前提下提升研究效率。针对自适应临床剂量探索试验,文章指出其关键特征在于:后续入组患者的给药剂量由前序患者的观测结局所引导,试验通常通过逐步升阶或降阶实现最终剂量选择。此类研究的传统目标是在后续研究阶段确定推荐II期剂量(RP2D)。在肿瘤学中,RP2D通常以最大耐受剂量(MTD)为基础,并通过剂量限制性毒性(DLT)的可接受发生概率来界定,同时默认MTD也是安全剂量中疗效最优者。文中进一步概述了自适应剂量探索设计的主要类别,包括规则法设计、模型法设计、区间法/模型辅助设计、半参数设计和非参数设计,并强调不同设计在统计效率、可解释性、计算复杂度以及对模型假设依赖程度方面存在显著差异。

文章随后指出,近年来肿瘤早期试验中的剂量优化理念发生明显转变,即从仅基于毒性确定单一MTD,转向同时兼顾疗效、安全性与耐受性的最优生物剂量识别。这一转向与分子靶向治疗、免疫治疗等新型抗肿瘤疗法的发展密切相关,因为此类药物的最有效剂量可能低于MTD。美国食品药品监督管理局(FDA)的Project Optimus进一步强化了这一趋势,推动研究从单一毒性导向方法转向毒性-疗效联合优化框架。在这一背景下,方法学研究扩展至多类复杂问题,包括联合毒性与疗效终点的剂量递增设计、无缝I/II期设计、亚组特异性剂量探索、联合治疗剂量探索,以及延迟毒性或延迟疗效结局下的剂量决策。文章据此提出研究目标:构建一个系统化知识库,梳理该领域的方法学图景、设计目的及其提出动因,并以交互式证据图谱支持研究人员进行设计识别与方法筛选。

2 Methods

2.1 Literature Search

知识库的构建基于一项文献综述。该综述嵌套于更大范围的自适应试验设计方法学综述项目之中,覆盖自适应剂量探索、无缝I/II期、无缝II/III期、多阶段组序贯设计、样本量重估、自适应富集以及结局自适应随机化等类型。研究人员与信息专家合作设计检索策略,并在MEDLINE(ovid)数据库中检索截至2025年1月15日发表的英文同行评议文章。为突出方法学文献并减少仅应用自适应设计的临床试验报告,检索范围限定于通常发表该领域方法研究的期刊子集。

2.2 Selection Criteria

纳入标准包括两类:其一,提出新的自适应试验设计或既有设计新变体的方法学文章;其二,针对现有自适应试验设计提出创新分析或估计方法的文章,例如针对持续重评估法(CRM)的极大似然估计方法。研究所采用的自适应试验定义强调,试验调整必须依赖试验内部累积的结局数据。排除标准主要包括:报告自适应临床试验结果的文章;综述性文章;仅依据非结局累积信息调整试验进程的文章;仅进行既有设计模拟比较而未提出新方法的研究;以及有关样本量预先确定或缺失数据处理的方法学论文。

2.3 Literature Screening

文献筛选在Eppi-Reviewer平台中完成。首先通过题目与摘要进行试筛选,并由五名评审者独立判断纳入与排除,评审一致性达到较高水平。其后由三名评审者开展两轮题目与摘要筛选,并按照预设分类框架标注设计类型。鉴于本文聚焦于自适应剂量探索和无缝I/II期试验,仅对被归入这两类的文章开展全文筛选与数据提取。非自适应剂量选择策略,例如采用常规随机化比较不同剂量疗效的平行设计,被排除在外。

2.4 Data Extraction and Synthesis

数据提取的核心目的在于识别新设计或新方法提出的动机,并记录其所涉及终点与临床背景。提取框架从终点类型和方法学动机两个维度展开。终点方面,区分毒性终点、疗效终点、毒性与疗效联合终点,以及二者均非的情况;具体测量指标包括DLT、至DLT时间、二分类响应、多分类响应、连续响应、纵向响应、无进展生存期(PFS)、总生存期(OS)、生物标志物及药代/药效学(PK/PD)等。动机方面,则分为治疗相关、终点相关、人群相关、设计/方法学相关以及操作/伦理相关。研究人员同时记录疾病领域、设计类别及可多重归类信息。最终通过频数比较与反复讨论提升提取一致性,并借助EPPI-Mapper构建在线交互式证据图谱,将终点与方法学动机进行可视化映射。

3 Results

3.1 Overview

检索共得到4989篇唯一文献,其中1499篇被判定为自适应试验方法学研究。经题目摘要分类后,367篇初步涉及自适应剂量探索和/或无缝I/II期设计;全文筛选排除52篇后,最终纳入315篇文章。结果显示,近半数纳入研究发表于最近10年,提示该领域处于快速发展阶段。早期研究主要以毒性为唯一终点,而近年来仅基于毒性的设计增长趋于平缓。相反,同时考虑毒性与疗效的研究数量显著增加,到2025年初达到117篇,占全部纳入文献的37%。其中绝大多数受肿瘤学应用驱动,并多采用DLT与二分类响应的联合终点组合。相关方法包括联合建模毒性与疗效的双变量持续重评估法、以效用函数刻画毒性-疗效权衡的EffTox、BOIN12与U-BOIN等设计,以及将自适应I期剂量探索与II期剂量优化结合的无缝I/II期设计。部分研究还纳入三类及以上结局,以适应免疫肿瘤学等更复杂情境。

3.2 Design Classes

在315篇纳入文章中,模型法设计占主导地位,共207篇,占66%。规则法设计35篇,区间法设计53篇,半参数设计5篇,非参数设计34篇;另有19篇兼具多种设计特征。时间趋势表明,模型法虽长期占据主流,但相对占比正在下降;区间法/模型辅助设计近年增长明显,非参数设计也有一定上升,而传统规则法设计占比则显著下降。该趋势说明研究重心正在从高度依赖模型设定的方法,逐步扩展至兼顾可实施性与稳健性的替代框架。

3.3 Treatment-Related Motivations

治疗相关动机中,联合治疗剂量探索是重要方向,共涉及60篇文章。其统计挑战在于多个药物组合对应的DLT风险排序通常仅部分已知,因此需要处理部分有序(partial order)结构。代表性方法包括partial order CRM与Ci3 + 3设计,它们通过预先设定多个可能排序及其对应升降阶路径应对组合剂量的不确定顺序。另一些设计则在每一步限定可接受剂量集,如Keyboard设计中常采用当前剂量邻近组合进行决策。

多疗程治疗相关研究共22篇,可分为两类:一类在剂量递增决策中整合多个治疗周期的历史数据,以提升剂量-毒性关系估计效率;另一类则直接优化“剂量-给药方案”联合策略,例如比较一周内多次给药与单次给药对DLT风险的不同影响。与此相邻的是患者内剂量递增研究,共9篇,其目的既包括减少早期患者接受次优剂量的概率,也包括通过同一患者跨剂量、多周期数据改善剂量-毒性关系估计,并在某些场景下加速早期升阶。

针对非单调剂量-疗效关系的研究共29篇,通常假设疗效在某一剂量后下降,因此目标转向识别最优生物剂量而非MTD。多数方法通过模型法显式刻画此类非单调关系,例如引入二次项;另一些方法则先识别安全剂量集,再在其中比较疗效。与之相关的是针对剂量-毒性/疗效关系模型不确定性的研究,共42篇,方法包括贝叶斯模型平均持续重评估法等,通过在多个候选模型之间分配后验权重来降低模型错设风险。疫苗情境亦构成少量但有特色的研究方向,尤其是癌症疫苗试验中,由于DLT罕见且与剂量不强相关,设计更倾向于将免疫反应纳入剂量选择依据。

3.4 Endpoint-Related Motivations

终点相关动机主要集中于延迟结局,共64篇。延迟毒性在放疗与免疫治疗中尤为常见,若忽略其存在,可能低估DLT发生概率。传统策略是暂停入组直至完成随访,但这会显著延长试验周期。为此,方法学上发展出允许连续入组的部分信息利用策略。例如,TITE-CRM通过为每位患者赋予与其已完成毒性观察窗口比例相对应的权重,将未完成观察的患者信息部分纳入模型;TITE-BOIN则可对待定DLT结局进行插补。另有方法将至DLT时间作为生存结局建模。延迟疗效终点方面,常见处理对象包括客观缓解、至响应时间与PFS。部分研究还进一步讨论多周期治疗下延迟结局带来的额外复杂性。

替代终点仅见于少数研究,主要出现在肿瘤学中。部分模型法在剂量递增期间以未确认肿瘤缓解或早期活性标志物作为确认缓解的替代指标,以支持更及时的决策,并在最终疗效信息出现后进行替换更新。另有研究采用医师评估的DLT概率作为实际DLT概率的替代信息,以处理毒性判定不确定性。

3.5 Population-Related Motivations

人群相关动机以组间/患者异质性最为突出,共31篇。此类研究基于不同亚组可能具有不同MTD或最优生物剂量这一前提,目标是实现亚组特异性剂量识别。大多数方法采用模型法,将亚组指示变量纳入剂量-毒性模型,或加入剂量与亚组交互项,使不同亚组具有不同剂量-毒性/疗效曲线形态。由于早期剂量探索试验样本量有限,模型往往需保持简约,因此不少研究仅设定两个预定义亚组并采用二分类毒性与疗效终点。为缓解样本量不足问题,还发展出跨亚组信息借用、引入信息性先验分布,以及基于基因组模式的惩罚回归等方法。

此外,部分异质性设计假定亚组间毒性排序信息已知或部分已知。若临床上可确定某一剂量下各组毒性风险的完整顺序,则可应用有序组双参数CRM等设计;若仅掌握部分排序关系,则可仿照联合治疗中的partial order思路,构造多个完整排序并在模型法、区间法或非参数框架中进行处理。

3.6 Design/Methodology-Related Motivations

设计/方法学相关动机中,信息性先验的引入较为常见,共39篇。模型法中多通过对剂量-毒性/疗效模型参数设置信息性先验实现;也有研究通过伪数据(pseudo-data)编码既有毒性认知,从而在试验初期对模型估计产生引导作用。对于区间法、规则法和非参数法,引入先验相对不易,但仍可通过对各剂量二项毒性概率设定先验分布加以实现。

外部信息纳入的研究较少,但具有实际意义,例如儿科CRM从同步成人试验中借用信息,或bridging CRM从既往标志性试验向特定族群后续试验迁移信息。另一个值得关注的问题是模型法可能收敛于次优剂量,即所谓“长记忆”现象:早期患者数据影响过大,后期几乎不再发生升降阶。为缓解这一问题,研究提出在当前MTD估计附近采用自适应随机化分配患者,或在估计持续不变时引入随机升降阶机制,如随机化CRM。部分区间法也通过相邻剂量随机化或区间调优减少次优收敛。

方法学灵活性也是重要发展方向,包括为后续阶段选择多个剂量或剂量区间、在试验进行中增设新剂量水平,以及不预先固定剂量集合的连续剂量选择思路。近年来还出现了回填队列(backfilling)与剂量扩展队列(dose-expansion cohort)方法。回填主要用于在已知安全剂量中补充积累毒性与疗效信息,尤其适用于比较低于MTD的剂量是否具有相近疗效而更优耐受性;剂量扩展队列则在升阶阶段后进一步评估一个或多个候选剂量,并可用于探索亚群中的差异化药物效应。

3.7 Operational/Ethical Motivations

操作与伦理动机主要围绕试验可行性与受试者保护展开。缩短试验周期的研究共60篇,常与延迟结局或替代终点处理方法相伴随,以避免因等待完整随访而拖延入组。另一些方法通过在首个DLT或首个响应出现前采用单患者队列,加速早期升阶。伦理层面最突出的关注是过量给药控制,共206篇文章涉及,即尽量减少患者暴露于过毒剂量。相应策略包括禁止跨剂量跳跃、确保设计满足一致性(coherence),即若最近患者发生DLT,则下一位患者不得接受更高剂量。与之相对,减少欠剂量暴露的研究也占有一定比例,强调在安全前提下避免患者长期接受几乎无治疗效应的剂量。总体上,过量控制已成为自适应剂量探索设计中的标准组成部分。

3.8 Evidence Map

为帮助研究者快速识别与自身试验问题相匹配的方法,本文构建了交互式在线证据图谱。该图谱将终点信息与设计/方法学提出动机进行矩阵式映射,点的大小代表相关文献数量,颜色代表设计类别,并允许一篇文章因涉及多个终点或多种动机而出现在多个单元格中。图谱还显示研究空白,即特定终点与动机组合下尚无相关文献。使用者可通过筛选器按终点、动机、设计类别及软件可得性进行检索,例如同时筛选“DLT(二分类)”“响应(二分类)”“联合治疗”“延迟结局”,从而定位最相关的方法学研究。该工具在试验设计前期具有较高实用价值。

4 Discussion

讨论部分总结认为,截至2025年1月,研究人员共识别315篇自适应剂量探索试验方法学文章,显示该领域规模庞大且持续扩展。总体趋势表明,联合毒性与疗效终点的设计越来越多,联合治疗、延迟结局、异质性药物效应以及非单调剂量-疗效关系已成为最新方法学发展的重点。尽管模型法在纳入文献中最为常见,但临床实践中规则法3 + 3设计及其变体仍广泛使用,主要因为其更简单、熟悉且易于实施。相比之下,模型法在处理复杂问题时潜力更大,但也更依赖模型设定,在小样本和模型错设下可能面临风险,并且常被临床研究者视为“黑箱”。这种顾虑推动了对区间法和非参数法的兴趣上升,而区间法近年来之所以增长迅速,也与其逐渐具备处理联合治疗和延迟结局等复杂情境的能力有关。

文章进一步强调,仅有方法学创新并不足以推动临床落地,生物统计学家与临床研究者之间的密切合作,以及用户友好型软件的可获得性,同样是关键条件。本文提供的证据图谱加入“软件可得性”筛选,即是为了增强实际应用价值。作者也坦陈本研究的局限,包括主要采用单人筛选可能带来的判断误差,以及期刊范围限制可能遗漏少量相关研究;但通过试筛选、一致性评估和多轮讨论,已尽可能降低偏倚。最终,文章指出,在自适应剂量探索设计日益多样化的背景下,如何选择最适合具体临床目标、治疗类型与伦理要求的设计,已成为决定试验成功与可解释性的关键方法学问题。随着Project Optimus等倡议持续推进,未来该领域文献预计仍将快速增长,因此将证据图谱作为持续更新的“活文档”具有重要现实意义。

生物通微信公众号
微信
新浪微博


生物通 版权所有