AASLD-EASL Delphi共识声明:原发性胆汁性胆管炎中的替代终点和真实世界证据

时间:2026年5月27日
来源:Hematology/Oncology and Stem Cell Therapy

编辑推荐:

**摘要(通俗语言总结)** 原发性胆汁性胆管炎(PBC)的药物研发已促使三种二线疗法获得有条件的批准,但由于以下原因,完全获得监管批准仍面临挑战: 1. 依赖肝生化指标和非侵入性肝纤维化测量方法作为临床结果的生物标志物,但这些方法未被监管机构认可为有效的疗效终点;

广告
   X   

**摘要(通俗语言总结)**
原发性胆汁性胆管炎(PBC)的药物研发已促使三种二线疗法获得有条件的批准,但由于以下原因,完全获得监管批准仍面临挑战:
1. 依赖肝生化指标和非侵入性肝纤维化测量方法作为临床结果的生物标志物,但这些方法未被监管机构认可为有效的疗效终点;
2. 实际应用数据(real-world data)和实际证据(real-world evidence)在临床试验中的整合程度有限;
3. 患者报告的结果(patient-reported outcomes, PROs)的使用缺乏统一性和标准化。

为解决这些问题,欧洲肝脏研究协会(EASL)和美国肝脏疾病研究协会(AASLD)委托了一个国际多利益相关者共识小组,通过改进的德尔菲(Delphi)流程来审查现有证据,确定未满足的研究需求,并制定符合监管预期的框架,以指导PBC领域的持续和未来研究。共有62名小组成员参与,包括临床医生、方法学家、监管机构和行业代表,他们分为三个工作组,参加了多次在线会议、一次面对面会议以及两轮在线德尔菲投票。两次投票的参与率分别为88%和60%。德尔菲流程最终在三个主题领域达成16项共识和42项建议。这些共识性建议为支持和扩展PBC新疗法的监管路径提供了全面且实用的框架。

**原发性胆汁性胆管炎(PBC)的药物研发受到以下因素的阻碍:**
- 缺乏经过验证的疗效终点;
- 实际应用数据和实际证据的有限使用;
- 患者报告的结果(PROs)的非标准化,这些因素限制了新二线疗法的完全监管批准。

为应对这些问题,EASL和AASLD召集了一个由62名成员组成的国际多利益相关者小组,采用改进的德尔菲流程(包括在线会议、一次面对面会议和两轮投票),审查证据并确定未满足的需求。小组就16项声明和42项建议达成一致,为未来PBC疗法的监管路径提供了实用框架。

**常见问题解答(FAQ)**

**引言**
原发性胆汁性胆管炎(PBC)是一种慢性胆汁淤积性肝病,可能发展为肝硬化,并伴有严重影响生活质量的严重症状。1–3
1997年美国食品药品监督管理局(FDA)批准熊去氧胆酸(UDCA)用于PBC的治疗,标志着疾病管理方式的转变,因为常规治疗开始延缓疾病进展。4,5 然而,确认UDCA对患者的益处仍需多年时间。6–8
尽管UDCA对整个疾病谱系都有益处,但仍有相当比例的患者未能获得足够的生化反应,仍面临疾病进展和严重并发症的风险。6,9,10
此外,UDCA治疗对症状没有显著改善。对于那些对UDCA一线治疗无反应或无法耐受的患者,有额外的二线疗法可供选择,如奥贝胆酸(OCA, Ocaliva®)以及较新的过氧化物酶体增殖物激活受体(PPAR)激动剂塞拉德帕(Seladelpar, Livdelzi®)和艾拉非布兰诺(Elafibranor, Iqirvo®)。这些药物基于生化指标(主要是碱性磷酸酶ALP和总胆红素)的改善获得了FDA和EMA的有条件批准。11–17
这些生物标志物在多个大规模国际队列研究中显示出与临床结果的一致性,目前没有证据反驳其预测价值。然而,支持数据主要来自三级转诊人群的回顾性分析。因此,监管机构认为ALP和胆红素是合理的预测临床益处的指标,但尚未被验证为有效的替代终点;因此,需要确认性试验才能获得全面的市场授权。18–20
值得注意的是,这种方法没有考虑药物对症状的影响:证明患者“功能”或“感受”的变化也可能导致药物获得监管批准,但由于目前缺乏实施和解释患者报告结果(PROs)数据的能力,这一点尚未得到探索。

除了这些有条件批准的疗法外,贝扎非布(Bezafibrate)是一种泛PPAR激动剂,虽然尚未获得PBC治疗许可,但广泛作为附加疗法使用,其安全性和生化疗效得到了临床试验数据和实际证据(RWE)的支持。21–23
尽管缺乏正式的监管批准,其在临床实践中的广泛使用反映了当前PBC许可框架的局限性。同样,非诺贝特(Fenofibrate)作为一种PPAR-α激动剂,也在没有贝扎非布的国家(如美国)作为附加疗法使用。

在PBC中设计确认性随机对照试验(RCT)面临重大挑战。一旦疗法获得有条件批准并上市,招募和保留患者变得非常困难:当有效的治疗方案可用时,患者和医生可能不愿意接受安慰剂随机分组,尤其是考虑到确认性试验的长期性。由于ALP和总胆红素在临床试验和临床实践中都被常规检测,功能性揭盲经常发生,这可能导致参与者转向上市药物。确认性试验倾向于招募病情较重的患者以最大化事件发生率,但这些患者面临更大的短期风险,并且可能对治疗的反应较差,从而增加假阴性结果的可能性。

当前PBC药物审批框架的挑战体现在COBALT研究中,这是一项由监管机构要求进行的IV期RCT,旨在验证OCA的有效性。24
虽然对COBALT研究的详细分析超出了本文的范围,但值得注意的是,该研究因招募和保留困难、功能性揭盲以及患者转向上市OCA或非标签疗法而提前终止。
尽管实际数据(RWD)表明OCA可能改善生存率,25,26 但COBALT未能在主要结果上显示出显著益处。25,26
同时,上市后的安全信号(包括有无肝硬化的患者出现严重肝损伤)引发了人们对OCA整体利弊的担忧。27–29
因此,OCA分别于2024年11月底和2025年9月从欧盟和美国市场撤出。30,31
人们担心,正在进行的塞拉德帕和艾拉非布兰诺的确认性试验最终可能会与COBALT的结果相似,更广泛地说,未来针对PBC和其他罕见肝病的疗法可能难以超越有条件批准阶段。

为应对这些挫折,欧洲肝脏研究协会(EASL)和美国肝脏疾病研究协会(AASLD)与拉丁美洲肝脏研究协会(ALEH)和非洲肝脏疾病协会(SOLDA)合作,于2025年5月共同举办了一场多利益相关者会议,就三个领域提出建议:
1. 肝生化和非侵入性肝纤维化测量方法在PBC RCT和实际研究中的替代终点作用;
2. 使用RWD和RWE支持评估新疗法在PBC RCT中的安全性和有效性;
3. 在PBC RCT和实际研究中统一和实施患者报告的结果(PROs)以评估生活质量、瘙痒和疲劳。

**方法**
**专家小组的组建**
一个由12人组成的指导委员会提名了一个多利益相关者共识小组,包括62名成员:36名临床专家、4名EMA代表、14名行业代表和8名患者代表(表S1,https://links.lww.com/HEP/K486)。美国FDA的代表也被邀请参与共识过程,但由于旅行限制和其他联邦参与限制,他们未能出席。为了确保广泛的代表性和普遍性,小组成员来自全球主要的肝脏病学协会(AASLD、EASL、ALEH和亚太肝脏研究协会[APASL])。指导委员会确定了三个主要主题,并为每个共识主题领域创建了三个工作组。共识过程采用了改进的德尔菲方法32–34,整合了所有利益相关者的意见。理想情况下,这一模型可以用于其他罕见自身免疫性肝病的监管路径。

**文献回顾和证据分级**
小组尽可能使用PICO格式(P - 患者、人群或问题;I - 干预措施、预后因素或暴露;C - 对照或干预(如适用);O - 结果),制定了八个关键问题(表S2和S3A-C,https://links.lww.com/HEP/K486)。为回答这些问题,2025年3月18日至26日期间进行了广泛的文献搜索,遵循系统评价和荟萃分析的优先报告项目(PRISMA)指南。2025年11月30日进行了更新搜索,针对自首次搜索以来的新出版物。查询的数据库包括MEDLINE、Embase、PubMed、Google Scholar、Web of Science、ClinicalTrials.gov和Cochrane系统评价数据库。为确保全面覆盖,还在相关系统评价文献的参考文献、国际协会指南和主要国际会议的摘要书中进行了补充手动搜索。搜索不限于语言或出版国家。筛选和选择过程使用Covidence软件辅助完成。35 所有搜索均由同一核心团队(AM、MS和WW,见致谢)领导,以确保方法的一致性和纳入标准的统一应用。每个工作组还根据其特定的PICO问题进行了独立的文献搜索。详细搜索策略和PRISMA流程图见图S1–S3,https://links.lww.com/HEP/K486;表S4A–C,https://links.lww.com/HEP/K486。证据的质量根据牛津循证医学中心(OCEBM)的标准进行分级(表S5和S6,https://links.lww.com/HEP/K486)。

**建议和声明的制定**
所有工作组每周大约召开一次在线讨论,审查选定的文献并共同起草建议和声明。建议是基于现有证据的可行指导,旨在帮助最终用户做出明智的决策。建议的等级根据OCEBM标准确定,并反映在建议的措辞中。声明提供了基于证据和专家意见的事实信息或澄清。起草的建议和声明随后由全体共识小组面对面讨论,然后提交给德尔菲小组进行正式审查和投票。

**德尔菲流程和分析**
所有德尔菲小组成员至少参与了一个工作组。每个建议的回复使用三点李克特量表(同意、中立、不同意)记录。此外,还提供了自由文本字段,以便小组成员发表评论或提出修改意见,符合既定的德尔菲方法。33,34 德尔菲投票数据经过定量和定性分析。定量分析将回复频率转换为三点李克特量表(同意、中立、不同意),以评估每个声明的共识程度。计算同意比例时排除了中立回复。每个工作组的主席独立进行了伴随自由文本评论的定性分析,并在后续在线会议上讨论,以指导建议和声明的修订。

**结果**
德尔菲小组由来自18个国家的53名PBC专家、患者代表、行业和监管机构成员组成。EMA的代表仅以观察员/顾问身份参与讨论,未参与德尔菲投票或担任监管角色。有意包括行业代表,以反映他们在PBC治疗开发中的重要贡献。为确保平衡的代表性,每个行业组织无论参与讨论的代表人数多少,都只有一票。德尔菲小组的详细信息见表1。表1 – Delphi小组特征
特征 n (%) 总小组成员数 专家临床医生 34 (64%) 行业代表 8 (15%) 患者代表 8 (15%) 监管机构代表 3 (6%)
性别 男性 32 (60%) 女性 21 (40%)
地理区域 欧洲 29 (55%) 北美 18 (33%) 亚太地区 3 (6%) 南美洲 2 (4%) 非洲 1 (2%)
代表国家 18
Delphi投票参与情况 第一轮受访者 44 (88%) 第二轮受访者 30 (60%)

a 监管机构代表参与了讨论,但未参与Delphi投票。
b 分母中不包括监管机构代表;每个行业组织无论涉及多少人,都只允许投一票。

**响应率和小组参与情况**
第一轮Delphi投票于2025年8月14日至9月10日进行。小组成员对分布在三个主题领域的16个陈述和42项建议进行了投票,共有44位专家参与,响应率为80%。第一轮投票产生了349条书面评论,这些评论由工作组进行了主题审查和讨论。共识定义为受访者中≥75%的同意。获得50-75%同意和/或>10%反对的陈述被标记为需要修订和重新提交。第一轮投票后,举行了一次虚拟会议,与会者包括每个工作组的至少一位指导委员会主席和共识主席(共6人),以完善需要进一步审查的陈述内容。第二轮投票于2025年9月19日至22日进行,针对四项符合修订标准的建议和一项陈述。共有30位小组成员参与(响应率为68%),中立回答被排除在共识计算之外。修订后的陈述随后被纳入共识文件,并由EASL和AASLD管理委员会进行了最终审查和批准。Delphi过程完成后,最终的陈述和建议根据三个工作组领域进行了整理。以下部分介绍了每个领域的共识陈述和建议、支持理由以及未来研究重点。

**1. 原发性胆汁性胆管炎(PBC)临床试验中的替代终点**
**背景**:III期PBC随机对照试验(RCT)的主要终点应是一个具有临床意义的结果,定义为与患者相关的临床事件或直接衡量患者感受、功能或生存情况的终点。然而,PBC疾病进展缓慢,使得使用肝衰竭、肝移植或死亡等硬性临床终点作为III期RCT的主要终点变得不可行。因此,需要替代终点来支持药物批准。然而,迄今为止,尚未有任何PBC生物标志物达到监管机构认可的验证替代终点的证据标准。尽管没有标准化的监管标准来定义正式的验证流程,但期望在RCT层面有强有力的机制学依据和证据支持。尽管如此,在缺乏这些标准的情况下,一些生物标志物仍被接受为替代终点,特别是当它们直接涉及疾病进程(例如慢性肾病的血清肌酐和肾小球滤过率)或代表疾病过程本身(例如丙型肝炎的持续病毒学应答)时。在PBC中,真实世界证据(RWE)继续显示某些生物标志物与临床结果之间的关联,支持将其作为临床试验中的终点。本节的目的是批判性地评估现有证据,定义在RCT中实用使用生物标志物的可接受阈值,并概述迈向正式替代终点验证的研究议程。

**1.1. 肝生化指标在PBC临床试验中的作用**
在肝生化参数中,碱性磷酸酶(ALP)和总胆红素研究最为广泛。ALP水平与疾病发病机制密切相关,ALP和总胆红素的持续降低与实际回顾性队列中肝衰竭、肝移植和死亡的风险降低一致。这些关联已在未经治疗的自然史队列、接受UDCA治疗的患者以及最近接受二线治疗的患者中得到证实。因此,监管机构认为ALP和总胆红素是临床结果的合理预测指标,支持通过加速途径进行有条件批准,尽管它们尚未被正式验证为替代终点。目前关于二线治疗下生化标志物与临床结果关联的RWE数据主要来自OCA和贝扎非布的研究。由于seladelpar和elafibranor等药物临床使用时间较短,相关数据尚未获得。一项系统文献回顾确定了1995年至2025年间发表的69项研究,这些研究评估了生化标志物在预测PBC患者临床结果中的作用。样本量中位数为540人(范围63–4,845人),随访时间从2.5年到10年不等。大多数研究包括未经治疗或接受UDCA治疗的患者,但最近的研究也包括了接受二线治疗的患者。临床结果的定义各不相同,但最常见的是肝移植和死亡(全因或肝相关)。所有在UDCA或二线治疗12个月后评估ALP或胆红素的研究均报告了与临床结果的显著关联(多变量分析,p<0.05)。在最大的国际队列(n=4,845人)中,Lammers等人证明ALP水平较高(ALP >2.0×正常上限[ULN]时,风险比[HR]为2.49,p<0.001;总胆红素 >1.0×ULN时,HR为5.06,p<0.001)。这些发现也在一个大型英国全国性队列(n=3,165人)中得到独立验证,该队列来自二级和三级医疗机构。另外十五项研究检查了包含ALP和/或总胆红素的复合预后指标,并一致预测了不良临床结果。

证据的稳健性受到研究队列之间显著重叠的限制,尤其是在用于十一项研究的全球PBC队列的随访分析中,以及结果定义的异质性。然而,大型国际队列中结果的一致性以及ALP和总胆红素与胆汁淤积性损伤之间的强机制学依据支持将其作为PBC临床试验中的主要终点,用于有条件/加速市场授权。

Delphi小组成员被要求评估肝生化指标在PBC临床试验中的使用情况。所有项目的共识度均很高,≥94%。具体来说,对于UDCA治疗12个月后的ALP和总胆红素水平与临床结果的关联,所有成员均完全同意(100%);对于二线治疗下的相应关联,几乎所有成员也同意(96-98%)。类似的高共识度(≥98%)支持白蛋白和血小板计数的预后价值,而94%的成员认为AST(天冬氨酸氨基转移酶)、ALT(丙氨酸氨基转移酶)和GGT(γ-谷氨酰转移酶)的证据仍不足(表S7D–H)。总体而言,90%的成员支持以下建议:在至少持续12个月的III期PBC RCT中,完全生化应答(ALP和胆红素正常)或充分生化应答(ALP <1.5-1.67×ULN且胆红素正常)应被视为理想或可接受的主要终点,资格由筛查时的基线生化指标确定(图1)。这得到了研究的支持,这些研究表明不同的ALP(1.5-1.67×ULN)和总胆红素阈值具有持续的较高区分性能。然而,更严格的生化终点(即完全应答,ALP和总胆红素恢复正常)具有更强的预后价值。

**陈述**
1.1.1. UDCA治疗12个月后,ALP水平(<或>1×ULN、1.5×ULN、1.67×ULN或2×ULN)与PBC患者的临床结果相关(证据等级2,100%同意)。
1.1.2. 贝扎非布或OCA二线治疗12个月后,ALP水平(<或>1×ULN、1.5×ULN、1.67×ULN或2×ULN)与PBC患者的临床结果相关(证据等级3,98%同意)。
1.1.3. UDCA治疗12个月后,总胆红素水平(<或>0.6×ULN、1×ULN或2×ULN)与PBC患者的临床结果相关(证据等级2,100%同意)。
1.1.4. 贝扎非布或OCA二线治疗12个月后,总胆红素水平(<或>0.6×ULN或1×ULN)与PBC患者的临床结果相关(证据等级3,96%同意)。
1.1.5. 目前缺乏证据来确定AST、ALT和GGT对长期临床结果的影响(证据等级3,94%同意)。
1.1.6. UDCA治疗6至12个月后,白蛋白水平(<或>正常下限)与PBC患者的临床结果相关(证据等级2,98%同意)。
1.1.7. UDCA治疗6至12个月后,循环血小板计数(<或>正常下限)与PBC患者的临床结果相关(证据等级2,100%同意)。
1.1.8. UDCA治疗6至12个月后生化应答不足——以及之后任何时间——与PBC患者不良临床结果的风险增加相关(证据等级2,98%同意)。
1.1.9. 贝扎非布或OCA二线治疗12个月后生化应答不足与PBC患者不良临床结果的风险增加相关(证据等级3,96%同意)。

**建议**
1.1.1. 在至少持续12个月的III期PBC临床试验中(基于生化纳入标准),完全生化应答(ALP和总胆红素正常)或充分生化应答(ALP <1.5-1.67×ULN且胆红素正常)应被视为理想或可接受的主要终点(证据等级2,强烈建议,90%同意)。

**图1:PBC临床试验的替代终点框架**
示意图展示了从治疗开始到PBC临床结果的路径,说明了不同疾病评估阶段替代终点的作用。通过ALP的降低、TB的正常化以及综合评分来评估的生物标志物应答,可以在III期RCT中至少12个月时作为早期终点进行测量。疾病改变需要通过VCTE测量的LSM变化和纤维化稳定性来评估,这需要在IV期确认性试验中延长随访时间至≥24个月。临床结果,包括肝衰竭、肝移植和死亡,是最终终点,但需要多年的随访。箭头表示治疗效果与可测量结果之间的时间关系。

**缩写**:
ALP:碱性磷酸酶;LSM:肝硬度测量;LT:肝移植;PBC:原发性胆汁性胆管炎;RCT:随机对照试验;TB:总胆红素;VCTE:振动控制瞬态弹性成像。

**1.2. 非侵入性肝纤维化检测能否作为PBC临床结果的替代终点?**
除了肝生化指标外,组织学进展也可作为PBC临床结果的替代指标。然而,重复的肝活检存在程序风险,患者接受度较低,且不属于常规临床管理的一部分。此外,虽然肝活检在群体层面提供了有价值的信息,但由于采样变异性和观察者间差异,其在追踪个体患者疾病进展方面的准确性仍然不完美。非侵入性肝纤维化检测方法为临床试验提供了更可行的替代方案。其中,通过振动控制瞬态弹性成像(VCTE)进行的肝硬度测量(LSM)在PBC中得到了最广泛的验证,大型回顾性队列显示其在识别晚期纤维化和预测临床结果方面的良好性能。与肝活检类似,LSM也有重要局限性。特别是,LSM值可能受到炎症、胆汁淤积、操作技术等因素的影响,且关于不同中心和操作者之间测量结果的可重复性和一致性的担忧仍然存在。与组织学不同,LSM不允许在测试后重新评估组织,这被监管机构视为将其作为个体患者层面替代终点时的关键挑战。此外,支持LSM预后价值的许多已发表证据来自对重叠患者队列的多次分析,而将LSM变化与硬性临床结果联系起来的前瞻性数据仍然有限,这是该领域的一个重要未满足需求。尽管存在这些局限性,现有数据表明LSM提供了具有临床意义的预后信息。具体来说,基线和治疗期间LSM超过10 kPa与不良临床结果显著相关,独立于生化标志物。此外,LSM在1年内增加≥20%与较差的结果相关,而减少≥20%则与改善的结果相关。评估的最佳时机仍不确定。尽管有压力要求将双盲期限制在12个月内以最小化安慰剂暴露,特别是当终点是LSM稳定性(即没有增加)时,但Bezurso试验的前瞻性数据表明,24个月的间隔可能更为合适,尤其是在早期疾病患者中。在非侵入性的肝脏纤维化血清生物标志物中,增强型肝脏纤维化(ELF)评分是研究最多的,因为它已被广泛纳入随机对照试验(RCTs)中。ELF评分基于血清透明质酸、III型前胶原N端肽和组织金属蛋白酶抑制剂,与纤维化阶段相关,并且在PBC基线时显示出对临床结果的预测价值;然而,其治疗下的预后价值仍有待充分阐明。值得注意的是,尽管ELF评分被纳入试验方案,但在常规临床实践中并未得到广泛应用。虽然一些观察性研究评估了非专有的非侵入性肝脏纤维化检测方法,如APRI(AST与血小板比率指数)和FIB-4,但它们并未被用作III期RCT的次要或探索性终点。因此,在本共识中未进一步探讨它们的作用。一项系统文献回顾确定了10项关于LSM的研究和2项关于ELF评分的研究,这些研究评估了这些检测方法与PBC临床结果之间的关联,发表时间介于1995年至2025年之间(表S7I和J,https://links.lww.com/HEP/K486)。样本量的中位数为426名患者(范围:102至3,284),随访时间从15个月到7.3年不等。所有研究都包括了UDCA治疗的患者。临床结果的定义各不相同,但大多数研究包括了肝脏失代偿、肝移植(LT)和死亡(全因或肝相关)的复合指标。德尔菲小组专家被询问了他们对在PBC RCT中使用LSM和血清肝脏纤维化生物标志物作为终点的意见。所有陈述的一致性都很高,至少96%的专家同意基线和治疗期间LSM的预后价值,包括其独立于生化标志物的预测能力(98%的一致性)。专家们还一致认为(96%),基线ELF评分与临床结果相关,尽管关于ELF动态的纵向变化及其与生化反应的相关性的证据被认为不足(98-100%的一致性)。此外,92%的专家支持在足够长的III期RCT中使用LSM作为潜在终点,而86%的专家支持将生化反应与稳定或降低的LSM结合作为复合终点。然而,应该注意的是,将LSM作为终点的试验可能需要比单独使用生化终点推荐的12个月更长的持续时间,因为预计纤维化相关变化发生得更慢,最佳时间框架可能因疾病阶段和纳入标准而异。总体而言,小组一致认为需要策略来加强当前替代标志物的预测能力,并支持那些正在研究中的治疗的上市许可过程。这些策略可以包括采用更严格的生化目标,如ALP和总胆红素的正常化,以及将它们与额外的生物标志物结合成复合终点,以更好地反映疾病进展。同时,小组确定正式验证肝脏生化和非侵入性肝脏纤维化标志物作为替代终点是未来治疗开发的研究重点。

**共识声明:**
1.2.1 通过VCTE测量的基线和治疗期间的LSM变化与PBC患者的临床结果相关(证据等级2,98%的一致性)。
1.2.2 通过VCTE测量的LSM与PBC患者的临床结果相关,独立于生化生物标志物(证据等级2,98%的一致性)。
1.2.3 关于后续LSM评估之间的最佳时间框架的证据不足(证据等级3,98%的一致性)。
1.2.4 基线ELF评分与PBC患者的临床结果相关(证据等级3,96%的一致性)。
1.2.5 关于ELF评分的纵向变化与PBC临床结果之间的关联的数据不足(证据等级5,100%的一致性)。
1.2.6 关于ELF与PBC治疗反应之间的关联的数据不足(证据等级5,98%的一致性)。

**建议:**
1.2.1 在适当持续时间的III期PBC临床试验中,可以通过VCTE测量的LSM作为临床结果的潜在替代指标(证据等级3,弱推荐,92%的一致性)。
1.2.2 在适当持续时间的III期PBC临床试验中(早期疾病至少24个月),应将生化反应与通过VCTE测量的降低或稳定的LSM结合作为复合终点(证据等级2,强推荐,86%的一致性)。
1.2.3 治疗失败可以通过生化反应不足、LSM进展和/或肝失代偿的复合终点来评估(证据等级3,弱推荐,98%的一致性)。

**研究议程:**
- 定义和标准化基于LSM的终点,包括阈值、有意义变化的幅度以及不同疾病阶段的最佳评估时间。
- 前瞻性评估治疗期间ELF评分对临床结果的预测作用。
- 前瞻性评估转氨酶和非专有的肝脏纤维化标志物作为临床结果的预测因子。
- 建立一个结构化的药物开发框架,将临床安全性和有效性评估与生物标志物验证整合到统一的审批流程中。
- 在长期确认性试验(如COBALT)中进行亚组分析,按应答状态、疾病阶段和治疗历史进行分层。

**2. 在PBC中使用真实世界数据(RWD)和真实世界证据(RWE)**
**背景:**虽然RWD/RWE在PBC中的用途多种多样——包括提供对疾病自然史的更深入理解、识别风险因素和潜在的替代终点、指导临床试验设计(功效计算、资格标准和终点)、进行上市后监测以及阐明疾病负担的各个方面——但本节的目的是讨论使用RWD/RWE来支持与新疗法的安全性和有效性相关的因果推断。这些共识声明旨在支持统一的方法学标准,并促进能够推动监管决策的监管级研究实践。它们基于监管指南、在PBC中的已发表经验以及所有利益相关者之间的讨论。

**2.1. 旨在支持PBC确认性试验和上市后试验的RWE研究的关键设计和报告考虑因素是什么?**
RCT仍然是评估治疗效果的传统标准,但在PBC中,它们经常受到疾病进展缓慢、患者群体较小以及关于长期安慰剂暴露的伦理问题的限制。这些挑战促使人们寻求替代途径,包括使用RWD来生成能够为监管决策提供信息的RWE。监管级RWE与探索性观察研究的区别在于它依赖于“适合使用”的数据来源——那些相关、可靠且足够详细以支持因果推断的数据来源——以及具有透明数据来源和分析可重复性的预先指定协议。在PBC中,这种需求尤为迫切,因为基于被认为可能合理预测结果的替代终点的有条件批准疗法需要长期临床益处的确认性证据。因此,RWE代表了一种实用且伦理上可接受的途径,可以补充传统试验。方法学进展表明,当传统的随机设计不可行时,来自RWD的外部对照组可以补充单臂试验——这一策略已在罕见病领域得到应用,并越来越多地考虑用于罕见肝病。关键的设计要素——包括对照组选择、时间顺序和混杂因素调整方法——决定了可靠性,而如目标试验模拟和基于注册表或混合前瞻性-回顾性设计等框架提供了改进因果推断和可重复性的结构化方法。监管机构已经认识到这一不断发展的格局。FDA的《21世纪治愈法案》下的真实世界证据计划和EMA的指南明确支持使用RWE来评估新适应症并满足上市后要求,前提是数据可靠性和相关性得到证明。这种方法在肿瘤学中已有先例:例如,blinatumomab和avelumab等药物基于单臂试验并辅以RWD衍生的外部对照组获得了加速批准。FDA和EMA都强调预先指定的研究设计、外部对照组的审慎使用、严格的数据质量标准以及与监管机构的早期合作是必不可少的。

**尽管有这些进展,但仍存在重要限制:**RWD来源在代表性 and 完整性方面存在差异;未测量的混杂因素威胁有效性;系统间的异质性增加了复杂性。这些不确定性强调了在计划旨在支持PBC药物批准或标签扩展的真实世界研究时需要仔细的设计、透明的报告和与监管机构的正式互动。

**从共识讨论中得出了两个原则:**首先,必须尽早并在整个真实世界研究的设计和执行过程中与监管机构进行合作。其次,在RCT不可行的情况下,结合目标试验模拟框架和严格定义的基于RWD的外部对照组的良好设计的单臂试验可以提供可信的、监管级的PBC治疗益处证据。这些原则直接支持以下建议。

**建议:**
2.1.1 强烈建议在旨在支持批准或标签扩展的研究中尽早并持续与监管机构进行合作(证据等级5;强推荐,100%的一致性)。
2.1.2 当RCT不可行时,应考虑使用来自严格定义的RWD的外部对照组的单臂试验设计,以支持监管级的安全性和有效性证据(证据等级3;强推荐,100%的一致性)。
2.2 在PBC的RWD研究中应使用哪些数据来源?数据来源的选择对于RWE在PBC中的可信度和监管效用至关重要。监管级RWE取决于数据的“适合使用性”——即数据的相关性、可靠性和充分完整性,以满足研究目标。疾病特定的注册表提供了关于治疗暴露、实验室动态和患者报告(PROs)的最详细和临床最有意义的信息。这些注册表(如全球PBC和UK-PBC队列)已经生成了经过验证的预后和生存模型,并且对于终点验证仍然是不可或缺的。回顾性和前瞻性观察性队列进一步证明了结构化多中心数据(国家和国际)收集的可行性,具有长期随访。这些举措在表S8中进行了总结(https://links.lww.com/HEP/K486),构成了以PBC为重点的RWE的实证基础。电子健康记录(EHRs)捕获了常规临床实践、合并症、实验室值和处方模式,为有效性和安全性分析提供了丰富的背景。索赔数据库通过提供人群级别的覆盖范围、标准化编码和详细的医疗利用和成本信息来补充这些优势。它们非常适合捕获硬临床终点,如肝移植或因肝硬化并发症而住院的情况,尽管在实验室和PRO数据方面缺乏细节。分布式数据网络使得跨系统的联合分析成为可能,同时保护了隐私。为了确保监管机构的接受度,必须在数据类型之间协调终点和协变量,并事先定义它们。结构化的方法来提高完整性——例如前瞻性捕获安全变量、记录治疗决策、链接注册表和EHR数据以及整合PROs——是必要的,以填补当前的知识空白,并与国际数据治理标准保持一致。

**基于此背景,小组认识到没有单一数据来源是足够的。**虽然PBC受益于已经形成了风险分层和终点开发的成熟注册表基础设施,但仅靠注册表可能会由于反映三级中心实践而限制普遍性。EHR和索赔数据库对于大规模捕获治疗模式和安全性至关重要,尽管在实验室和PRO数据方面存在局限性。分布式数据网络为未来的整合提供了希望,前提是实现系统间的协调和标准化编码。最佳RWE生成需要仔细协调数据来源与研究目标、终点协调以及加强数据质量和互操作性的主动措施。这些共同结论构成了以下建议的基础。

**建议:**
2.1.3 PBC的RWD研究应使用适当的数据来源,这些来源可能包括注册表、EHRs、索赔数据库和分布式数据网络,选择基于研究目标和数据的“适合使用性”(证据等级5;强推荐,98%的一致性)。
2.1.4 应在不同数据来源之间协调终点定义,并与监管标准保持一致(证据等级5;强推荐,100%的一致性)。
2.1.5 应通过结构化方法提高旨在生成监管级证据的新兴和现有数据来源的质量和效用,以解决关键知识缺口(证据等级5;强推荐,100%的一致性)。
2.3 我们如何识别和控制PBC研究中特定的混杂因素和各种偏见?偏见和混杂因素是RWD研究中普遍存在的挑战,是生成监管级证据的主要障碍。与随机误差不同,偏见引入了系统性的扭曲,可能会错误地表示因果关系。由于监管决策依赖于有效的因果推断,因此识别、量化并减轻偏差对于真实世界证据(RWE)在原发性胆汁性胆管炎(PBC)中的可信度至关重要。PBC在识别和减轻偏差方面面临独特的挑战。作为一种罕见且进展缓慢的疾病,它容易受到指示性偏倚、选择偏倚和数据缺失的影响。观察性数据集可能根据数据来源的不同,低估或高估了晚期或有症状患者的比例,而治疗分配通常受到基线风险因素的影响。其他威胁还包括不朽时间偏倚、由于编码错误导致的暴露或结果分类错误,以及由于随访不完整而产生的流失偏倚。由于临床事件(如病情恶化或移植)发生频率较低,即使是轻微的失衡也可能导致结果的过度估计或低估(表2)。

表2 - 与PBC真实世界数据研究相关的偏差及推荐的缓解策略

| 偏差类型 | 简要说明 | 统计缓解技术 | PBC中的示例 |
|---------|---------|-----------|---------|
| 选择偏倚 | 研究人群可能无法代表总体PBC人群 | 人群加权;敏感性分析;更广泛的数据来源 | |
| 指示性/渠道偏倚 | 更严重的患者更可能接受某些治疗 | 倾向得分匹配/加权;多变量调整 | |
| 不朽时间偏倚 | 未计入队列加入与治疗开始之间的时间 | 时间依赖的Cox模型;正确的时间对齐;一致的索引日期定义 | |
| 信息偏倚 | 数据收集不准确或不一致导致暴露或结果评估错误 | 验证研究;标准化数据收集协议;算法验证 | |
| 分类错误偏倚 | 暴露或结果的错误分类会扭曲关联 | 经过验证的算法;敏感性分析;独立裁决委员会 | |
| 继续偏倚 | 不均匀的测量时间表影响结果检测 | 建模时间变化协变量;调整随访强度;主动比较设计 | |

方法论框架,如目标试验模拟、外部对照组和混合前瞻性-回顾性设计,强调了明确调整时间相关偏差和稳健比较定义的必要性。根据临床参考标准(如基于电子健康记录的肝硬化检测)验证自动化病例发现算法对于确保准确的人群识别至关重要。监管机构强调,通过与登记系统的基准测试、裁决结果或手动病历审查对RWD进行内部验证是不可或缺的。数据链接中的偏差缓解是一个新兴的研究领域。跨数据集链接去标识化患者的标记化策略可能会引入错误匹配(“碰撞”)和遗漏匹配(“分离”)的可能性。链接方法必须预先指定、合理化并进行定量评估。对意外或不确定发现的事后调查是科学透明度的关键组成部分。PBC登记分析显示了实验室实践和治疗采纳的地域差异,强调了将观察到的效果置于具体背景中的重要性。来自肿瘤学RWD框架的经验表明,系统的偏差审计可以细化效果估计并改进未来的试验模拟。

小组得出结论,偏差的识别和缓解必须预先指定、可重复并且透明报告。在使用电子健康记录或索赔数据时,应考虑通过登记系统基准测试或病历审查进行内部验证。标记化必须包括定量错误评估。在探索残余偏差方面的透明度被视为科学义务,特别是在每个数据集都为未来研究提供信息的罕见疾病中。

建议:
2.1.6. 所有PBC的真实世界研究都应预先指定预期的偏差。
2.1.7. 应预先指定并实施缓解策略,以控制使用RWD的PBC研究中的偏差。
2.1.8. 基于电子健康记录和索赔的数据集应通过与临床标准的基准测试或手动病历审查进行内部验证,以确保准确识别研究人群、暴露、结果和协变量。
2.1.9. 如果使用标记化来链接跨数据集的去标识化患者,应合理选择标记,并量化链接错误的风险(例如碰撞和分离)。
2.1.10. 当RWD分析导致意外或不确定的结果时,应鼓励事后调查偏差来源,并透明报告以支持未来的研究和监管决策。

图2:生成原发性胆汁性胆管炎监管级真实世界证据的方法论框架。设计旨在支持原发性胆汁性胆管炎监管决策的真实世界研究的三个阶段工作流程。

研究议程:
- 适应PBC的目标试验模拟和外部对照组设计,明确比较选择和混杂控制策略。
- 加强登记系统、电子健康记录、索赔和分布式网络,采用标准化的终点和集成的患者报告(PRO)收集。
- 根据临床标准对电子健康记录/索赔数据进行基准测试,系统地识别、减轻并报告关键偏差。
- 改进标记化方法,量化链接错误,并促进多源研究的透明报告。
- 确保在全球临床护理和实践的变异性被纳入RWD的设计和解释中。

3. PBC中的患者报告结果和症状评估:
- PBC对生活质量的影响是多方面的,包括疲劳和瘙痒等症状,以及更广泛的身体、情感和功能限制。重要的是要认识到这些症状会对患者的生活体验和生活质量产生重大影响,无论是否采取干预措施来防止疾病进展,都需要考虑这些症状,以评估这些结果。这些共识声明旨在指导选择和实施以患者为中心、心理测量学上稳健且符合监管期望的结果测量方法。在所有PBC临床试验中常规包含患者报告(PROs)是必不可少的——不仅是为了评估针对症状的疗法的有效性,也是为了评估那些并非主要针对症状设计的治疗的更广泛影响(包括有益和不利影响)。

3.1. PBC中PROs的关键考虑因素是什么?
- PROs被定义为直接来自患者的关于症状、功能和福祉的报告,量化疾病和治疗如何影响日常生活。在PBC中,它们捕捉了表征疾病负担的领域——最显著的是疲劳、瘙痒、认知功能障碍、情绪困扰和社会参与——这些在生化或组织学标志物中都没有体现。这些表现是核心的治疗目标,因为许多患者尽管有生化反应但仍存在症状。PRO工具可能是疾病特定的(例如PBC-40)或通用的(例如EuroQoL-5 Dimension [EQ-5D]、Short Form Health Survey [SF-36]、Patient-Reported Outcomes Measurement Information System 29 [PROMIS-29]),提供关于治疗益处的互补视角。经过验证的PROs(即具有内容有效性、可靠性和对目标人群变化响应性的工具)对于评估对患者最重要的结果和确定治疗价值是不可或缺的。由于疲劳和瘙痒等症状无法通过实验室或影像学标志物客观量化,当症状缓解是治疗目标时,患者报告是评估疗效的唯一可行方法。监管机构越来越认为PROs对于证明治疗益处至关重要。EMA强调PROs通过提供患者感受和功能的直接见解来补充临床终点。FDA的PRO指南指出,经过验证的PROs可以支持标签声明和批准后的承诺。除了监管要求外,基于PRO的终点还影响临床实践指南、健康技术评估和支付方决策。

PRO数据的可信度取决于严格的实施。首先,评估的时间和频率必须与疾病进程和预期的治疗反应相一致。例如瘙痒等症状可能在几天到几周内波动。因此,跨临床意义的时间窗口进行测量比单一点比较更可取;然而,必须考虑过度频繁评估的缺点,包括完成疲劳和回忆先前反应的问题。必须预先指定研究中使用的各种工具的回忆期和评分算法,以最小化不一致的解释。其次,解释PRO变化需要建立最小临床重要变化(MCIC)的阈值。基于锚点的方法——通常使用全球印象工具,如Patient Global Impression of Severity (PGI-S) 或 Change (PGI-C)——定义患者认为有意义的改善幅度。疾病特定的临床评分工具,包括Clinical Global Impression–Severity and Change for PBC (CGI-S-PBC) 和 CGI-C-PBC,可以作为补充的锚点(即用于解释PRO分数变化是否具有临床意义的外部参考点)。小组认识到PBC中的MCIC验证尚未完成,并强调需要在研究开始前开发并预先指定这些阈值,以支持监管对结果的接受。第三,数据收集的一致性很重要。PROs应使用经过验证的格式(电子或纸质)进行收集,使用相同的方法和时间点以减少测量误差并确保可比性。PROs应在其使用的语言中进行验证。客观或生理工具(如活动记录仪、直立测试或可穿戴传感器)可以提供关于活动、睡眠或自主症状的探索性见解,但捕捉的构念与患者报告的经历不同。例如,活动记录仪可能会低估尽管有显著症状负担但仍保持活动的患者的疲劳程度。这些方法可以补充但不能替代PROs在监管或确认性设置中的使用,直到进一步验证。最后,准确的解释需要考虑共病和重叠机制。甲状腺疾病、抑郁症或原发性睡眠障碍等状况可能会混淆疲劳与PBC的直接关联,而自主功能障碍可能独立导致疲劳。测量这些变量并预先指定分析调整对于避免错误归因治疗效果至关重要。总体而言,共识小组得出结论,PROs是PBC研究中的基础性——而非可选——终点。它们的适当选择、标准化实施和透明分析对于生成真正反映个体对治疗感受和功能的以患者为中心的监管级证据是不可或缺的。

建议:
3.1.1. PROs应在多个预先指定的时间点收集,这些时间点应与试验设计和预期的治疗反应轨迹一致。
3.1.2. 研究应明确指定每种工具的回忆期和评分方法。在临床试验中,这些信息应在方案或统计分析计划中预先指定。
3.1.3. 应预先建立最小临床重要变化(MCIC)的阈值,以支持患者层面和组层面治疗效果的解释。
3.1.4. 可以使用全球印象工具(如Patient Global Impression of Severity (PGI-S) 或 Change (PGI-C),以及适用的疾病特定临床评分工具(如Clinical Global Impression–Severity and Change for PBC (CGI-S-PBC) 和 CGI-C-PBC)来支持PRO变化的解释,特别是在建立MCIC阈值时特别有帮助。
3.1.5.患者报告的结果(PROs)应理想地使用工具经过验证的格式进行收集,无论是电子方式还是纸质方式。无论选择哪种方式,确保所有参与者和研究时间点的一致性对于保持数据完整性至关重要(证据等级5;强烈推荐,98%的共识)。3.1.6. 建议及时且频繁地收集数据,以最小化回忆偏差,特别是在已知会波动的症状(如瘙痒)方面(证据等级5;强烈推荐,98%的共识)。3.1.7. 客观工具(如活动记录仪、直立测试)可能提供有价值的探索性见解,但它们测量的构念与患者的实际体验不同,可以视为PROs的补充而非替代品(证据等级5;弱推荐,98%的共识)。3.1.8. 为了准确解释PRO的异常,应考虑共病情况和症状调节机制(证据等级5;强烈推荐,92%的共识)。表3 - 用于原发性胆汁性胆管炎(PBC)的PRO工具的理想特征

特征 描述 理由 在PBC人群中经过验证 在PBC患者中建立了心理测量学属性(可靠性、有效性、反应性) 确保工具能够测量在这种特定疾病背景下的预期指标 来自患者的资料 项目内容通过PBC患者的定性输入开发 捕捉与患者实际体验相关的领域和语言 覆盖与PBC相关的领域 解决关键症状领域:疲劳、瘙痒、认知功能、情绪健康、社会参与 反映PBC的多方面负担,而不仅仅是生化指标 使用基于锚点的方法定义了最小临床重要变化(MCIC) 使能够解释观察到的变化对患者是否有意义 对变化的反应性 显示出随时间检测治疗效果的敏感性 对于评估临床试验中的治疗效益至关重要 监管机构的认可度 被FDA/EMA接受或审查用于临床试验 便于提交监管文件和标注声明 适当的回忆期 回忆期与症状变异性和研究设计相匹配 最小化回忆偏差;准确捕捉波动的症状(如瘙痒) 可重复使用 响应者负担低;适合多次测量 支持纵向评估而不会使患者过度疲劳 提供经过验证的翻译版本 为多国研究提供语言学验证的版本 确保在全球试验中的跨文化等效性 与电子管理兼容 经过电子患者报告结果(ePRO)平台的验证 支持实时数据捕获和与电子健康记录(EHR)/登记系统的集成

3.2. 如何评估PBC患者的全球生活质量?PBC患者的全球生活质量反映了症状、治疗效果和心理社会因素对患者实际体验的累积影响。它整合了疲劳、瘙痒、认知功能以及情绪和社会健康等领域,提供了超出生化或组织学终点的全面见解。PBC-40是迄今为止在PBC中评估生活质量最可靠且最广泛采用的工具。该工具通过与患者的定性访谈开发,整合了六个领域——症状、疲劳、瘙痒、认知、情绪和社会方面,并在临床试验和现实世界研究中展示了强大的构念有效性、对治疗变化的反应性以及可靠性。这些特征使其成为评估PBC生活质量的基石工具。通用测量工具(如EQ-5D、SF-36和PROMIS-29)对于生成健康效用数据很有价值,能够进行跨疾病比较,但缺乏对PBC标志性症状(如疲劳和瘙痒)的覆盖,单独使用时可能会低估疾病负担。FDA和EMA都要求生活质量测量工具在概念上合理、在目标人群中经过验证,并且在生活质量是治疗目标时对变化敏感。PBC-40通过其来自患者的资料和疾病特异性满足了这些要求。全球印象工具,包括PGI-S和PGI-C,以及新兴的临床评分工具(如CGI-S/C-PBC),可以帮助确定MCIC阈值并增强患者报告效果的可解释性(表S9,https://links.lww.com/HEP/K486)。专家组建议采用分层方法:PBC-40作为核心的疾病特异性工具,在需要经济或比较分析时辅以通用工具,全球印象测量工具提供基于锚点的可解释性。应通过特定领域的结果来解释PBC-40的总分,以捕捉领域级别的益处或剩余负担。这种方法确保了PBC中的全球生活质量测量在科学上可靠、可解释,并符合监管期望。

建议:
3.2.1. PBC-40应被视为评估PBC全球生活质量的主要疾病特异性工具(证据等级2;强烈推荐,96%的共识)。
3.2.2. 不应单独使用EQ-5D、SF-36和PROMIS-29来评估PBC的生活质量(证据等级5;强烈推荐,100%的共识)。
3.2.3. 可以使用患者报告的全球印象工具(如PGI-S、PGI-C)来支持旨在确定患者内部有意义变化阈值的分析(证据等级5;弱推荐,100%的共识)。

1.1. 肝脏生化指标在PBC临床试验中的作用是什么?瘙痒是PBC中最令人困扰且难以治疗的症状之一,严重影响睡眠、情绪和日常功能。其准确测量对于评估治疗效果和支持监管决策至关重要。最严重瘙痒数字评分量表(WI-NRS),包括几乎相同但分别经过验证并具有商标的Itch Ro®评分,是一个0-10的患者报告量表,用于评估过去12到24小时内的瘙痒峰值严重程度,并已在包括PBC在内的胆汁淤积性肝病中得到验证。由于其清晰性、对变化的敏感性以及监管机构的认可,它已成为瘙痒试验的首选主要终点。FDA和EMA已在回肠胆汁酸转运体抑制剂和PPAR激动剂的关键试验中接受了WI-NRS(表4)。

表4 - PBC患者报告结果工具的验证状态总结
工具 评估的领域 在PBC中经过验证 在PBC中提出的MCIC 推荐在临床研究中的使用 备注
PBC-40 全球生活质量、疲劳、瘙痒、认知、情绪、社会 是 否 试验的主要终点;来自患者的资料
PBC-40疲劳领域 疲劳严重程度和影响 是 否 核心疾病特异性疲劳测量
PBC-40瘙痒领域 瘙痒影响 是 否 否 代表性不足
WI-NRS 瘙痒严重程度 是 是 是(≥3分减少) 主要终点(瘙痒试验) FDA/EMA接受
5-D瘙痒量表 多维度瘙痒(持续时间、程度、方向、残疾、分布) 否 否 否 在慢性瘙痒中得到验证;用于PBC队列
VAS(瘙痒) 瘙痒严重程度 否 否 支持性/真实世界证据 简单但缺乏标准化
睡眠干扰NRS 由于瘙痒引起的睡眠障碍 否 否 否 在瘙痒人群中得到验证
PROMIS疲劳SF-7a 一般疲劳 否 否 辅助性 强大的心理测量学;跨疾病可比性
疲劳影响量表(FIS) 多维度疲劳(认知、身体、社会) 否 否 支持性 在肝病中得到验证
EQ-5D 健康效用 否 否 经济模型 不是疾病特异性;HTA接受
SF-36 一般健康相关生活质量 是 否 否 辅助性 在肝病中得到验证;缺乏PBC症状特异性
PROMIS-29 多个领域(功能、情绪、睡眠、疼痛、疲劳) 否 否 辅助性 全面;能够推导效用
PGI-S/PGI-C 全球对严重程度/变化的印象 否 否 (锚点功能) MCIC的锚点 支持解释;不是独立终点
CGI-S-PBC/CGI-C-PBC 临床评分的严重程度/变化 否 否 (锚点功能) MCIC的锚点
Epworth嗜睡量表(ESS) 白天嗜睡 否 否 支持性 与疲劳因素相关
直立分级量表(OGS) 自主神经功能障碍症状 否 否 支持性 与疲劳表型相关
活动记录仪/可穿戴设备 客观活动/睡眠 否 否 仅用于探索性研究 未经过监管终点验证

a. 在其他肝病或慢性瘙痒人群中得到验证。
b. 用于PBC试验但未在PBC中专门验证。
c. 正在PBC中进行验证。

缩写:CGI-C-PBC,PBC临床全球变化印象;CGI-S-PBC,PBC临床全球严重程度印象;EQ-5D,EuroQol 5维度;FIS,疲劳影响量表;HTA,健康技术评估;MCIC,最小临床重要变化;NRS,数字评分量表;OGS,直立分级量表;PBC-40,原发性胆汁性胆管炎-40问卷;PGI-C,患者全球变化印象;PGI-S,患者全球严重程度印象;PROMIS,患者报告结果测量信息系统;QoL,生活质量;RWE,真实世界证据;SF-36,简式健康调查-36;VAS,视觉模拟量表;WI-NRS,最严重瘙痒数字评分量表。WI-NRS评分在治疗组和安慰剂组之间的平均变化是当前监管标准的主要分析方法,尽管关于临床上有意义的组间差异的共识尚未确定。在个体层面,≥3分的减少已被认为是临床上有意义的改善的基准,特别是在中度至重度瘙痒的患者中。使用相关工具的研究表明,较小的变化(≥2分)对某些患者也可能有意义。鼓励进行包含多个阈值(≥2分、≥3分、≥4分)的探索性分析,以捕捉个体间差异并符合监管期望。除了强度之外,瘙痒还需要多维度评估。5D-瘙痒量表——评估持续时间、程度、方向、残疾和分布——提供了关于瘙痒的功能和心理社会后果的见解。PBC-40的瘙痒领域反映了在经过验证的PBC特定框架内的患者体验。这些工具最好作为次要或综合终点,以补充WI-NRS的变化并提供更全面的治疗效果评估。在瘙痒试验中,安慰剂反应显著(平均改善20-40%),必须在研究设计和解释中予以考虑。辅助终点,如睡眠干扰评分(例如睡眠干扰数字评分量表[Sleep-NRS]和PROMIS睡眠障碍量表),有助于量化瘙痒的下游效应并捕捉强度评分单独无法反映的方面。像活动记录仪这样的客观工具提供了关于夜间不安或活动的探索性数据,但尚未作为监管终点得到验证(表S10,https://links.lww.com/HEP/K486)。专家组同意WI-NRS应继续作为PBC试验中量化瘙痒严重程度的主要患者报告终点。然而,多维度和辅助性测量工具——包括5D瘙痒量表、PBC-40瘙痒领域和以睡眠为中心的工具——被视为捕捉瘙痒更广泛的功能和心理社会后果所必需的。这些观点指导了以下建议,旨在协调验证工具的使用,建立临床上有意义变化的统一阈值,并确保PBC试验中的症状评估既反映强度也反映患者的感受。

建议:
3.3.1. 最严重瘙痒数字评分量表(WI-NRS)被推荐为PBC临床试验中评估瘙痒严重程度的主要工具(证据等级2;强烈推荐,98%的共识)。
3.3.2. 建议在治疗期间WI-NRS评分与安慰剂组之间的平均变化作为瘙痒试验的主要终点(证据等级2;强烈推荐,94%的共识)。
3.3.3. 建议WI-NRS(0-10量表)从基线减少3分作为PBC试验中临床上有意义的患者内部改善的主要阈值(证据等级2;强烈推荐,94%的共识)。
3.3.4. 全球印象工具(如PGI-S和PGI-C)可以支持解释患者内部有意义的变化(证据等级5;弱推荐,96%的共识)。
3.3.5. 可穿戴技术(如活动记录仪)可以提供探索性数据以补充PROs,但尚未在监管试验中作为终点得到验证(证据等级5;弱推荐,100%的共识)。
3.3.6. 视觉模拟量表应在支持性或真实世界背景下使用(证据等级5;强烈推荐,98%的共识)。
3.3.7. 捕捉瘙痒更广泛影响的多维度测量工具——如5D瘙痒量表和PBC-40瘙痒领域——应作为次要终点或综合终点的组成部分(证据等级5;强烈推荐,96%的共识)。
3.3.8. 针对瘙痒特定后果的工具,如睡眠干扰(例如睡眠干扰NRS、PROMIS睡眠障碍),可以在涉及中度至重度瘙痒患者的试验中作为次要终点使用(证据等级5;弱推荐,96%的共识)。
3.3.9. 虽然全球生活质量测量工具(如EQ-5D、SF-36)可以在解释治疗效果时提供背景信息,但它们对症状导向干预措施变化的敏感性较低,限制了它们作为瘙痒特异性试验的主要或次要终点的效用(证据等级5;弱推荐,100%的共识)。

3.3. 如何在PBC临床研究中评估瘙痒及相关症状?疲劳是PBC中最常见且通常最令人衰弱的症状,影响约40-80%的患者。其严重程度并不总是与疾病阶段相关,即使生化指标有所改善也可能持续存在。其病理生理学涉及中枢(神经传递改变、动机)和周围(神经肌肉功能障碍、去适应)机制,以及自主神经功能障碍、睡眠障碍和情绪障碍的贡献。目前获得许可的疗法并不能始终有效地改善疲劳症状,这使得疲劳成为一个需要通过经过验证的患者报告结局(PRO)指标进行进一步研究的独特治疗目标。PBC-40疲劳量表仍然是评估原发性胆汁性胆管炎(PBC)患者疲劳症状最可靠且应用最广泛的工具。该量表能够同时捕捉疲劳的感知严重程度和功能影响,并且在前瞻性队列研究和治疗研究中显示出对变化的良好反应性。PBC-40疲劳量表的评分范围为11到55分,其中29分及以上表示具有临床意义的疲劳。将其纳入更广泛的PBC特异性生活质量评估框架中,使其成为主要的疾病特异性疲劳测量工具。PROMIS疲劳简表7a(PROMIS Fatigue SF-7a)通过具备强大的心理测量学特性、数字适应性、多语言支持以及便于跨疾病比较的能力,对PBC疲劳评估进行了补充。PBC-40疲劳量表和PROMIS Fatigue SF-7a共同构成了一个既具有疾病特异性又具有普遍适用性的评估框架,适用于健康技术和监管评估。确定疲劳变化的临床重要阈值(MCIC)仍然是当务之急,因为目前缺乏基于共识的PBC特异性疲劳量表中的阈值标准,这限制了对治疗效果的解释。PBC患者体验中的一个重要方面是外周性疲劳和中枢性疲劳之间的平衡,这两种类型的疲劳都很常见。中枢性疲劳症状可能与认知症状重叠,这可以通过PBC-40认知症状量表进行评估。其他工具可以提供关于疲劳特定方面的信息。疲劳影响量表(FIS)及其改良版本包含了身体、认知和心理社会疲劳的子量表,尽管这些指标与PBC患者的外周性和中枢性疲劳及社会隔离状况的相关性尚不明确。全球印象工具(如PGI-S/PGI-C和CG-S/C-PBC)为确定MCIC阈值和理解患者反应提供了补充依据,但应作为次要工具使用,用于辅助解释而非替代经过验证的PRO量表。非PBC特异性工具(如医院焦虑抑郁量表[HADS]、Epworth嗜睡量表[ESS]和直立性分级量表[OGS])可以识别导致疲劳的因素(如情绪障碍、日间嗜睡和自主神经功能障碍),但这些因素可能会干扰PRO量表的解读。客观测量工具(如活动记录仪和可穿戴传感器)在描述睡眠-觉醒模式和身体活动方面显示出潜力,但尚未被验证为监管评估的终点指标(见表S11)。在共识讨论中,专家小组提出了PBC疲劳评估的分层策略:以PBC-40疲劳量表作为核心的疾病特异性工具;PROMIS Fatigue SF-7a作为补充测量工具以确保评估结果的监管可比性;以及FIS、PGI/CGI、HADS和OGS等辅助量表来捕捉共病因素并辅助解释。活动记录仪等客观测量工具被认为是探索性研究终点的有希望的辅助工具。这些讨论指导了以下建议:

**建议:**
3.4.1 应使用能够同时捕捉中枢性和外周性疲劳成分的PRO量表进行评估,认识到PBC疲劳的多因素和个体化特征(证据等级2;强烈推荐,100%一致)。
3.4.2 PBC-40疲劳量表应作为PBC患者疲劳症状的主要疾病特异性测量工具(证据等级2;强烈推荐,96%一致)。
3.4.3 PROMIS疲劳简表7a(PSF-7a)应作为补充的疲劳测量工具(证据等级5;强烈推荐,98%一致)。
3.4.4 疲劳影响量表(FIS)及其改良版本可作为辅助工具使用(证据等级5;弱推荐,100%一致)。
3.4.5 患者和临床医生评定的全球印象工具(如PGI-S、PGI-C、CGI-S/C-PBC)可辅助解释患者内部的疲劳变化,但不应替代PRO量表作为主要结局指标(证据等级5;强烈推荐,100%一致)。
3.4.6 其他非PBC特异性工具(如医院焦虑抑郁量表[HADS]、Epworth嗜睡量表[ESS]和直立性分级量表[OGS])可补充疲劳评估(证据等级5;弱推荐,98%一致)。
3.4.7 客观工具(如活动记录仪或可穿戴传感器)可作为PBC研究中的探索性或次要终点指标(证据等级5;弱推荐,98%一致)。

**图3:PBC患者生活质量评估中PRO量表的使用**
(A) PBC患者报告结局评估的分层框架。推荐用于PBC临床试验和实际研究的PRO量表的分层分类:
- 第一级(主要终点):在PBC中经过验证并被监管机构认可的疾病特异性PRO量表,包括PBC-40问卷(评估整体生活质量、疲劳和瘙痒症状)和WI-NRS瘙痒严重程度量表。
- 第二级(辅助/次要):在相关人群中经过验证的辅助测量工具,用于辅助解释和跨研究比较,包括PROMIS Fatigue SF-7a、5-D瘙痒量表、FIS、睡眠干扰NRS和通用健康效用量表(EQ-5D、SF-36)。
- 第三级(探索性/参考工具):尚未被验证为终点指标的客观工具和全球印象工具,但对确定MCIC有帮助,包括PGI-S/PGI-C、CGI-S-PBC/CGI-C-PBC、活动记录仪/可穿戴设备、OGS和ESS。
(B) PRO量表在PBC各症状领域的覆盖情况。热图显示了PRO量表在PBC关键症状领域的覆盖范围和验证状态。量表按层级(第一级:主要;第二级:辅助;第三级:探索性)垂直排列,并与六个症状领域(整体生活质量、疲劳、瘙痒、睡眠、认知功能和情绪/社会福祉)水平对应。颜色深浅表示验证状态:深蓝色=在PBC中经过验证;中等蓝色=在相关人群中经过验证;浅蓝色=在PBC中未经过验证;灰色=仅用于探索性研究;白色=不评估该症状领域。PBC-40在所有领域提供了最全面的覆盖,并具有PBC特异性验证,而WI-NRS提供了可靠的瘙痒症状评估。辅助工具提供了额外的领域覆盖,探索性工具为确定MCIC和症状特征提供了额外见解。

**研究议程:**
- 确立所有适用PRO量表中具有临床意义的患者内部和组间变化的可靠阈值。
- 使疾病特异性和通用性量表(如PBC-40、WI-NRS、PROMIS、PGI-S/PGI-C)保持一致,以便在不同试验、登记系统和监管提交中实现可比性。
- 使用基于共识的方法为PBC-40疲劳量表和PROMIS Fatigue SF-7a确定经过验证的MCIC阈值。
- 在多种语言、文化和医疗系统中测试PRO量表,并确认它们对新兴疗法的反应性,无论是在试验环境中还是实际应用中。
- 评估多维度工具(如5-D瘙痒量表、FIS)、全球印象工具和探索性客观测量工具(如活动记录仪)在捕捉当前PRO量表未覆盖的症状领域的潜力。

**结论:**
PBC的药物开发面临重大伦理和操作挑战,这些挑战源于疾病进展缓慢、患者群体有限以及缺乏完全经过验证的替代终点指标。通过严格的、多方参与的Delphi流程,本EASL-AASLD共识提供了一个实用的框架来应对这些挑战。专家小组一致认为,改善肝脏生化指标对于预测临床结果具有价值,同时非侵入性纤维化测量工具(如LSM)也具有补充作用。重要的是,共识强调了需要明确哪些额外数据可以将这些生物标志物转化为临床试验疗效终点的有效替代指标。此外,该共识还明确了生成符合监管要求的实际证据的原则,认识到在实际研究中当随机对照试验(RCT)不可行时,这些证据在确认疗效和安全性评估中的关键作用。同样重要的是系统地整合经过验证的PRO量表,确保从患者角度捕捉症状负担、生活质量和治疗影响。这些建议共同为支持PBC领域的创新、监管决策和以患者为中心的护理提供了统一的路线图。其实施需要临床医生、患者、监管机构和行业之间的持续合作,有望加速这种罕见但影响严重的疾病的安全、有效和持久疗法的开发。虽然这些原则是针对PBC制定的,但也可为其他面临类似治疗开发障碍的罕见胆汁淤积性肝病的终点选择、真实世界证据(RWE)生成和PRO量表评估提供参考。

生物通微信公众号
微信
新浪微博


生物通 版权所有