AIRRs概述
适应性免疫受体库(AIRR)可定义为个体在特定时间点存在的B细胞受体(BCR)和T细胞受体(TCR)的集合。BCR和TCR不同于其他蛋白质,它们是通过组合编码的,这使得AIRR能够实时响应内外因素而“适应”。这种适应性背后是复杂的遗传机制,能够产生识别任何潜在非自身抗原的多样化分子结构,同时维持自身耐受。
AIRR成为有前景的生物标志物候选者有多个因素。首先,由于B细胞和T细胞动态响应广泛的抗原,AIRR是供体免疫系统的直接读数。因为B细胞和T细胞数据可以从多种来源以非侵入性或微创方式收集,利用AIRR序列数据诊断疾病、预测结果或监测对免疫治疗的反应引起了越来越多的兴趣。
AIRR在癌症中的患者分层
在过去的十年中,AIRR数据在癌症预后中的应用已从探索性案例研究发展到复杂的人群水平分析。AIRR在患者分层中的预后价值已在黑色素瘤、基底细胞癌(BCC)、膀胱癌、食管鳞状细胞癌(ESCC)、胃癌、头颈部鳞状细胞癌(HNSCC)、非小细胞肺癌(NSCLC)和胰腺导管腺癌(PDAC)等实体瘤中进行了研究。迄今为止,只有一小部分研究集中在血液系统恶性肿瘤上。对此的一个可能解释是,在这种情况下,B细胞和T细胞本身是肿瘤的来源。因此,单个恶性克隆可以主导患者的整个库。
患者分层在免疫检查点抑制剂(ICI)(抗PD-1和/或抗CTLA-4)、EGFR抑制和酪氨酸激酶抑制等癌症疗法中均有报道。与基于TCR的方法相比,基于BCR的方法的一个潜在优势是其更广泛的适用性:使用BCR AIRR数据,研究人员能够对黑色素瘤和肾细胞癌患者进行分层。此外,最近一项研究使用BCR在不同类型的癌症中实现了预后结果,加强了BCR频率与多种疾病相关的概念。最后,BCR不受个体间主要组织相容性复合体(MHC)变异性这一混杂因素的影响。
测序模板与衍生特征
无论细胞类型如何,用于下游分析的AIRR数据有两个基本来源:DNA和RNA。来源材料的选择会影响结果,因为每种都有其自身的范围、敏感性和功能可解释性。基于DNA的技术可以捕获生产性和非生产性的TCR和BCR基因重排,但它们对转录水平不敏感。相反,基于RNA的方法受转录水平的影响很大。然而,RNA的稳定性远不如DNA,并且在提取和测序前的逆转录过程中很敏感。此外,基于任一种来源材料的分析都可能因扩增伪影(如嵌合序列)而存在高度偏差。尽管有大量研究,但在患者分层背景下,对不同来源材料的相对优势或劣势的受控评估很少。
有大量AIRR衍生特征可用于下游分析。克隆性是下游分析中最常用的特征之一。肿瘤特异性免疫细胞的扩增是AIRR与肿瘤特异性抗原相互作用的可能结果。理论上,治疗前独特克隆数量的减少可能表明肿瘤特异性免疫细胞的富集,因此可能与治疗反应相关。令人惊讶的是,使用TCR数据的研究发现,在接受ICI单药治疗的NSCLC患者中,治疗前外周独特克隆数量与总生存期(OS)无关。相比之下,当作者分析接受联合治疗(ICI和化疗)的患者时,他们发现反应者的克隆性显著高于非反应者。一致地,另一项研究发现HNSCC患者对联合治疗(ICI和抗EGFR)的反应与TCR克隆性之间存在关系。值得注意的是,作者使用辛普森克隆性作为主要测量指标,因为它对序列深度的敏感性低于香农克隆性或其他多样性指标。
描述AIRR的另一种数值方法是多样性,它借鉴了克隆性和均匀度的概念。某些研究使用特定版本的多样性,例如D50。最近一项研究发现,在接受联合治疗的患者中,治疗前TCR多样性增加与较高的OS相关。然而,另一项不同的研究发现,在ESCC中,肿瘤中较高的TCR多样性表明对免疫治疗无反应。量化免疫反应的另一种方法是通过收敛度量。收敛反映了这样一种现象:响应显性抗原表位,相同的TCR可以由不同的核苷酸序列编码。例如,在接受联合治疗的NSCLC患者中,治疗前TCR收敛度低与较高的OS相关。然而,仅使用收敛度作为独立特征,作者无法对患者进行分层。此外,分层研究中收敛度的解释通常存在问题,因为该特征可以在核苷酸水平或氨基酸水平上定义。
AIRR在自身免疫性疾病中的患者分层
在自身免疫性疾病的背景下,基于AIRR的患者分层已成功应用于系统性自身免疫性疾病,如类风湿关节炎(RA)、系统性硬化症、特发性炎症性肌病(IIM)、干燥综合征(SS)、系统性红斑狼疮(SLE)以及器官特异性自身免疫性疾病,如多发性硬化症(MS)、重症肌无力(MG)和视神经脊髓炎谱系疾病(NMOSD)。
在自身免疫性疾病中,基于AIRR的患者分层没有偏向于基于TCR的方法(如癌症研究中所见)。使用基于BCR技术的主要原因之一是自身反应性B细胞在几种自身免疫性疾病的病理生理学中的核心作用。从治疗角度来看,B细胞和T细胞同时参与的例子可以在RA中看到,其治疗可以靶向B细胞耗竭或T细胞活性调节。然而,同时提供自身免疫患者治疗期间BCR和TCR见解的研究并不常见。在其中一项罕见的研究中,作者发现,在TNF调节下,反应者和非反应者的RA患者可以在BCR和TCR多样性方面区分开来。基于AIRR的治疗反应分层在这种情况下可能是由于反应者与非反应者识别不同的自身抗原,导致不同免疫细胞亚型的激活和分化,以及仅在部分患者中TNF敏感克隆的扩增。
使用的模型
从建模的角度来看,使用AIRR进行癌症患者分层或预后研究分为两类。在第一类中,研究使用传统的生存分析技术,如Kaplan-Meier估计量或Cox回归。这些方法是传统的统计方法,因此不能被认为是机器学习方法。然而,一些研究使用基于机器学习的分类算法,如逻辑回归(LR)或神经网络(NN)。将神经网络用于患者分层与前面描述的方法不同,因为它不需要传统意义上的特征提取(如克隆性或多样性),而是允许神经网络直接从输入数据中学习重要的序列概念。在人工智能时代,这些更复杂模型的应用是不可避免的。
在从AIRR提取特征期间,当向量表示由汇总统计组成时,会丢失大量信息。这就是可以直接从底层序列提取特征的方法可以发挥作用的地方。使用深度序列嵌入,通过对比学习、大语言模型或自回归生成模型在预测性能上的改进已得到证明。然而,为了有效,这种方法通常需要数百万个序列进行训练。此外,这些模型计算量很大,因此需要专门的基础设施。最后,这些模型通常难以解释,因为它们的特征并不总能映射到直观的生物学特性。
新兴的基于AIRR的技术
有一些代表AIRR的替代方法正在开发中,它们可以作为描述传统指数(如克隆性和多样性)无法捕获的免疫库模式的指南。这些技术已在AIRR分析的其他应用中被证明是成功的。
从测序方法的角度来看,单细胞技术使得能够捕获AIRR中配对链的信息。这些信息对于描述功能完整的AIRR至关重要,但在批量测序过程中会丢失。没有单细胞技术,配对链信息只能通过概率算法或从基于实验验证数据集构建的策展数据库中进行预测。截至目前,由于成本和额外的技术步骤,配对链信息的广泛应用受到限制,这使得AIRR社区中的数据共享工作(构建公共数据库、处理第三方数据的工具)变得更加关键。
另一个捕捉免疫复杂性的概念是中心性,它可以描述为AIRR网络中每个克隆型的边数。该度量可用于识别许多其他受体变体的祖细胞的受体序列。一个明显的复杂因素是,该描述符受用于构建底层网络的相似性度量的高度影响。
结论与未来展望
免疫治疗是一个主要产业。抗体在十大畅销药物中占六种,并且免疫检查点抑制剂或CAR-T疗法有10-20%的增长。然而,患者对这些疗法的反应远非完美。因此,对可靠的预后生物标志物存在迫切需求。在各种形式的免疫治疗中,应用AIRR作为预后生物标志物已变得流行,许多研究报告了使用AIRR进行患者分层的显著结果。
尽管应用广泛,但基于AIRR的预后方法学背景尚未标准化。在输入材料、测序方法或从所得序列数据中提取特征方面没有共识。甚至基本术语(如克隆或显性克隆)的定义也尚未标准化。此外,大多数提出的方法和途径尚未经过独立验证。这种缺乏验证和统一实验流程的情况限制了现有结果的可解释性和可比性。未公开或不全的数据集使验证工作进一步复杂化。许多由公共研究经费生成并发表在知名科学期刊上的数据集访问受限的情况太常见了。
基于AIRR的分层工作的未来取决于标准化协议的建立。需要原始数据以及匿名化的元数据来支持验证。通过统一流程生成的公开可访问数据将促进数据驱动的决策,并最终改善患者的预后和生活质量。如果这些要求得到满足,基于AIRR的患者分层和预后很可能为精准医学的下一次革命做出重大贡献。