在生物制药领域,发现和优化一株具有治疗潜力的抗体,传统上是一项耗时漫长、成本高昂且充满不确定性的任务。常规方法依赖于动物免疫或体外展示技术筛选候选分子,随后还需经历繁琐的“亲和力成熟”和“可开发性”优化过程,以提升抗体在稳定性、溶解度、药代动力学及免疫原性等方面的表现。这个过程通常需要长达两年时间,且常常顾此失彼——改善一个属性可能损害另一个。更棘手的是,对于诸如多次跨膜蛋白(如G蛋白偶联受体,GPCR)等传统上“难成药”的靶点,常规方法往往束手无策。为了突破这些瓶颈,研究人员将目光投向了人工智能。
最近发表在《Nature Biotechnology》上的一系列研究和行业进展表明,人工智能正在彻底改变抗体发现的游戏规则。生成式AI模型不再仅仅是对现有抗体的修修补补,而是能够直接从靶点蛋白的结构或序列信息出发,“从头设计”出具有高亲和力和理想药物特性的全人源单克隆抗体。这种方法的核心优势在于能够同时优化多个“可开发性”属性,理论上可以将临床前开发时间从数年缩短至数周,并节省数百万美元的成本。从David Baker实验室在《Nature》上发表的里程碑论文,到Xaira、Chai Discovery、Latent Labs、Nabla Bio等一众初创公司发布的耀眼数据,AI设计的抗体正在从概念验证快速走向实际应用,并吸引了包括礼来、赛诺菲、辉瑞、勃林格殷格翰等制药巨头的巨额投资与合作。尽管前景广阔,但业界也对众多未公开模型和预印本中的惊人数据保持着审慎态度,呼吁进行严格的基准测试和同行评议,以验证这些AI模型的真实能力。
为了开展这项研究,研究人员主要利用了生成式人工智能模型、湿实验验证循环以及结构生物信息学数据库。关键的实验技术包括:基于深度学习的蛋白质结构预测与抗体设计平台(如Chai-2、Latent-X2、RFantibody等)、酵母展示筛选技术以验证AI设计抗体的结合活性、表面等离子共振等技术测定抗体-抗原结合亲和力、以及用于评估免疫原性的人T细胞活化实验。研究中使用的抗体-抗原复合物结构数据主要来源于公共数据库,如SAbDab。
AI抗体设计模型的进展与能力
研究人员开发了多种AI模型,能够针对特定靶点设计不同类型的抗体。例如,Chai Discovery公司的Chai-2模型宣称能以超过50%的成功率设计全长的单克隆抗体(mAbs),针对GPCR和肽-MHC复合物等挑战性靶点。Latent Labs的Latent-X2模型则专注于设计纳米抗体(VHH)和单链可变区片段(scFv),对KRAS(G12D)等难成药靶点实现了皮摩尔到纳摩尔级的结合亲和力。David Baker实验室的RFantibody方法也证明了从头设计抗体结合物的可行性,并能将scFv轻松构建为全长抗体。
可开发性属性的并行优化
与传统的逐点优化不同,AI模型的核心优势在于能够对抗体的多个关键属性进行一体化设计。工程师们将生成式机器学习模型应用于抗体“框架”或“骨架”,同时优化重链和轻链中的氨基酸,以微调稳定性、溶解度、化学反应性和免疫原性。这种“骨架调整”还能增强抗体的效应功能,例如新生儿Fc受体(FcRN)回收、抗体依赖的细胞介导的细胞毒性作用(ADCC)和抗体依赖的补体介导的细胞毒性作用(ADCP)。
针对复杂靶点和抗体格式的探索
模型的探索范围正从简单的靶点扩展到更复杂的系统。除了GPCRs,研究也涉及多特异性抗体。Baker指出,一旦掌握了结合的设计,更高层次的功能——如条件性结合、受体交联——也将成为可能。对于更复杂的靶点,如具有深埋药物结合口袋、动态、糖基化并被脂质包围的GPCRs,模型设计也面临挑战,但针对具有天然肽配体的GPCR开发抗体结合物被相对看好。
行业基准测试与模型性能验证
尽管初创公司声称其模型性能卓越,但独立的基准测试提供了更冷静的视角。由Specifica公司Andrew Bradbury组织的AIntibody挑战赛,以SARS-CoV-2刺突蛋白受体结合域为靶点,对29个参与组织的模型进行了测试。结果显示,在亲和力成熟部分,最好的从头设计抗体产生的结合物,其亲和力并未超越传统的酵母展示方法,尽管速度快了三周。在预测高亲和力抗体方面,机器学习模型并未显示出优于随机选择的优势,且约一半新预测的RBD结合物要么不结合,要么存在可开发性风险。这突显了在模型进入临床前,进行严格、盲法测试的重要性。
数据、算法与计算能力的驱动
模型性能提升的背后,是数据、算法和计算能力的共同进步。公共领域数PB级的蛋白质(和抗体)序列数据是训练基础。算法上,从序列-结构建模的突破,到紧密结合的湿实验室循环(用实验数据迭代改进模型),都至关重要。同时,英伟达、英特尔、AMD等公司的芯片提供了强大的计算能力,使得优化大型基础模型成为可能。一些专家强调,构建能够以最通用方式学习原子和分子相互作用的大型、强大模型是关键。
这项研究汇集了来自学术界和产业界的多方面证据,表明人工智能正在深刻改变抗体发现的范式。其主要结论是,生成式AI能够显著加速抗体先导化合物的发现与优化流程,并有望攻克传统方法难以应对的靶点。通过同时优化多个“可开发性”属性,AI有潜力将临床前开发时间从数年缩短至数月,并大幅提高研发效率。AIntibody挑战赛等基准测试也提示,尽管AI能提供新的抗体序列,但其整体性能在现阶段可能并未全面超越成熟的实验方法,模型的真实能力需要更多盲法测试和同行评审来验证。
研究的讨论部分强调了未来发展的关键方向与现存挑战。首先,数据的开放性与标准化至关重要。目前,许多公司的模型细节和数据不公开,形成了“公地悲剧”,阻碍了整个领域的集体学习速度。学者们呼吁更多的证明性竞赛、共享失败案例和更清晰的基线。其次,模型正从设计简单的纳米抗体和scFv,向更复杂的抗体格式(如全长IgG、双特异性抗体)和更难靶向的靶点(如动态的GPCRs)进军,每一步都需要更多的训练数据、湿实验循环和更精细的过滤策略。最后,行业的最终期待是看到首个完全由AI从头设计的生物制剂成功通过早期临床试验,这将真正打开该技术的“闸门”。总之,AI不会立即取代小鼠或展示库,但计算将毫无疑问地走向药物发现舞台的中央。正如David Baker所比喻的,这意味着从“抛出一千块砖头,看哪块能就位”的随机筛选,转向“先设计出你想要的房子,然后把它建造出来”的理性设计。这一转变若能实现,无疑将是药物研发领域一次深刻的革命。