NAStructuralDB:面向抗体-抗原相互作用计算研究的标准化结构数据库

时间:2026年3月16日
来源:mAbs

编辑推荐:

本文综述介绍了NAStructuralDB这一标准化结构数据库,旨在为抗体/纳米抗体与抗原相互作用(Ab–Ag)的计算研究(如蛋白设计、对接、结合预测等)提供高质量的预处理数据,解决了传统数据资源在处理冗余、注释缺失、格式不统一等方面的问题,为开发新型治疗性生物制剂提供了关键的数据基础。

广告
   X   

在生命科学领域,特别是治疗性生物制剂的开发中,深入研究抗体与抗原的相互作用至关重要。这类研究通常始于数据的收集与处理。虽然蛋白质数据库(PDB)等资源提供了丰富的抗体结构信息,但这些原始数据在用于预测模型训练前,需要进行大量繁琐的预处理工作。这包括去除序列冗余以防止数据集划分时的数据泄漏、补充表面可及性、二级结构和抗体区域信息等关键描述符的注释,以及收集对研究抗原表位(epitope)和抗体互补决定区(paratope)至关重要的分子间与分子内接触信息。此外,单链纳米抗体(Nanobodies®)因其独特的免疫球蛋白格式需要专门的数据集,而抗体-抗原复合物在所有蛋白-蛋白相互作用中占比较小,因此也需要从其他蛋白质中获取分子接触信息作为参考。为解决这些瓶颈,研究人员开发了NAStructuralDB(自然抗体结构数据库),这是一个集成了抗体、纳米抗体、蛋白质及其复合物处理结构的数据集,并包含了分子接触信息和相关注释。
该数据库的构建源于对高效、标准化数据管道的迫切需求。现有的专业数据库如SAbDab、AbDb等能够从PDB中筛选出抗体结构,但通常不进一步处理表位/互补决定区的识别。而DeepRank、Arpeggio等框架虽然能处理并可视化结构接触信息,却很少提供PDB数据的批量下载,且并非专注于抗体。NAStructuralDB的诞生,旨在提供一个从数据获取到模型训练的标准化捷径,其数据经过严格处理,可直接用于深度学习特征化,支持结构预测、共折叠、扩散设计、对接或结合预测等前沿应用。
数据库内容与方法概览
NAStructuralDB的数据来源于PDB,并使用快速免疫球蛋白概览工具(RIOT)识别抗体和纳米抗体。为确保数据同质性与建模相关性,处理流程应用了严格的筛选标准,例如排除短于30个残基的肽段,并将相互作用数据集严格限定在异源二聚体复合物以内。数据库共包含八个不同的子集,可大致分为去冗余数据集和完整数据集,并进一步按蛋白质、抗体、纳米抗体及其复合物划分。对于每个复合物,数据在三个层级进行组织存储:链水平信息、分子内残基水平信息以及分子间配对信息。数据集以多种格式提供,包括CSV/JSON、Parquet(delta)以及PDB/mmCIF格式,以满足不同应用场景的需求。
在链水平,数据通过整个分子的序列多样性和实验数据质量来对结构进行分层。为去除序列冗余,数据库提供了每个抗体/纳米抗体链的CDR-H3和CDR-L3序列,并利用RCSB.org在90%(抗体链)和30%(非抗体链)序列同一性下的聚类结果进行参考。去冗余数据集通过从每个聚类中选取分辨率最高、沉积日期最新的单个代表来构建,这有助于在划分训练/验证/测试集时,将靶向相同或相似抗原的不同抗体序列归入同一组,从而防止数据泄漏。
在分子内残基信息层面,数据库保留了有助于识别表面接触残基及其周围环境的数据。每个残基通过链ID和序列位置ID来指代,并包含残基类型、结构内的残基ID、原子坐标等基本信息。对于抗体链,还补充了IMGT编号和区域(如框架区1、CDR1)等属性。表面可及性是一个重要指标,用于识别位于表面并发生接触的互补决定区/表位残基,它计算为总相对表面积(tRSA),即相对溶剂可及性。此处的“接触”字段包含到最近残基的距离,并分别给出C-α原子、重原子以及“侧链和C-α”原子之间的距离。此外,数据库还通过记录每个残基8Å重原子距离内的其他残基(“补丁”信息)来丰富单个相互作用残基的数据内容,便于预测相互作用斑块。
在分子间残基信息层面,数据库存储了分子间接触信息,以促进抗体-抗原对接等接触预测任务。每条配对信息都包含来自相互作用配体的残基标识符、氨基酸类型,以及两者之间最近侧链和C-α原子距离、最近C-α原子距离和最近重原子距离(以Å为单位)。为方便起见,也存储了表面可及性面积。数据库仅保留最近距离小于10Å的残基对。
抗体-抗原接触分析与参考
利用该数据库,研究人员对1172个高质量(分辨率<3Å)X射线衍射结构的抗体-抗原复合物数据集,以及5158个经30%序列同一性去冗余处理的异源二聚体蛋白-蛋白相互作用(PPI)数据集进行了对比分析,旨在提供相互作用的定量参考。
相互作用距离与界面大小
接触预测的一个主要考量是原子距离截止值的定义。常用的定义包括:1) C-α原子距离;2) 最近重原子(包括骨架)距离;3) 最近重侧链原子距离。分析显示,对于分子间相互作用,在特定截止值之前,抗体-抗原复合物和PPI具有相似数量的接触。对于重原子,这种相似性持续到大约3.5Å,之后PPI开始具有明显更多的接触。而对于C-α距离,这种差异出现较晚,大约在7.0Å。在分子内相互作用中,PPI在整个观测范围内始终比抗体-抗原复合物表现出更高的平均接触残基数。此外,重原子分布显示出独特的饱和行为,当距离超过8.0Å时,平均接触数急剧上升,随后稳定在大约22-24个残基。
就平均界面大小(以接触残基数量衡量)而言,一般PPI始终比抗体-抗原复合物具有更大的平均界面。在重原子分析中,PPI曲线在3.5-4.0Å左右显示出明显的拐点,在此之后接触残基的积累速度显著快于抗体。到4.0Å时,PPI平均约有25个残基,而抗体约为18个,这表明在界面核心PPI具有更密集的侧链堆积。方差分析突显了根本的结构差异。抗体的狭窄方差反映了免疫球蛋白支架的刚性约束,其结合主要由互补决定区环介导,无论靶抗原如何,互补决定区的物理尺寸本质上都有限制。相比之下,异源二聚体观察到的巨大方差反映了整个蛋白质组中域-域相互作用的巨大多样性,其界面范围从小型的瞬时接触斑块到缺乏抗体互补决定区几何边界的大而平坦的表面。
表面可及性与埋藏面积
蛋白质主要通过其表面的残基相互作用。分析显示,平均相对溶剂可及性(RSA)随着蛋白质大小的增加而降低,这证实了直觉假设,即更大的蛋白质有更大比例的埋藏残基,因而总体溶剂暴露更低。埋藏残基的数量在不同溶剂可及性阈值下与蛋白质大小均呈现强线性相关。当定义“埋藏”的阈值从7.5%增加到30%时,绝对埋藏残基数增长,但总体趋势保持一致。
界面埋藏表面积的计算显示了表面积如何随距离阈值变化。最大的表面积增加发生在距离阈值3Å到4Å之间,捕获了主要的、具有生物学相关性的相互作用。从4Å到5Å的增加较小,表明包含了更多外围接触。PPI数据集捕获了更广泛的相互作用,在表面积和接触残基方面表现出更大的变异性,这指向了PPI链更灵活多样的相互作用模式。另一方面,抗体-抗原数据集中的抗原链显示出更稳定的相互作用特征,这些指标的波动较小。
界面残基频率与偏好
某些残基在物理化学上倾向于被埋藏或位于表面,暴露的残基更可能参与相互作用。分析揭示了抗体-抗原相互作用与一般蛋白-蛋白相互作用在残基组成偏好上的区别。
芳香族残基,特别是酪氨酸(TYR)和色氨酸(TRP),在界面处高度富集。TYR在PPI和抗原数据集中都表现出持续较高的归一化接触频率,在抗体重链和轻链中富集程度甚至更强。同样,TRP也显示出显著贡献,尤其是在抗体界面内。这些观察结果证实了先前的研究,即芳香族残基通过π-π堆积、氢键和疏水相互作用在稳定蛋白质界面中起主导作用。在抗体中,TYR和TRP的普遍性尤为显著,反映了它们在抗原识别和结合多样性中的关键作用。
相比之下,半胱氨酸(CYS)在所有界面类型中都明显占比不足,这支持了先前的研究,表明CYS主要起结构作用(如形成二硫键),而不是直接参与动态的蛋白-蛋白相互作用。
带电荷残基,特别是精氨酸(ARG)和赖氨酸(LYS),也显示出不同的模式。ARG在PPI和抗原中表现出正的归一化接触频率,有助于复合物的静电稳定。虽然LYS高度表面暴露,但其归一化接触频率是可变的,在抗体界面中的贡献减少,表明它可能在一般表面溶解度中起更大作用,而不是在免疫复合物内的直接界面接触中。
疏水残基,包括亮氨酸(LEU)、缬氨酸(VAL)和异亮氨酸(ILE),通常在界面处减少。它们的归一化接触频率在所有数据集中均为负值或接近零,证实了这些残基倾向于埋藏在蛋白质核心,有助于结构完整性,而不是暴露在溶剂中的相互作用位点。
残基配对接触分析
对残基-残基接触的分析揭示了一些区分抗体-抗原界面与一般PPI和蛋白质内部的独特模式。
在抗体-抗原界面中,涉及芳香族残基,特别是酪氨酸的接触最为频繁。这些配对,包括芳香族-带电(如TYR-LYS)和芳香族-酸性(如TYR-GLU, TYR-ASP),在重链和轻链的互补决定区-表位接触中属于最常见之列,反映了酪氨酸通过疏水堆积、氢键和阳离子-π相互作用介导多功能结合的公认作用。相比之下,一般PPI界面由经典盐桥(ARG-GLU, ARG-ASP)和疏水对(LEU-ILE, LEU-LEU)的组合主导,这些在抗体结合中较少见,强调了在免疫识别中向芳香族驱动相互作用的转变。
归一化接触频率(校正了残基丰度)揭示了抗体更精细的结合策略。虽然芳香族配对普遍受到青睐,但分析表明,重链中最强的化学偏好是针对特定的静电对。例如,GLU-ARG的归一化得分为+2.30,ASP-LYS为+2.59,使它们成为最富集的相互作用之一。至关重要的是,这与抗体不强调盐桥的说法相矛盾;事实上,对这些配对的化学偏好比在一般PPI中更强。ARG-ASP配对在重链中的归一化得分为+2.08,几乎是其在PPI中得分+1.17的两倍,表明在抗体界面中存在更强的内在偏好。此外,尽管半胱氨酸总体罕见,但含CYS的配对表现出显著的离群特异性。对形成二硫键至关重要的CYS-CYS接触在重链中显示出异常富集(+5.43),而CYS-HIS接触是轻链中最富集的配对(+5.18)。
总之,抗体采用了一种多层次的策略。它们利用一个建立在高频芳香族网络之上的化学多样性界面,然后通过对方桥和结构关键性半胱氨酸连接的异常强烈的化学偏好来增强。这种独特的组合使其能够灵活识别高度可变的抗原,强调了它们为广泛而特异的免疫反应所做的进化适应。
数据库访问与总结
NAStructuralDB可通过其官方网站免费供非商业组织用于非商业目的访问。该数据库旨在为数据驱动的抗体工程提供标准化资源,但用户应注意其设计的固有限制,例如其去冗余策略严格依赖于序列同一性阈值而非结构聚类,并且严格来源于PDB中的实验测定结构,因此受限于可结晶抗原的历史偏差。
综上所述,NAStructuralDB作为一个经过深度处理、注释丰富的结构数据库,系统地解决了抗体-抗原计算研究中的数据预处理难题。它不仅提供了标准化的高质量数据,还基于这些数据进行了深入的相互作用分析,揭示了抗体-抗原界面在大小、组成和残基配对偏好上区别于一般蛋白-蛋白相互作用的独特特征。这些资源和见解有望显著加速治疗性抗体及其他蛋白质生物制剂的发现与设计进程。

生物通微信公众号
微信
新浪微博


生物通 版权所有