在药物研发的早期阶段,准确锁定蛋白质上能与药物分子结合的“口袋”——即小分子结合位点,是至关重要的一步。然而,这并非易事。传统的预测方法,或是严重依赖已知同源蛋白的结构信息进行“依葫芦画瓢”(同源建模),或是利用基于几何形状的探针来寻找表面的凹陷(如P2Rank、fpocket等)。前者无法预测全新折叠蛋白的位点,后者则容易遗漏那些形状不典型、较为平坦的“浅口袋”。真正意义上的、不借助任何已知配体或同源信息的“从头预测”(de novo prediction),一直是个巨大挑战。有没有一种方法,能像一位经验丰富的“侦探”,仅凭蛋白质自身的“骨架”(结构)和“档案”(序列),就推断出它最可能与小分子“握手”的位置呢?
近年来,人工智能在蛋白质结构预测领域取得了革命性突破,DeepMind开发的AlphaFold2 (AF2)便是杰出代表。它能够仅从氨基酸序列出发,高精度地预测蛋白质的三维结构。一个有趣的猜想随之产生:在AF2这个为预测蛋白质自身折叠而训练的庞大神经网络内部,是否也隐含着识别蛋白质如何与外界小分子相互作用的“知识”呢?毕竟,AF2在训练时“见过”大量包含辅因子、金属离子等小分子的蛋白质结构。如果能够提取并解读这种隐含知识,或许就能开辟一条全新的结合位点预测路径。来自未知单位的研究团队正是基于这一思路,开展了一项创新研究,开发了名为AF2BIND的预测工具,相关成果发表在《自然-方法》(Nature Methods)期刊上。
为验证猜想并构建预测模型,研究人员主要采用了以下几项关键技术方法:首先,他们从蛋白质数据库(PDB)中严格筛选并构建了一个包含近1900个非冗余单链蛋白质-小分子复合物的数据集,并依据序列、折叠和口袋相似性进行了严谨划分,确保训练与测试集之间无信息泄漏。其次,他们创新性地将20种标准氨基酸作为独立的“诱饵”序列,与目标蛋白质的序列和骨架结构(侧链二面角信息被掩蔽)一起输入给预训练的AlphaFold2模型,但只进行单次前向传递,不进行结构优化循环。核心步骤是提取AF2模型内部产生的、描述目标蛋白每个残基与每个“诱饵”氨基酸之间关系的“配对表征”作为特征。最后,研究者使用这些高维特征训练了一个逻辑回归分类器(AF2BIND),其输出是每个残基属于小分子结合位点的概率P(bind)。模型的训练、验证和测试均在此严谨划分的数据集上进行,并与ESM2、ESM1-IF等其他预训练模型的特征进行了性能对比。
研究结果
AF2BIND是一个利用AF2特征构建的逻辑回归模型
AF2BIND的核心设计是用最简单、可解释性强的模型(逻辑回归)来验证AF2特征的有效性。模型输入是目标蛋白质的序列、主干坐标以及20个作为小分子替代物的“诱饵”氨基酸。AF2模型处理这些输入后,会产生一个配对表征张量,其中包含了目标蛋白残基与每个诱饵氨基酸之间的相互作用信息。AF2BIND模型将这些信息扁平化后,输入逻辑回归模型,计算每个目标残基的P(bind)值,即其参与结合小分子的概率。由于模型是线性的,可以轻松追溯每个“诱饵”氨基酸对最终预测的贡献度,这为后续分析配体化学性质提供了可能。
AF2为结合位点预测提供了优异的特征嵌入
研究人员比较了AF2的配对表征与ESM2(序列模型)、ESM1-IF(逆折叠模型)的特征在结合残基预测任务上的表现。评估指标是“找回率”,即按P(bind)从高到低排序后,在前N个预测中成功识别出的真实结合残基的比例。在严格划分的测试集(包含67个在序列、折叠和口袋层面均与训练集无关的蛋白)上,仅使用AF2配对特征的AF2BIND取得了66%的平均找回率,其受试者工作特征曲线下面积(ROC AUC)达到0.936,平均精度(Average Precision)为0.728,性能均优于单独使用ESM2或ESM1-IF特征。虽然结合多种特征能将性能略微提升至68-69%,但AF2BIND因其出色的单特征表现和高可解释性而被作为主要模型。
AF2BIND在未见蛋白类别上表现出范例性能
为了检验模型的泛化能力,研究者在训练和验证集中完全排除了G蛋白偶联受体(GPCR)和溴结构域等特定蛋白类别。AF2BIND在完全未接触过的μ阿片受体和BRD4溴结构域上,依然能够高置信度地准确预测其小分子结合残基,且预测出的P(bind)值可以对结合残基进行重要性排序。此外,模型对蛋白质主链结构的小范围变动(RMSD < 1 Å)和侧链旋转构象的变化不敏感,这对处理未结合状态或预测的蛋白结构尤为有利。然而,对于结合位点完全塌陷的“隐秘位点”,模型预测则存在困难。
诱饵残基的贡献与配体疏水性相关
得益于逻辑回归模型的可解释性,可以分析20种“诱饵”氨基酸各自对预测某个残基为结合残基的“激活”贡献。通过分析训练集中近1900个蛋白质及其对应的真实配体,研究者发现,某些诱饵氨基酸组合(如苯丙氨酸F、丝氨酸S、异亮氨酸I、苏氨酸T)的激活与配体疏水性(以碳原子比例衡量)负相关,而另一些组合(如组氨酸H、谷氨酸E)的激活则与配体亲水性正相关。这表明,AF2BIND的诱饵激活模式能够反映潜在结合配体的化学性质指纹。
预测人类蛋白质组中的结合位点
研究者将AF2BIND应用于AlphaFold2预测的人类蛋白质组结构数据库。在进行了结构质量修剪和结构域分割处理后,AF2BIND在13,686个蛋白质中预测了20,302个结合位点。通过与同源建模转移工具AlphaFill和流行口袋预测工具P2Rank比较发现,AF2BIND预测了9,732个P2Rank未发现的独特位点,以及15,755个AlphaFill未覆盖的位点。用SiteMap的Dscore评估位点的可成药性,AF2BIND预测位点的中位Dscore为1.04,高于常用的可成药阈值0.83。尤其值得关注的是,在与疾病相关的Morbid Map数据库蛋白质中,AF2BIND预测了411个既不被AlphaFill同源转移、也不被P2Rank发现的独特位点,为针对这些疾病蛋白的药物发现提供了全新线索。
讨论与结论
本研究证明,一个为单链蛋白质结构预测而训练的深度神经网络(AlphaFold2),其内部表征蕴含了识别小分子结合位点的惊人能力。基于此开发的AF2BIND模型,无需提供空间或化学兼容的配体信息,即可实现准确的结合位点从头预测。该方法的核心优势在于其不依赖于多序列比对、同源模型或已知配体知识,因而可广泛应用于全新蛋白折叠或缺乏同源模板的蛋白质。
研究的结论强调,AF2BIND的成功表明,神经网络中编码的蛋白质内部相互作用特征,可以被迁移用于预测蛋白质-药物相互作用。这为未来利用蛋白质-蛋白质接触信息来辅助其他药物发现任务(如配体条件化的蛋白质设计)提供了新思路。尽管AF2BIND的模型设计力求简洁以保持可解释性,但其性能已接近当前技术的天花板,并且与P2Rank等方法存在良好的互补性。AF2BIND预测的许多位点具有较高的可成药性潜力,特别是在人类疾病相关蛋白中发现了大量新型位点,这有可能直接聚焦和加速药物研发进程。
总之,AF2BIND不仅是结合位点预测工具的一项有力进展,更揭示了预训练大模型在生物医学问题中知识迁移的巨大潜力。随着AlphaFoldDB和ESM宏基因组图谱中未结合蛋白结构的海量增长,AF2BIND这类工具有望在更广阔的生命之树上系统地发现新的功能位点和药物靶点,从而推动基础生物学研究和转化医学的发展。
打赏