PepAnno:一种结构感知深度学习框架用于生物活性肽预测、结构可视化与理化性质分析

时间:2026年6月3日
来源:PLOS Computational Biology

编辑推荐:

肽类分子因其多样的生理功能及结构简洁性,正日益成为具有前景的治疗候选分子。尽管目前已存在多种生物活性肽预测的计算工具,但诸多工具存在界面不直观、仅基于序列表征、结构感知不足、可解释性有限或分析流程碎片化等局限,导致研究效率降低与成本升高。为应对上述挑战,研究人

广告
   X   

肽类分子因其多样的生理功能及结构简洁性,正日益成为具有前景的治疗候选分子。尽管目前已存在多种生物活性肽预测的计算工具,但诸多工具存在界面不直观、仅基于序列表征、结构感知不足、可解释性有限或分析流程碎片化等局限,导致研究效率降低与成本升高。为应对上述挑战,研究人员推出了PepAnno(https://bis.zju.edu.cn/pepanno/),一个全面且用户友好的多功能肽注释(peptide annotation)网络服务器。PepAnno基于一种新颖的结构感知多视图几何深度学习框架,该框架通过双分支架构整合预训练序列嵌入(sequence embedding)与预测的三维结构图,该架构结合了Transformer与GATv2(Graph Attention Network version 2,图注意力网络v2)网络。研究人员采用跨模态注意力机制有效融合语义与几何表征,实现对7种关键生物活性(包括抗微生物与抗癌特性)的准确多任务预测。在七个精心筛选的生物活性数据集上的全面评估表明,PepAnno在各任务中均取得稳健且具有竞争力的预测性能,在区分能力与稳定性方面持续超越或匹敌现有方法。除功能预测外,PepAnno还提供理化性质的自动计算、结构可视化,以及整合的肽相关数据库与工具资源库访问。通过实现一键式肽注释,PepAnno为大规模肽分析提供了一种高效且可解释的解决方案,并促进下游实验设计与基于肽的药物发现。
## 研究背景与问题

生物活性肽(Bioactive peptides, BPs)是由氨基酸通过肽键连接形成的短链分子,广泛分布于动物、植物等多种生物体中,具有抗菌、抗癌、抗炎、抗病毒等多种关键生物学功能。其中,抗微生物肽(Antimicrobial peptides, AMPs)因其广谱抗菌活性及较低的耐药诱导风险而备受关注;此外,其他生物活性肽亦具有 substantial 临床转化前景。尽管已发现超过7000种天然活性肽,但由于其高度的序列多样性,准确识别与功能预测仍面临重大挑战,尤其是在高通量筛选过程中成本高昂。近年来,机器学习方法的快速发展催生了众多生物活性肽功能预测的计算工具,其中多功能生物活性肽的识别本质上属于多标签分类(multi-label classification)问题。然而,现有方法普遍存在以下局限:随着功能类别增加预测精度下降,过度依赖序列单一表征与变长肽的零填充策略,缺乏对功能特异性结构决定因素的有效建模,可解释性不足且难以提供残基级别的结构洞察;此外,实际应用层面,工具分散、文档不全、代码不可用或服务中断等问题进一步制约了研究效率。

为克服上述瓶颈,研究人员开发了PepAnno——一个结构感知的多功能肽注释平台,将序列分析、结构建模与功能预测整合于统一框架内,实现了从一理化性质计算、结构预测到七种主要生物活性肽功能(抗菌、抗癌、抗炎、抗病毒、抗高血压、抗血管生成及细胞穿透活性)注释的"一键式"自动化分析。

## 关键技术方法

PepAnno平台构建了一种结构感知多视图几何深度学习框架,核心技术包含以下三个层面:多视图数据表征模块、双分支神经网络架构与严格分层迁移学习策略。在数据表征方面,利用预训练语言模型ProtT5-XL-U50提取残基级序列嵌入,同时通过ESMFold预测肽链三维结构并构建异构生物图(heterogeneous biological graph),图中节点包含氨基酸类型与14维理化性质,边集整合主链连接、序列窗口连接及基于Cα原子欧氏距离的结构最近邻(kNN)连接三类边关系,并采用径向基函数(Radial Basis Function, RBF)距离编码、相对方向向量及位置编码进行边特征化。网络架构层面,采用双分支并行处理结构:结构分支以3层GATv2动态计算残基间注意力权重以生成结构上下文令牌;序列分支以2层Transformer编码器捕捉长程语义依赖;继而通过跨模态注意力机制实现融合——序列令牌作为查询(Query),结构令牌作为键(Key)与值(Value),保留L×L的空间分辨率以实现残基级三维结构可解释性。训练策略上,鉴于抗菌肽数据充裕而其他类别样本稀缺,实施严格分层迁移学习:首先在平衡抗菌肽数据集进行源域预训练以学习广义肽特征表征;目标域迁移时弃用预训练分类头并重新初始化(Head Reset),以防止不同功能类别正交决策边界间的负迁移,并采用Focal Loss与Poly Loss优化难样本挖掘与梯度调整。功能预测外,平台整合多层感知机(MLP)等11种机器学习方法提供互补预测视角。

## 研究结果

**消融研究**:为明确训练策略与架构组件的增量价值,研究人员以抗病毒肽(Antiviral peptide, AVP)任务为代表在严格5折交叉验证下进行消融实验。结果表明,直接训练(Variant B)相较于完整模型出现显著性能下降,验证了大尺度抗菌肽预训练对建立稳健特征骨架的必要性;保留预训练分类头(Variant C)虽AUC相当,但Head Reset策略在MCC(0.7335 vs. 0.7303)与准确率(0.8663 vs. 0.8650)上表现更优且更稳定,证实了重置任务特定决策边界可有效缓解功能间的负迁移;序列单一模型(Variant A)虽凭ProtT5的表征能力在某些指标略高,但真阳性率(敏感性)低于完整模型且缺乏空间物理几何锚定能力。

**整体性能评估**:模型在七个功能类别上展现出均衡的分类性能,AVP与细胞穿透肽(Cell-penetrating peptide, CPP)任务的AUC超过0.90;对于样本有限且功能异质性更高的抗生物膜相关肽(Antibiofilm-associated peptide, AAP)与抗炎肽(Anti-inflammatory peptide, AIP)等更具挑战性的类别,模型仍保持具有竞争力的准确率与F1分数。长度分层评估显示,在短肽(长度≤10)、中等长度肽(11-25)与长肽(>25)三个子集上,PepAnno均保持高度一致的预测性能(AUC与ACC),证实了框架的序列长度无关稳健性。

**与先进方法的比较**:研究人员开展了两类互补的基准分析。任务特定预测器比较中,PepAnno在抗菌、抗病毒、抗生物膜相关及细胞穿透肽预测中达到顶尖或接近顶尖性能,抗癌肽预测位列第一梯队,抗炎与抗高血压肽预测保持中上游竞争力。多功能平台比较中,与AutoPeptideML、iAMPCN及UniDL4BioPep在四项重叠功能上的交集评估显示,PepAnno在共享任务上展现出强劲且均衡的性能,同时提供更广的功能覆盖范围与残基级可解释性。

**案例研究:人中性粒细胞肽-1(HNP-1)的机制可解释多功能注释**:中性粒细胞为首批招募至感染部位的免疫细胞,可释放人中性粒细胞肽(HNPs)等效应分子。HNP-1已知具有直接强效的抗菌活性,亦可调节免疫应答,同时兼具抗癌活性。研究人员将HNP-1序列输入PepAnno进行综合预测,功能预测模块成功验证了其已知抗菌与抗癌功能,并提示了抗炎、抗病毒、抗血管生成及细胞穿透等潜在新颖活性,同时赋予抗高血压活性以可忽略的概率。预测的抗菌与细胞穿透活性与其主要机制一致,即阳离子特性与阴离子细菌膜之间的静电相互作用导致膜破坏;抗癌功能则得到高浓度下膜孔形成、抑制DNA合成及干扰肿瘤血管生成等多条证据支持。尤为关键的是,抗炎潜力的预测具有充分依据,因HNPs已知通过调节IL-8等炎症因子的释放来调控免疫应答。

残基级可解释性层面,通过将各功能预测头的注意力权重投影至HNP-1三维结构,揭示了同一肽序列如何通过结构局部化决定因子编码多种生物活性。A1与A11残基在多个功能中持续获得高注意力,反映其在定义α-防御素身份及维持由保守二硫键稳定的正确β-折叠中的关键作用;抗菌与抗病毒预测优先突显R14、R15等正电荷残基簇,与静电相互作用机制一致;抗生物膜相关与抗癌预测强烈强调W26、Y16、F28等疏水芳香残基,此类残基已被实验证实调控膜插入、寡聚化及靶标结合;抗炎预测选择性突显参与蛋白质-蛋白质相互作用与免疫调节信号的残基而非广谱膜破坏位点;抗病毒预测独特地赋予G17高注意力,该残基已知参与β-bulge形成与防御素二聚化,此前与病毒中和机制相关。低注意力残基主要定位于保守的β-折叠支架区,表明模型能够适当区分结构必要性与功能特异性。系统映射实验文献报道的分子机制后,发现PepAnno的学习表征与HNP-1已知结构与功能关系(包括二硫键完整性、电荷介导的表面识别、疏水执行位点及寡聚化依赖活性)之间存在强对应关系。

## 讨论与结论

本研究中,研究人员提出了PepAnno——一个结构感知的多功能肽注释平台,旨在解决生物活性肽分析中的方法论与实践性挑战。超越传统序列单一预测器,PepAnno采用双分支几何深度学习架构,通过跨模态注意力机制协同整合预训练序列语义与三维结构图。为克服不同生物活性间数据稀缺与不平衡的关键挑战,研究人员实施了配备"Head Reset"机制的严格分层迁移学习策略。全面基准测试、严格消融研究及长度分层评估表明,PepAnno实现了高度稳健且具有竞争力的性能,有效避免负迁移的同时保持强分布外泛化能力。至关重要的是,该架构设计解锁了原生的残基级空间可解释性,使研究人员能够直观定位驱动生物活性的三维功能基序。

研究人员同时界定了框架的适用范围:动态图与序列注意力机制结合掩码感知平均池化层,对输入序列长度无硬性编码限制;但模型的经验预测能力受训练数据分布固有限制,序列长度radix主要集中于5至100个氨基酸,显著更长序列(如全长蛋白质)的应用可能导致次优结果,因局部功能基序信号可能被大量非功能背景稀释。因此,PepAnno最优适用于典型生物活性肽长度范围内的序列识别。

在可用性与工作流整合方面,PepAnno强调无需编程专长的"一键式"端到端肽分析,显著降低实验与转化研究人员的进入门槛。通过将理化特性表征、结构预测、功能注释与资源整合于单一界面,PepAnno缓解了肽研究中常见的碎片化工作流痛点,并促进下游实验验证前的系统性肽特性探索。此外,平台整合的经过验证的肽相关数据库、计算工具与网络资源库,不仅提供了全面的研究入口,还支持通过将功能预测置于现有知识背景下进行比较分析与假设生成,使PepAnno不仅是预测工具,更是生物活性肽研究的整合知识平台。

研究结论部分指出,为进一步提升PepAnno在评估治疗潜力肽方面的能力与效用,研究人员承诺在以下方面持续更新改进平台:功能扩展方面,计划整合更多肽功能预测并纳入靶点相关预测能力;性能优化方面,将持续收集新数据并探索新方法以构建性能增强的模型。

生物通微信公众号
微信
新浪微博


生物通 版权所有