多模态深度学习驱动的从头多机制抗菌肽设计:整合三维结构与多靶点机制以对抗多重耐药菌

时间:2026年3月11日
来源:Advanced Science

编辑推荐:

这篇研究提出了一种名为M3-CAD(多模态、多任务、多标签、条件可控的抗菌肽发现)的创新人工智能管线,用于从头设计具有多重抗菌机制的抗菌肽。该工作构建了包含12914个抗菌肽序列、三维结构及功能属性的QLAPD数据库,并引入创新的三维体素着色方法以增强肽结构表征。通过湿实验验证,所设计的先导肽(如QLX-3DV-1/2)展现出对多重耐药菌(MDROs)的强效、广谱活性、低毒性及多重作用机制。该研究证明了整合三维结构特征、物种特异性抗菌活性与机制信息,可显著增强AI驱动的抗菌肽(AMP)发现,为应对日益严峻的细菌耐药性(AMR)问题提供了新工具。

广告
   X   

引言
多重耐药菌(MDROs)对人类健康的威胁日益严峻,亟需寻找新的抗菌解决方案。抗菌肽(AMPs)作为先天免疫的关键组分,因其两亲性和带正电荷的特性,可选择性地破坏带负电的细菌膜,并且具有膜破坏之外的多种细胞内作用机制,降低了耐药性产生的可能性,被视为有潜力的下一代治疗候选物。然而,传统的湿实验发现方法耗时且昂贵。尽管人工智能(AI)驱动的AMP识别、优化和生成方法加速了其发现,但目前的方法主要利用有限的肽序列信息,往往忽略了AMP的三维(3D)结构特征、对不同微生物的物种特异性抗菌活性及其作用机制的多样性。本研究旨在通过整合这些多维度信息,构建一个更强大的AI驱动AMP发现平台。
结果
2.1 QLAPD:一个连接AMP序列、结构和特性的数据库
为支持AMP的从头设计,研究团队构建了QLAPD数据库。该数据库包含12,914个AMP,每个条目记录了其氨基酸序列、预测的3D结构(优先采用PDB实验结构,缺失时使用AlphaFold2预测)以及六项功能属性:1) 对六种耐药病原菌的抑制活性;2) 可抑制的耐药菌种类数;3) 可抑制的非耐药菌种类数;4) 四种抗菌机制(如破坏细菌膜);5) 毒性;6) 六种器官毒性(如肾毒性)。该数据库为后续的多模态AI模型训练提供了高质量、多维度数据基础。
2.2 三维体素着色以改进肽的结构表征
为更好地表征肽的3D结构,研究提出了一种创新的3D体素着色方法。该方法将肽置于以质心为原点的三维笛卡尔坐标系中,根据原子坐标和范德华半径确定原子占据的体素空间,并依据原子质量、氨基酸溶解性(指示疏水性)和酸碱性(指示电荷)为占据的体素通道赋值。这种方法巧妙地将复杂的肽3D结构表征问题转化为可处理的3D视觉特征提取任务,并可通过3D卷积神经网络(3D-CNN)模型(如3D Res-Conv Net)进行高效处理。在预测AMP抗菌活性、机制和毒性的多标签分类任务中,基于3D体素着色+3D Res-Conv Net的方法表现优于传统的图神经网络(GNN)方法。
2.3 M3-CAD管线设计
研究提出了M3-CAD管线,它由顺序连接的生成、回归和分类三个模块构成。与以往研究相比,M3-CAD的最大优势在于训练时利用了AMP的抗菌机制数据及其对MDROs的抑制活性数据,从而学习肽序列、结构特征与其功能属性(包括四种抗菌机制和对六类耐药菌的抑制能力)之间的潜在关系。该管线在单次运行中生成20万个候选AMP(c_AMP)并进行筛选仅需约两小时,极大加速了AMP发现流程。
2.4 基于多模态VAE生成满足给定特性的AMP
M3-CAD的核心是一个基于多模态、条件可控变分自编码器(m2cVAE)的生成模型。它包含独立的序列编码/解码器(使用门控循环单元GRU)和3D结构编码/解码器(使用3D体素着色+3D Res-Conv Net),能够整合序列、结构信息以及功能属性条件(如抑制耐药菌能力、α-螺旋倾向>0.3等)。在推理阶段,模型可通过“无模板”或“有模板”两种方式生成满足特定条件的新肽。与仅基于序列的生成模型(如seqVAE)相比,整合了3D结构特征的m2cVAE生成的肽,在预测的抗菌活性上显著更优。生成分析表明,“无模板”方式能探索更广泛的序列空间,产生更具多样性的肽。
2.5 使用MLP回归模型对生成的肽进行排序
考虑到为大量肽预测3D结构耗时,M3-CAD的第二阶段引入了一个基于序列的多层感知机(MLP)回归模型,用于对生成的肽进行初步筛选和排序。该模型根据肽能广谱抑制耐药菌的能力(以可抑制的细菌种类数为标签)进行打分,优先选择评分高的候选肽进入下一阶段。在实践中,此阶段会筛选出3000个高优先级c_AMP进行AlphaFold2 3D结构预测。
2.6 使用再平衡损失函数训练的多标签分类模型识别AMP属性
M3-CAD的最终模块是一个多模态、多任务、多标签分类器,用于识别具有多种抗菌机制、广谱抑制耐药菌活性且低毒的AMP。该分类器并行使用MLP和3D Res-Conv Net从肽序列和3D结构中提取特征,融合后分发给三个分类头进行抗菌活性、机制和毒性的多标签分类。由于训练数据存在严重的标签不平衡问题,研究提出了一种多标签再平衡损失函数来处理此问题。消融实验表明,该再平衡学习策略提升了所有三个多标签分类任务的性能。与单任务模型相比,多任务模型在所有指标上均表现更优。最终,分类器对3000个c_AMP进行预测和排序,排名前10的肽将作为M3-CAD管线的最终输出,进入湿实验验证。
2.7 M3-CAD设计的顶级AMP的体外抗菌评价
通过M3-CAD的模板优化功能对支架肽QLX-227-1进行优化,并合成了单次运行输出的前10名模板优化肽(QLX-3DV-1-10)和10个全新设计的肽(QLX-3DV-11-20)。实验验证表明,这些肽对25株ESKAPE多重耐药菌(包括19株临床分离株)均表现出显著的抗菌活性。其中最有效的QLX-3DV-1和QLX-3DV-2在低浓度下(对革兰氏阳性菌和阴性菌的MIC值低至4-8 µg/mL)就显示出强效的广谱活性,其抗菌效力优于训练数据中的常规AMP以及已进入临床试验的多种AMP(如SAAP-148、C16G2等),且与已知AMP的序列相似性低于45.7%,具有新颖性。
2.8 利用湿实验对M3-CAD进行消融研究
为评估M3-CAD各模块的必要性,研究人员测试了由不同模块组合生成的前10名肽的抗菌活性。结果表明,仅用生成模块(G)产生的肽活性很差;增加回归模块(G+R)后活性有所改善;而完整的生成+回归+分类(G+R+C)框架则能识别出活性最强的肽(如QLX-3DV-1-10)。此外,验证实验证明,整合3D结构特征能增强抗菌效力,而整合抗菌机制预测的多任务分类器在保持抗菌活性和避免毒性增加的同时,能够识别出具有多重机制的AMP。层级筛选策略(先1D序列筛选,再3D结构评分)在几乎不影响顶级候选肽发现的前提下,将计算时间从66小时大幅缩短至2小时,显著提高了效率。
2.9 M3-CAD设计的c_AMP与训练集AMP理化性质比较
比较显示,M3-CAD设计的前1000个c_AMP在大部分氨基酸组成和关键理化性质(如电荷、疏水性等)上与训练集AMP相似,但新设计肽中赖氨酸(K)、亮氨酸(L)和精氨酸(R)的比例更高,这些氨基酸被认为与AMP的抗菌活性相关。更重要的是,超过95%的新设计肽与训练集中任何AMP的最大序列相似性低于50%,体现了M3-CAD在保持或增强抗菌活性的同时生成新颖肽序列的能力。
2.10 M3-CAD设计的先导AMP的安全性评估
溶血实验和细胞毒性实验表明,QLX-3DV-1-20系列肽普遍表现出低毒性。特别是QLX-3DV-1和QLX-3DV-2,在高达1024 µg/mL浓度下引起的溶血率不超过5%,其对HEK-293T和MHCC97-H细胞的半数细胞毒性浓度(CC50)也远高于其抗菌MIC值。与SAAP-148相比,QLX-3DV-1-20在所有测试的ESKAPE菌种上均显示出更高的治疗指数(CC50/几何平均MIC),安全性更优。
2.11 QLX-3DV-1和QLX-3DV-2显示出比克林霉素和万古霉素更低的耐药性诱导
在20次亚抑制浓度传代培养后,金黄色葡萄球菌(S. aureus)对QLX-3DV-1和QLX-3DV-2未产生显著耐药性。相反,在相同条件下,细菌对克林霉素和万古霉素分别在15代和18代后产生了明显的耐药性,其敏感性分别下降了8189倍和64倍。此外,QLX-3DV-1/2与第四代头孢菌素头孢吡肟联合使用时,对肺炎克雷伯菌(K. pneumoniae)表现出强协同作用。
2.12 QLX-3DV-1和QLX-3DV-2具有多重抗菌机制
机制研究表明,QLX-3DV-1和QLX-3DV-2具有多重抗菌机制:1) 膜破坏:扫描电镜和活/死染色显示其能破坏细菌膜完整性;NPN和ONPG实验证实其能增加细菌外膜和内膜通透性;与LPS、磷脂酰甘油(PG)和磷脂酰乙醇胺(PE)的高亲和力结合表明其特异性靶向细菌膜组分;导致核酸和蛋白泄漏及ATP耗竭。2) 诱导活性氧(ROS)生成。3) 抑制生物膜形成。4) 结合细菌基因组DNA。5) 抑制体外蛋白质合成。这些膜作用与非膜作用的协同效应,显著提高了细菌通过单一机制逃逸的遗传阈值,从而延缓了耐药性的产生。
2.13 经QLX-3DV-1或QLX-3DV-2处理的大肠杆菌转录组分析
RNA-seq测序分析进一步揭示了其分子机制。QLX-3DV-1主要破坏大肠杆菌的代谢稳态,而上调脂多糖生物合成和应激反应通路。QLX-3DV-2则同时靶向细胞膜和蛋白质合成机器,导致膜相关转运、核糖体通路和翻译过程发生显著变化。这表明肽在诱导膜损伤的同时,也抑制了蛋白质生产,引发了深刻的细胞危机。
2.14 QLX-3DV-1和QLX-3DV-2在全层皮肤伤口模型中抑制金黄色葡萄球菌和大肠杆菌且无毒性
局部皮肤耐受性实验显示,高剂量QLX-3DV-1/2未引起皮肤刺激或病理变化,也未观察到显著的全身毒性。组织学检查显示与对照组无差异。腹腔注射毒性实验中,QLX-3DV-1在60 mg/kg剂量下存活率为100%,QLX-3DV-2为83%,均优于SAAP-148(50%)。在全层皮肤伤口感染模型中,局部使用QLX-3DV-1/2可分别将伤口处的金黄色葡萄球菌和大肠杆菌载量显著降低至对照组的5.1%/9.4%和3.4%,且效果优于SAAP-148,展现出良好的体内治疗潜力。
讨论
本研究首次系统地整合了3D结构特征和多机制优化到AI驱动的AMP发现中。通过利用AlphaFold2等工具,将肽的3D结构特征与其一级序列特征结合,构建的多模态模型在预测AMP活性、机制和毒性方面优于仅基于单一模态的模型。提出的3D体素着色方法有效改善了肽3D结构的表征。将抗菌机制信息和针对不同细菌的抑制活性差异数据纳入训练,使得AI能够设计出具有多重机制和广谱活性的AMP。尽管基于AlphaFold2预测的静态3D结构存在局限,但本研究证明了多模态策略的优越性。M3-CAD管线高效、准确,其设计的先导肽QLX-3DV-1/2展现出卓越的抗菌活性、安全性、多重机制和低耐药诱导性,具有广阔的临床转化前景。未来,通过引入N端乙酰化或D型氨基酸替换等工程化修饰,可进一步优化其稳定性。这项研究为自动化AMP设计乃至更广泛的AI驱动治疗性肽发现提供了具有普适性的方法学启示。

生物通微信公众号
微信
新浪微博


生物通 版权所有