肽是由中短链氨基酸分子组成的生物活性分子,兼具蛋白质的生物活性与小分子的结构可调性,在抗菌、抗癌及功能材料领域具有广泛应用前景。相较于小分子药物,肽通常表现出更高的特异性、更好的生物相容性及更低的免疫原性,但其组合空间极为庞大——三肽约存在8000种可能序列,五肽则超过300万种,且随序列长度增加呈指数级增长。这种复杂的序列-结构-功能关系使得纯实验筛选效率极低。本综述总结了机器学习近期的研究进展,该技术能够基于现有数据实现序列、结构与功能的映射,支撑精准的性质预测与理性设计。结合不断扩充的数据库与模拟计算,这类方法已在多个领域推动研究进展。机器学习突破了肽科学研究的经验局限,实现了高效抗菌肽、抗癌肽及自组装肽的发现,并通过“数据-预测-验证”闭环指导设计,加速药物与材料的开发进程。
1. 引言
肽是由氨基酸通过肽键连接形成的分子,通常包含2至50个残基,介于小分子与大分子蛋白质之间。由于肽既可作为蛋白质的功能片段,又保留小分子的结构简洁性,因此具有多样的结构与广泛的生物活性,在生命科学基础研究、药物开发、分子探针、组织修复及功能材料催化等领域均具有重要应用价值。相较于传统小分子药物与大分子蛋白类药物,肽类药物往往表现出较高的亲和力与特异性,可选择性识别并结合特定靶点,减少脱靶效应与不良反应;同时肽易于体内代谢降解,免疫原性低,可实现可控的体内作用。目前全球已有超过80种肽类药物获批,用于治疗糖尿病、癌症、心血管疾病及感染性疾病等,例如胰高血糖素样肽-1(GLP-1)类似物、抗癌肽(ACP)、B型利钠肽(BNP)等均已进入临床应用。在分子层面,肽的功能由其氨基酸序列决定,例如抗菌肽(AMP)可通过破坏病原体细胞膜、结合金属离子或调节宿主免疫系统发挥抗感染作用;抗癌肽可识别肿瘤细胞膜的强负电荷特征,并作用于凋亡相关通路抑制肿瘤生长;代谢调控肽参与血糖与血压调控,用于糖尿病与心血管疾病治疗;细胞穿透肽(CPP)则可携带寡核苷酸、蛋白质或小分子药物跨膜递送。在材料科学领域,肽因结构易设计与优异的自组装能力受到广泛关注,氨基酸序列的微小变化即可通过氢键、疏水作用、π-π堆积与静电作用等非共价相互作用,形成纳米纤维、纳米片、纳米管及三维水凝胶等结构。这些自组装肽材料结构可调、生物相容性好,可用作组织工程支架模拟细胞外基质,支持细胞黏附与分化,也可用于药物控释递送系统,并在生物电子与柔性器件领域展现出应用潜力。尽管应用前景广阔,肽研究仍面临三大挑战:一是序列空间呈指数级扩张,20种天然氨基酸可形成海量序列,十肽的可能序列已超过1013种,实验穷举不可行;二是实验筛选与验证成本高,固相合成、纯化与表征耗时耗力,高通量筛选仍难以覆盖百万级候选序列,且功能验证需专门实验;三是序列-结构-功能关系复杂,除序列本身外,还受结构、理化性质及温度、pH、离子强度等环境因素共同影响,仅依靠简单经验规则难以预测。机器学习(ML)作为人工智能的重要分支,可从大规模数据中学习复杂模式,无需完全依赖物理模型或数学规则,已逐步成为肽材料设计与性质预测的核心工具。其典型工作流程包括数据采集、特征工程、模型训练与评估,常用评价指标包括准确率(ACC)与受试者工作特征曲线下面积(AUC)等。本综述系统梳理了机器学习在肽研究中的应用进展,重点涵盖药物发现与功能材料开发,核心方向包括活性预测、新肽生成及闭环迭代优化。
2. 肽发现的机器学习工作流程
肽识别的机器学习流程包括数据采集与特征构建、模型选择与训练、性能评估等环节,可分为判别模型与生成模型两大类。判别模型包括支持向量机(SVM)、随机森林(RF)等传统算法,以及卷积神经网络(CNN)、循环神经网络(RNN)、图神经网络(GNN)等深度学习模型,主要用于建立序列与结构特征和功能结果(如活性、稳定性)之间的关联;生成模型以变分自编码器(VAE)、生成对抗网络(GAN)为代表,通过学习数据分布实现逆向设计,探索广阔化学空间以生成具有特定性质的新序列。
2.1 数据基础与特征工程
可靠数据库是肽机器学习研究的基础,监督学习模型的训练依赖于实验验证的序列与定量数据,例如抗菌肽数据库(APD3)、抗菌肽集合(CAMP)、抗菌肽活性与结构数据库(DBAASP)可提供最小抑菌浓度(MIC)等定量活性数据;抗癌肽药理数据库(CancerPPD)、抗癌多肽数据库(ACPP)则收录了半数抑制浓度(IC50)与肿瘤细胞系信息等。特征编码主要分为四类:理化特征(如氨基酸组成、疏水性、等电点、Boman指数等)、序列编码特征(如独热编码、位置特异性评分矩阵、伪氨基酸组成等)、结构特征(如二级结构、溶剂可及表面积等)及深度表征特征(如基于Protein Bidirectional Encoder Representations from Transformers(ProtBERT)、Evolutionary Scale Modeling(ESM)等预训练模型提取的高维嵌入)。当前研究已从通用特征转向序列特异性规则,并结合多任务学习(MTL)提升模型性能,例如xDeep-AcPEP模型利用CNN挖掘序列层次模式,同时预测多种肿瘤的活性水平。梯度加权类激活映射(Grad-CAM)等可解释性工具可用于识别序列中对活性贡献显著的区域,但目前多数模型仅能解释序列重要性,尚无法明确区分具体作用机制(如膜破裂、孔道形成或胞内靶向)。此外,公共数据库普遍存在“阳性数据偏差”,即缺乏失败实验与无活性序列数据,导致模型实际泛化性受限,正-未标记学习、熵导向主动学习等策略正被用于缓解这一问题。
2.2 判别模型
早期肽计算研究多采用SVM、k近邻(k-NN)、RF等传统机器学习模型,依赖人工构建的特征(如氨基酸组成、理化性质),优势在于算法可解释性强,适合中小规模数据集,但难以捕捉复杂隐藏模式。集成学习通过装袋、提升、堆叠等方法组合多个基模型,降低单模型误差,例如极端梯度提升(XGBoost)、轻量梯度提升机(LightGBM)等树模型在肽预测中表现出较高精度,但计算成本更高且可解释性下降。深度学习则实现了从人工特征到自动表征学习的转变,CNN、RNN、Transformer等架构可直接从原始序列中提取复杂模式,例如AACFlow模型结合注意力增强的卷积神经网络,在抗癌肽识别中性能优于传统方法。混合模型(如TriStack)将传统特征与多层网络结合,在保持较高分类精度(如抗菌肽分类准确率可达0.922)的同时兼顾已知化学规律的可解释性,但深度学习仍需大量数据与算力,且“黑箱”特性仍是主要局限。
2.3 生成模型
生成模型推动肽研究从性质预测转向自主序列设计,通过学习数据概率分布P(X),探索超越天然库的广阔化学空间。VAE、GAN等模型可生成符合结构规则且具备特定功能的新序列,结合自回归模型与多目标贝叶斯优化(MOBO)、强化学习(RL)等方法,还可同时优化多个冲突目标(如高抗菌活性与低溶血毒性),实现复杂多功能肽的精准构建,加速新型生物材料与治疗应用的开发。
3. 机器学习辅助的应用与实验结果
机器学习已将肽工程从经验试错推进至数据驱动的理性设计,在抗菌肽、抗癌肽与自组装肽三大领域均取得显著进展。
3.1 机器学习在抗菌肽中的应用
抗菌肽研究已从被动筛选转向新骨架设计,例如TriStack模型结合物理特征与深度学习,可设计出兼具抗菌与抗炎功能的双效肽。其功能依赖于两亲性、净正电荷与二级结构,正电荷促进与微生物负电荷膜的结合,疏水性决定膜插入与破坏效率,机器学习可精准预测序列行为以避免过高疏水性导致的毒性。宏基因组学挖掘进一步拓展了抗菌肽来源,通过对超过6万组基因的计算分析构建的AMPSphere数据库,使候选肽的体外验证成功率高达79%。基于机器学习的定向优化也已产出多个高性能肽,例如CIT-8肽可在30分钟内杀灭耐药菌,小鼠皮肤感染模型中显著降低菌载量;TP肽对小麦赤霉病菌的抑制浓度低至13.33 μM,通过电荷吸附与疏水插入双重机制破坏真菌细胞结构,为作物病害防控提供了新策略。
3.2 机器学习在抗癌肽中的应用
抗癌肽设计需平衡高肿瘤选择性与低正常细胞毒性,依赖苯丙氨酸、组氨酸、异亮氨酸、赖氨酸等氨基酸的组成与位置排布。机器学习可解析序列远端区域的相互作用对癌细胞结合与入胞的影响,设计策略也从单一活性优化转向多参数协同调控,同时兼顾酶稳定性与体内半衰期等实际应用指标。宏基因组智能筛选已实现极高命中率,例如对人肠道基因的机器学习分析,40个预测肽中有39个在实验中表现出活性,小鼠模型中有效抑制肿瘤生长且无显著体重下降与器官损伤。PCa1肽对结肠癌细胞系的抑制活性较常规基因扫描结果提升15倍,动物实验中显著降低瘤重,显微观察证实其通过破坏细胞膜诱导靶细胞快速死亡,体现了机器学习设计的选择性优势。
3.3 机器学习在自组装肽中的应用
自组装肽通过非共价相互作用逐步组装为纳米纤维、纳米管与水凝胶等结构,可用于药物载体与组织支架。其核心挑战在于序列空间庞大且组装行为受环境(pH、温度、离子强度)调控,机器学习可预测聚集倾向与组装形貌,筛选适用于组织修复与缓释给药的候选序列。研究范式已从经验规则转向数据驱动发现,机器学习成功识别出ILFSM、WKIYI等可形成有序β-折叠结构的非常规序列,挑战了传统序列-组装规则;条件VAE(cVAE)等方法还可整合序列与环境因子,生成适配特定条件的自组装肽。实验验证显示,机器学习筛选的成胶肽成功率可达87.1%,所形成的水凝胶具有优异力学性能,作为疫苗佐剂可显著提升针对新冠病毒等抗原的抗体应答,兼具结构支撑与生物功能活性。当前多目标设计仍需平衡结构稳定性、生物活性、毒性等多重指标,强化学习与多目标贝叶斯优化正被用于解决目标冲突与序列搜索效率问题,未来结合分子动力学模拟等第一性原理计算与自动化实验闭环,有望实现可编程多功能生物材料的精准设计。
4. 结论
机器学习已成为肽科学研究抗菌肽、抗癌肽与自组装肽的核心工具,但仍面临数据质量与模型可解释性的挑战。公共数据库的阳性偏差导致模型实际泛化性不足,深度学习“黑箱”特性限制了机制理解,未来需引入更多可解释人工智能(XAI)方法(如Grad-CAM)解析序列-功能关系。同时,需将pH、温度、离子强度等环境因子纳入特征工程,实现从静态预测到环境响应型肽设计的跨越。后续发展将融合结构基方法与自动发现,结合密度泛函理论(DFT)等第一性原理计算预筛性质,并对接自动化合成与测试系统,形成实时反馈的闭环设计流程。基于ESM、AlphaFold等大规模蛋白数据集的大语言模型与生成式人工智能也将适配特定任务,支撑多靶点、多功能的下一代肽材料设计,最终推动精准医疗领域的应用突破。