生物活性肽是通过蛋白质水解或化学合成获得的分子片段,由于其低分子量和良好的生物相容性,已被证实具有多种生理活性,如抗氧化、血管紧张素转换酶(ACE)抑制等(Gong等人,2025年;Wang、Huang等人,2025年)。研究表明,肽类活性的靶向调控取决于其氨基酸残基的化学性质和构象灵活性(Luo等人,2023年)。与传统的小分子化合物相比,短链肽具有更高的生物效力和安全性,并且在分子识别和作用机制方面具有优势(Xu、Gao等人,2024年)。然而,目前针对肽类的研究主要集中在植物和动物领域。相比之下,由于缺乏系统的鉴定和注释工具,对可食用真菌中功能性肽的研究进展较为缓慢(Panyayai等人,2019年)。
刺猬菇(H. erinaceus)是一种传统的药用和可食用真菌,具有降压、抗糖尿病和心脏保护作用,其子实体富含蛋白质(约占干重的15–20%),被认为是功能性肽的重要来源(Xiao等人,2022年)。先前的研究已经证明了刺猬菇蛋白水解物(HEph)中肽类的免疫调节等潜在作用。Yu等人(2021年)从刺猬菇中分离出一种名为KSPLY的生物活性肽,并发现它能够刺激巨噬细胞分泌一氧化氮,从而发挥免疫调节作用。Zhang Junmiao、Ali等人(2025年)指出,刺猬菇生物活性肽的跨膜转运机制和免疫调节效果与其氨基酸侧链的负电荷比例、疏水性及分子量密切相关。然而,关于刺猬菇衍生肽的研究仍不充分,其序列和生物活性机制尚不明确。针对具有稳定降压和抗氧化效果的肽类的系统研究仍存在不足(Chen、Liu等人,2025年;Silva等人,2025年;Watson等人,2023年)。
机器学习和算法技术的最新进展使人工智能(AI)成为肽类序列鉴定和注释的强大工具(Dražić等人,2025年;Zhang等人,2022a,2022b)。大型语言模型(LLMs)是基于大量文本数据训练的神经语言模型,能够实现语义理解、基于上下文的推理以及从多种文档中提取信息。由于不同研究术语可能具有不同含义,且使用关键词查找信息可能导致相关数据的遗漏,LLMs的特点使其在肽类研究中比其他方法更具优势。DeepSeek是一个为LLMs提供应用程序编程接口的平台,支持本地部署,从而可以将算法框架集成到内部的液相色谱-串联质谱(LC-MS/MS)数据库和自定义脚本中(Deng等人,2025年;Wang、Lin等人,2025年)。然而,LLM及其他AI模型在识别短链肽和关键生物活性位点的结构分析方面的预测准确性存在局限。此外,注释结果受数据库覆盖范围和训练数据变异性的影响,使得AI预测难以全面反映实际生物活性(Tordjman等人,2025年)。
为提高肽类生物功能注释的准确性,可以将AI模型与外部数据库结合使用,通过BioChemia和InterPro数据库对提取的肽序列及相关生物活性进行交叉验证。同时,通过分子对接和人工辅助验证可提高目标生物活性化合物的注释精度(Arif等人,2021年;Blum等人,2021年)。Xu、Zhao和Yu(2025年)通过结合机器学习-虚拟消化、BIOPEP数据库、分子对接及人工比对的方法筛选出了高效生物活性肽。Suo等人(2024年)进一步证实,通过计算机模拟获得的LVAKA肽具有降压效果,其ACE抑制IC50值经体外实验验证为350 nM。这些发现表明,手动鉴定与自动化比对的结合显著扩展了肽类功能注释的范围和深度,提高了结果的准确性和可靠性,为分析结构-功能关系提供了坚实基础(Xu、Pei等人,2025年;Zhou等人,2025年)。尽管这些研究在肽类发现和生物活性注释方面取得了显著进展,但利用LLM对蘑菇衍生肽进行注释的研究仍处于探索阶段。
总之,尽管刺猬菇肽类具有多种潜在生物活性,但由于缺乏大规模序列鉴定和AI辅助的高通量筛选注释,以及体外有效性研究的不足,严重阻碍了刺猬菇功能肽的探索和开发(Yorke等人,2025年)。因此,本研究通过LC-MS/MS技术鉴定了HEph中的肽类,并利用DeepSeek平台进行了功能注释和筛选。随后对AI辅助注释的肽类进行了体外抗氧化和ACE抑制实验,并在细胞水平上验证了其生物活性。分子对接分析揭示了肽类与关键靶标之间的相互作用机制,明确了它们的结构-功能关系。本研究旨在阐明肽类结构及其生物活性,验证了AI辅助注释的可靠性,并为未来系统研究生物活性肽的结构-功能关系及AI辅助筛选策略提供了新的见解和方法支持。