蛋白质语言可视化工具:基于语言模型嵌入的同源性探索资源库

时间:2026年6月17日
来源:Digital Discovery

编辑推荐:

现代人工智能驱动的蛋白质表征时代已经到来并迅速发展,然而用于直观可视化和探索这些表征的工具却相对滞后。序列相似性网络(Sequence Similarity Networks, SSNs)长期以来为基于比对的方法扮演了这一角色,提供了简单但广泛采用的平台用于按

广告
   X   

现代人工智能驱动的蛋白质表征时代已经到来并迅速发展,然而用于直观可视化和探索这些表征的工具却相对滞后。序列相似性网络(Sequence Similarity Networks, SSNs)长期以来为基于比对的方法扮演了这一角色,提供了简单但广泛采用的平台用于按同源性对蛋白质进行分组。在此基础之上,研究人员提出了蛋白质语言可视化工具(Protein Language Visualizer, PLVis),这是一个模块化框架,将现有的预训练蛋白质语言模型(protein Language Model, pLM)嵌入、降维和聚类方法相结合,生成蛋白质关系的交互式图谱。核心贡献在于PLVis资源库——一个在线平台,数千个参考蛋白质组可以通过易于访问的交互式界面进行比较和注释,正如SSNs之所以产生影响力并非因为其技术创新,而是因为其广泛的可用性。研究人员首先验证了PLVis中分离良好的聚类能够可靠地捕获同源性信息,同时强调在解释中央"模糊"区域时需要谨慎。随后,通过涵盖从单个蛋白质家族到分枝杆菌属(Mycobacterium)和疟原虫属(Plasmodium)物种间完整蛋白质组比较的案例研究,展示了PLVis的价值。通过将方法论的清晰性与广泛的可用性相结合,PLVis资源库为通过语言模型的视角探索蛋白质组提供了一个低门槛的平台。
## 研究背景与动机

高通量测序技术极大加速了蛋白质发现,但功能注释速度远未跟上。UniProtKB数据库已包含超过2.5亿条序列,其中不足1%经过人工审校。即使在自动化注释流程辅助下,仍有超过30%的蛋白编码基因功能未知。在蛋白质语言模型(pLM)兴起的新时代,这些模型虽功能强大但往往具有黑箱特性,可视化工具对于探索和解释大规模蛋白质集合具有不可替代的价值。序列相似性网络(SSN)长期服务于这一需求,提供了简单有效的蛋白质关系展示方式:节点代表蛋白质,边反映成对相似性评分。然而,SSN依赖用户定义的阈值,高阈值导致大量蛋白质成为孤立节点,低阈值则可能损失功能特异性。与此同时,HMM等统计方法虽广泛用于检测保守模式,但其结果通常不以交互式可视化形式呈现。

pLM作为HMM的概念继承者,基于Transformer架构,通过掩码序列预测学习氨基酸的上下文相关表征,产生的高维嵌入可用于下游预测、分类乃至蛋白质生成与设计任务。随着pLM及其丰富嵌入的兴起,设计新一代蛋白质相似性交互式可视化工具备受期待。尽管已有研究将pLM嵌入与降维或嵌入空间可视化结合,针对特定蛋白质家族或功能子集进行分析,这些工作主要集中于家族层面,未能系统性地解决跨物种全蛋白质组比较问题。更未有资源提供基于嵌入可视化的、按分类学组织的交互式全参考蛋白质组仓库。基于此,JEH等研究人员开发了PLVis,旨在将pLM嵌入转化为可复用的可视化资源,使其对蛋白质研究界的效用可与SSN之于序列比对相媲美。

## 关键技术与方法

PLVis分析方法学基于五大样本队列:10000条随机选取的自由基S-腺苷甲硫氨酸(radical SAM, rSAM)酶、甾醇结合蛋白集合、结核分枝杆菌(M. tuberculosis)全蛋白质组、8种分枝杆菌属蛋白质组、以及5种疟原虫属蛋白质组。分析流程为:首先使用pLM(如ESM2、ProtT5)生成蛋白质序列嵌入,然后通过降维算法(UMAP、t-SNE或TriMAP)将高维嵌入降至二维,再应用聚类算法(K-means、DBSCAN)识别蛋白质群组,最后通过双词分析对聚类进行自动标注。研究采用Davies-Bouldin指数和Calinski-Harabasz指数评估聚类质量,使用Jaccard距离量化高维嵌入空间与二维投影空间之间的邻域信息保留程度,以轮廓系数区分分离良好与模糊的聚类。对于分枝杆菌和疟原虫案例分析,研究人员运用超几何检验结合Benjamini-Hochberg错误发现率校正识别物种富集聚类,并通过AlphaFold结构模型计算TM-score进行结构验证。

## 研究结果

**评估PLVis投影:方法选择、SSN比较与功能富集**

研究人员首先比较了UMAP、t-SNE和TriMAP三种降维方法,发现UMAP在较小数据集上能生成更紧凑且分离良好的聚类,在蛋白质组规模数据上表现居中,且超参数(如min_dist、随机种子)对整体聚类模式和案例结论影响稳健,故选择UMAP作为默认方法。聚类直接应用于二维投影而非原始嵌入空间,以确保聚类边界与最终图谱中的视觉可分离区域对应。

将PLVis与基于BLAST的标准SSN方法比较时,研究人员分析了rSAM酶和甾醇结合蛋白两个数据集。SSN在选定相似性阈值下产生大量孤立节点:约20%的rSAM蛋白质和约80%的甾醇结合蛋白被切断连接。而在PLVis表示中,这些蛋白质被重新分配至相关聚类中,rSAM的孤立节点分布于75个聚类,甾醇蛋白则分布于所有聚类。超几何检验显示,rSAM monster数据集中96%的聚类富集InterPro"家族"术语、74%富集"结构域"、68%富集"其他"类别;甾醇数据集对应值为95%、90%和100%。值得注意的是,93%的rSAM孤立节点被分配至富集InterPro"家族"注释的PLVis聚类,如PLVis 45号聚类将18个先前未连接的蛋白质与TatD相关rSAM家族(IPR023821)序列归为一组;16号聚类则将143个SSN孤立蛋白与短链脱氢酶/还原酶家族(IPR002347)中的保守位点(IPR020904)关联。CATH FunFams和OrthoDB的系统富集分析进一步证实PLVis聚类与已整理同源性和直系同源分类的一致性,尽管CATH FunFams的覆盖度因结构注释有限而变异较大。

**PLVis投影在分离良好的聚类中保留局部信息**

借鉴单细胞基因组学中对降维失真问题的认识,研究人员使用Jaccard距离评估pLM嵌入投影的邻域信息保留度。通过计算轮廓系数识别分离良好的聚类,并测试0.5至0.95的轮廓系数阈值,发现较高阈值始终富集于二维投影与嵌入空间相似性一致性更强的聚类。对五个UMAP数据集的分析表明,分离良好的聚类具有显著更低的Jaccard距离(p<0.001,Mann-Whitney U检验),且簇内高维嵌入的余弦相似性也显著更高。

进一步验证非线性投影中簇间距离不具直接意义这一公认事实时,研究人员计算了簇内蛋白质嵌入的平均余弦相似性,及其与最近邻簇和随机选择簇的相似性比较。结果显示,分离良好的簇与最近邻簇相比呈现相似性的急剧下降(如rSAM数据集Cohen's D=2.6),而模糊簇的下降更为平缓(D=0.54);与随机簇比较时,模糊簇的相似性下降更为显著(D=2.0 vs. 0.4),表明模糊簇区域蛋白质与同一云状聚集体中的邻近蛋白质保留更高相似性。这一模式说明投影的空间排列确实保留了嵌入空间的某些方面,但绝对距离不应被过度解读。

**PLVis投影揭示跨物种保守蛋白质家族**

在分枝杆菌属分析中,8个物种(M. smegmatis、M. fortuitum、M. kansasii、M. marinum、M. leprae、M. tuberculosis、M. bovis和M. intracellulare)的蛋白质组被可视化为1581个聚类,其中184个(约12%)为单一物种富集聚类。三个FDR校正p值最低的聚类(127、536、857)均含有PE-多态性GC富集(PE-Polymorphic GC-Rich, PE-PGRS)家族蛋白,该家族特征为富含甘氨酸、含PE结构域及约80%的GC含量。TM-score结构比较显示,聚类127和536中大多数蛋白质对得分高于0.5阈值,而857号聚类因C-末端长无序区域影响显示较低得分,投影据此分离了该家族内的结构异质性。

疟原虫属五种人类致病物种(P. falciparum、P. malariae、P. ovale wallikeri、P. vivax、P. knowlesi)的分析显示,1942个聚类中约36%为模糊聚类,比例高于分枝杆菌属的14%。鉴定出375个物种富集聚类和77个单一物种专属聚类,反映了该数据集更大的蛋白质组多样性。RIFIN蛋白主要集中于3个聚类,但两个异常蛋白(A0A143ZXC7和Q8I209)位于别处,其嵌入与邻近蛋白的平均余弦相似性约0.7,但结构TM-score与RIFIN超聚类及所在聚类均无显著相似性,提示它们可能通过纯功能关系与邻近蛋白关联。

**PLVis资源库:分类学家族内比较蛋白质组分析的门户网站**

PLVis资源库系统应用于UniProtKB参考蛋白质组,涵盖3个域、3个界、67个门、165个纲、404个目、901个科和2605个属的4695个参考蛋白质组图谱。对于物种超过10种的异常分类群,选择BUSCO完整性评分最高的10个蛋白质组确保比较质量。网站提供可折叠树形视图导航和分类等级搜索功能。每个比较页面包含物种列表、UMAP和t-SNE投影图、以及突出显示过度代表注释的富集分析表。嵌入使用ProtT5语言模型生成,K-means聚类后通过蛋白质名称中最常见词语的双词分析命名。超几何富集检验针对每个聚类中最常见的生物体、基因名称、InterPro(IP)、基因本体(Gene Ontology, GO)、EC号和Rhea ID进行。资源库中超过80%的UMAP和t-SNE聚类富集基因、IP和GO信息,EC号和Rhea ID的富集比例相对较低,表明聚类更强烈地对齐于功能结构域组成而非代谢反应同一性。

## 讨论与结论翻译

PLVis管道为蛋白质语言模型嵌入的视觉表征提供了高效且易于获取的替代方案。与SSN联合使用时,这些可视化工具通过有效聚合同一家族分类需求喻的蛋白质,有效促进了蛋白质功能注释。例如,研究特定蛋白质家族并寻求验证功能注释不佳蛋白质功能的研究人员,可以利用PLVis投影快速将蛋白质分类为不同的亚家族,从而确定实验验证的候选对象,特别是当低注释置信度(1或2级)蛋白质靠近特征明确的蛋白质(5级置信度)时。

虽然PLVis的主要优势在于其聚类能力,但理解其在实际应用中的局限性和灵活性同样重要。如前所述,由于降维的固有限制,可视化中的距离并不具备直接意义。然而,这也为用户提供了根据其数据集修改聚类坐标的自由,基于额外知识赋予簇间距离以意义。例如,聚类可以根据基因表达模式、蛋白质必需性特征或功能类别(如将所有氧化还原酶定位于特定区域,或分离转录因子、转运蛋白和酶)进行空间组织。这种可视化灵活性强调了领域专业知识的重要性,并要求用户充分理解其生物学数据和分析工具。

超越单个蛋白质分析和聚类组织,PLVis在更广泛的比较研究中表现出显著实用性。从生物学角度而言,PLVis投影在不同物种完整蛋白质组的比较分析中展现出最优效用。由此产生的蛋白质聚类模式揭示了重要的生物学信息,如物种特异性蛋白质家族缺失或分类属内的保守模式。该方法特别适用于分析特定的生物学关系,如宿主-病原体相互作用,可视化可以识别可能参与致病过程的来自两种生物的蛋白质簇。此类蛋白质簇提供了与疾病机制相关的潜在分子特征。

PLVis资源库为研究人员提供了参考蛋白质组比较快速可视化,以在分类学家族内寻找有前景的蛋白质关系。结合可用的富集表格,生成的投影可作为更深层生物学研究和假设生成的起点。通过社区协作扩展精选案例研究的集合,可以进一步增强该网站作为教育和研究资源的价值。为此,研究人员还提供了PLVis Colab Notebook的链接,协助用户使用上述管道生成自己的比较。PLVis资源库和Colab Notebook共同提供了一个可扩展的平台,用于可视化和分析大规模蛋白质组数据集,帮助弥合海量未注释蛋白质集合与有意义生物学洞察之间的鸿沟。


论文解读总结:该研究发表于《Digital Discovery》,构建了PLVis这一基于蛋白质语言模型嵌入的交互式可视化平台,通过降维和聚类算法生成蛋白质关系的二维图谱,并建立了涵盖数千个参考蛋白质组的在线资源库。研究核心结论包括:分离良好的聚类能可靠保留同源性信息,而中心模糊区域需谨慎解读;PLVis能有效整合SSN中孤立节点并恢复有意义的生物学分组;跨物种比较可揭示保守蛋白质家族和谱系特异性蛋白;投影空间中的邻域关系保留局部结构信息但绝对距离不可直接解读。该工作为蛋白质组学时代提供了低门槛的可视化分析工具,对功能注释、比较基因组学和病原体生物学研究具有重要应用价值。

生物通微信公众号
微信
新浪微博


生物通 版权所有