:
拉沙病毒 (LASV) 仍然是西非的一个主要公共卫生威胁,经常发生疫情爆发和输出性病例,且尚无许可疫苗。LASV谱系存在地理隔离,并在免疫原性和致病性上存在差异;然而,能够解释这些差异的基本生物物理特性仍未得到明确定义。本研究在群体水平上分析了跨谱系的LASV蛋白质特性,重点关注糖蛋白(GP)——体液免疫的主要靶点。通过对数百个经整理的高质量序列进行分析,发现蛋白质长度变异主要由短的插入缺失(indel)驱动,其中RNA聚合酶的变化尤为显著,并且在GP中存在一个反复出现的一氨基酸差异。与此同时,群体水平分析揭示了LASV蛋白质之间存在细微的谱系和蛋白质特异性氨基酸组成差异。尽管谱系II和III在尼日利亚共同流行,但来自谱系III的S片段编码蛋白质(GPC和NP)的分子量始终高于谱系II的对应蛋白质。结合随机森林特征重要性、曼哈顿距离分析、皮尔逊相关性和氨基酸组成分析的综合框架显示,平均而言,谱系III的GP比谱系II的GP重约180 Da,这主要是由特定位点向使用更重氨基酸残基的转变所驱动的。群体水平的计算结构建模和流式细胞术分析表明,GP1 N末端的indel在结构上和功能上是可以容忍的。这些发现共同定义了LASV中谱系特异性的生物物理模式,并提供了一个GP结构目录,可为疫苗和治疗设计提供信息。
论文解读文章
研究背景与目的
拉沙热是由拉沙病毒(LASV)引起的一种急性出血性疾病,每年在西非造成大量感染和死亡,并已出现输入性病例,构成全球公共卫生风险。尽管经过五十多年研究,目前仍无针对该病的许可疫苗和特异性抗病毒药物。LASV存在七个主要谱系,其地理分布、临床严重程度和免疫反应存在显著差异。已有研究显示,谱系VII在非人灵长类动物中可能比谱系II导致更严重的疾病,谱系I对许多已知的中和抗体具有抗性,幸存者血浆也显示出谱系偏向性的中和作用。这些观察结果意味着,除了核苷酸差异外,谱系特异性的分子特征可能导致了毒力和免疫识别的不同。然而,是哪些物理或结构特性区分了这些谱系,以及这些特性是否可以在群体水平上被检测到,目前仍未得到很好的定义。尽管对LASV多样性的研究主要集中在系统发育重建和分子流行病学上,但将序列变异转化为蛋白质水平的基本描述符(如长度、分子量、氨基酸组成等)的群体水平分析仍然很少。本研究旨在填补这一空白,通过对所有四种LASV蛋白质的理论生物物理特性进行分析,特别关注糖蛋白(GP),以更清晰地理解LASV的谱系多样性,并为疫苗和治疗设计提供分子和结构框架。
研究方法概述
本研究采用了计算生物学、机器学习和实验验证相结合的方法。研究人员首先从GenBank中获取了经过严格质量控制的LASV蛋白质序列数据集,涵盖了主要谱系(II, III, IV, V, VII)。核心分析包括:1) 计算和比较各谱系LASV四种蛋白质(GPC, NP, RNAPOL, Z)的长度、理论分子量和氨基酸组成;2) 通过多序列比对、系统发育分析和随机森林特征重要性、曼哈顿距离、皮尔逊相关性等多种指标,定位和量化导致谱系间差异的关键氨基酸位点,特别是GPC长度变异的原因;3) 使用AlphaFold2 Multimer (ColabFold) 对613条LASV GPC序列进行群体水平的计算结构建模,生成了一个全面的GP结构目录,以评估N末端indel的结构影响;4) 通过流式细胞术实验,在Expi293细胞中表达代表性的具有/不具有N末端indel的GPC变体,检测其表面表达水平及与两种已知中和抗体(12.1F和18.5C)的结合情况,以评估其功能耐受性。
研究结果
Lassa virus proteins differ in protein molecular mass and length across lineages
研究人员量化了所有LASV蛋白质(GPC, NP, RNAPOL, Z)的基本特性。分析发现,GPC存在两种主要长度:谱系IV和V为491个氨基酸,谱系II、III和VII为490个氨基酸。引人注目的是,尽管谱系III的GPC比谱系IV和V的短一个氨基酸,但其平均分子量却是所有谱系中最重的。在长度完全一致(569 aa)的NP中,谱系III的平均分子量也最高。这意味着,在编码GPC和NP的S基因组片段上,谱系III的蛋白质始终比谱系II的重(GPC平均重约180 Da,NP重约140 Da)。L片段编码的RNAPOL长度在谱系间存在差异(2,217–2,223 aa),谱系VII的聚合酶最长,谱系III的最短。Z蛋白长度高度保守(99 aa),但氨基酸组成显示谱系间脯氨酸使用量存在差异,谱系VII最高。随机森林分类器仅基于氨基酸组成就能以高准确度(0.951)预测GPC的谱系归属,表明氨基酸使用模式存在谱系特异性差异。
N-terminal indel near GPC 60/61 defines lineage-specific length variation
针对GPC的490/491长度多态性,研究人员通过精细的局部序列比对和系统发育分析,确定其由一个位于GP1 N末端、围绕氨基酸位点60/61的短indel驱动。以高度保守的半胱氨酸57(C57)和酪氨酸62(Y62)为锚点,他们发现大多数谱系II序列在第61位存在一个缺失(gap),而谱系IV、V等则通常在对应位置编码一个疏水氨基酸(如亮氨酸L)。少数谱系II序列编码L61,长度为491 aa,证实了该indel是谱系内真实存在的变异。系统发育映射显示,第61位的氨基酸状态与谱系划分高度相关。这项分析澄清了先前研究中关于该indel确切位置的模糊性,并确认了其在群体水平上的存在。
Lineage III GPC is heavier than lineage II because of a shift in amino-acid usage
为了探究长度相同但分子量不同的谱系II和III GPC之间的差异根源,研究人员结合随机森林特征重要性、曼哈顿距离和皮尔逊相关性三种方法进行分析。结果显示,在491个GPC位点中,只有约147个位点的氨基酸分布在两谱系间存在差异。通过平均排名识别出对区分谱系贡献最大的关键位点,如第5、44、74、76、77位等。其中,第76位几乎完全被不同的氨基酸占据,该位点已被证实具有免疫学重要性。通过计算每个位点的加权分子量差异,发现第76位是导致谱系III GPC更重的最主要正向贡献位点,而第44位等则使谱系II更重。进一步分解发现,谱系III倾向于使用更重的极性/带电荷氨基酸(如R, Q, T, E)和一些大体积疏水氨基酸(I, F),而谱系II则更多地使用较轻的脂肪族氨基酸(V, A, L, P)和特定带电氨基酸(D, K, H)。这种在有限位点上向更重氨基酸的整体转变,是谱系III GPC平均比谱系II GPC重约180 Da的原因。
Population-Scale Structural Modelling of 613 LASV GPC sequences using AlphaFold2 identifies structural positioning of the indel
研究人员使用AlphaFold2 Multimer,分别以LASV GPC (PDB: 7PUY) 和卢约病毒 (LUJV) GPC (PDB: 8P4T) 为模板,对613条LASV GPC序列进行了群体规模的结构预测,生成了涵盖所有主要谱系的GP结构目录。使用LASV模板的模型具有更高的置信度(平均pLDDT约85)。结构建模表明,无论是否存在N末端indel,GPC的整体前融合构象高度保守。插入的残基(第61位)倾向于朝向溶剂或膜方向,而高度保守的Tyr62则始终朝向GP2结构域。Cα–Cα距离分析也证实,该indel并未导致GP1结构域的全局重塑。这些结果表明,该indel是一个在结构上可被容忍的局部变异。
Experimental testing to GPC length polymorphism tolerance
通过流式细胞术实验,研究人员测试了代表“长”(491 aa,有indel)和“短”(490 aa,无indel)形式的GPC变体在细胞表面的表达水平,以及它们与两种构象敏感性中和抗体(结合GP1顶端单体表位的12.1F,和结合GP1 N端及T-loop二聚体表位的18.5C)的结合能力。实验结果显示,不同GPC变体之间的表达水平和抗体结合指数仅存在微小差异,没有一致的模式表明indel的存在会显著影响GPC的表达或被这些抗体识别。这从功能上支持了该N末端indel可以被容忍的结论。
讨论与结论
在讨论部分,研究人员强调了本研究的发现:LASV谱系在蛋白质的物理特性上存在可测量的差异,这些差异体现在序列长度、理论分子量和氨基酸组成上。特别值得注意的是,共同流行于尼日利亚的谱系II和III,其S片段编码的蛋白质(GPC和NP)在分子量上存在系统性差异,这是由一组关键位点上氨基酸使用的谱系特异性偏移所致,而非单个突变。研究提供了对GPC N末端indel的精确群体水平定位和结构-功能评估,表明其是一种可被容忍的变异。所采用的结合群体水平氨基酸组成分析、质量加权差异谱、机器学习特征筛选和群体规模结构预测的方法框架,为解析病原体谱系特异性分子多样性提供了范例。最后,研究生成的首个LASV糖蛋白群体规模结构预测目录,为比较结构分析、表位作图、疫苗和抗体设计提供了宝贵资源。
研究结论总结:
总之,本项研究定义了LASV谱系特异性的生物物理模式,并提供了第一个全面的GP结构目录。研究发现,共同流行的LASV谱系在基本蛋白质特性上存在差异,例如,尽管编码相同长度的蛋白质,但谱系III的S片段蛋白始终比谱系II的重。这种质量差异源于有限位点上氨基酸使用的谱系特异性转变。位于GP1 N末端的反复出现的indel是群体水平长度多态性的基础,计算和实验证据表明其在结构和功能上均可被容忍。这些发现增进了对LASV谱系多样性的理解,并为旨在实现广泛保护的合理疫苗和治疗设计提供了信息。