蛋白质组水平的人类疾病遗传学模型:popEVE实现跨基因有害性校准与罕见病诊断突破

时间:2025年11月25日
来源:Nature Genetics

编辑推荐:

本研究针对错义变异致病性预测中存在的跨基因校准不足、严重性区分能力有限等挑战,开发了融合进化序列与人群数据的深度学习模型popEVE。该模型通过高斯过程整合EVE与ESM-1v的进化约束信息,并利用UK Biobank和gnomAD人群频率进行蛋白组水平校准,实现了变异有害性的连续量化。在31,058例严重发育障碍(SDD)队列中,popEVE识别出442个候选基因(含123个新发现),且无需亲本测序即可优先推定致病变异,为单例罕见病诊断提供了可推广框架。

广告
   X   

在基因组学飞速发展的今天,临床医生和研究人员面临着一个尴尬的困境:尽管能够快速检测出患者基因组中的数百万个变异,但要精准找出那个“罪魁祸首”——导致疾病的致病性变异——仍然如同大海捞针。尤其棘手的是错义变异,即单个氨基酸的改变。它们的影响微妙且高度依赖于其所在的蛋白质环境,使得解读工作异常复杂。
现有的计算预测模型,如AlphaMissense、REVEL等,在已知疾病基因内部区分良性与致病性变异方面表现出色。然而,它们存在一个根本性局限:其评分并未在整个蛋白质组范围内进行校准。这意味着,我们无法可靠地比较一个基因中的变异与另一个基因中的变异,哪个对健康的危害更大。这就像用一把没有标准刻度的尺子去测量不同物体的长度——结果缺乏可比性。例如,破坏某个蛋白质功能可能仅在晚年产生轻微影响,而破坏另一个蛋白质功能则可能在儿童期致命。两者都可被标记为“致病”,但识别导致严重发育障碍的遗传病因时,区分二者至关重要。此外,当前方法严重依赖“三重奏”测序(患者及其父母),这在许多临床场景中难以实现,且基于大人群频率的策略对超罕见疾病束手无策。正是这些知识空白和临床需求,催生了这项发表于《Nature Genetics》的研究。
研究人员开发了一个名为popEVE的深度生成模型。其核心创新在于将来自数十亿年进化的深度序列信息(通过EVE和ESM-1v模型捕获)与人类群体中的浅层变异数据(来自UK Biobank或gnomAD)相结合。popEVE采用高斯过程来学习进化评分与错义约束之间的关系,从而将一个基因内的变异有害性评分,转化为一个可在整个蛋白质组范围内进行比较的、经过校准的连续度量。这种方法不仅保持了在单个基因内区分变异的能力,更重要的是,它使得比较不同基因间变异的相对危害程度成为可能。
为了评估popEVE的性能,研究团队进行了一系列严谨的基准测试。首先,在区分已知致病性变异严重程度方面,popEVE能够显著区分导致儿童期死亡或早发的变异与导致成人期死亡或晚发的变异,其表现优于所有其他对比模型。其次,在一个包含31,058个严重发育障碍(SDD)患者和5,764名未受影响的自闭症谱系障碍同胞对照的队列中,popEVE评分在病例中明显偏向有害端,且随着评分越严厉,De Novo突变(DNM)的富集程度越高,远超基于背景突变率的预期。
尤为重要的是,popEVE在准确识别病例的同时,有效避免了对普通人群有害性的高估。例如,当popEVE能召回50%的确诊病例时,仅预测11%的UK Biobank个体携带同等严重程度的变异。而相比之下,AlphaMissense在召回50%病例的同时,预测44%的普通人群携带此类变异,平均每人有五个“致病”命中,而popEVE则远少于一个。
证据支持123个新的DD候选基因
基于其卓越性能,研究团队利用popEVE在SDD队列中寻找新的致病基因和变异。他们采用了两种策略:一是设定严厉的变异阈值(>99.99%可能性属于低适应性分布);二是基因折叠分析,比较观察到的变异评分与基于背景突变率的期望值。这两种方法共识别出410个基因,其中包括152个先前已被DeNovoWEST报道的基因。popEVE成功找回了该队列中94%先前通过错义变异发现的基因,并新提出了123个候选基因。
对这些候选基因的功能分析提供了强有力的支持。首先,popEVE识别出的410个基因中,70%已知与发育障碍相关,其病例中变异评分分布与已知基因几乎一致。其次,新发现的123个基因在功能上与已知DD基因高度相似,例如在胎儿大脑发育中表达更高,并富集于染色质组织、神经系统发育等生物学过程。许多新基因是关键复合物的成员,如NuRD染色质复合体、SWI/SNF染色质重塑复合体、离子通道复合体等。
候选变异定位于3D相互作用位点
popEVE的一个关键优势在于能精确定位可能致病的单个变异。研究人员检查了其中85个有蛋白质结构数据的候选变异,发现91%的严厉评分变异位于相互作用伙伴(如其他蛋白质、配体、辅因子或核酸)的8埃范围内(72%在5埃内),显著高于随机预期。例如,评分最有害的两个变异位于翻译终止因子ETF1中,其残基R192C和R68L均非常接近(<3.2埃)核糖体RNA的磷酸骨架,靠近已知功能 motifs(GGQ和NIKS),直接影响蛋白质合成终止过程。
无需亲本基因组即可优先推定致病De Novo变异
最后,研究测试了popEVE能否仅凭子代基因组数据(无需父母数据)识别可能的致病变异。对DDD研究队列中9,859名个体的分析显示,在513名携带popEVE判定为严厉De Novo错义变异的个体中,98%的该变异被排名为其最有害的变异。即使仅选择每个人中评分最高的变异,也能找回95%通过De Novo变异阈值法确定的基因。这表明,当存在可能的致病De Novo变异时,popEVE能将其排在患者所有罕见遗传错义变异之上,显著优于其他模型,凸显了其在不依赖三重奏测序情况下的临床实用性。
结论与展望
本研究提出的popEVE模型,首次实现了在蛋白质组水平上对错义变异有害性进行校准和比较,将致病性视为一个谱系而非简单的二元分类,为罕见病遗传诊断提供了更精细、更可靠的工具。它成功克服了现有方法跨基因比较能力不足、严重性区分度低以及人群偏倚等问题。通过在大型SDD队列中的应用,popEVE不仅验证了其卓越性能,还发现了大量新的候选基因,预示着仍有许多导致严重表型的基因和遗传疾病尚待发现。
这项工作的意义深远。它为解决“基因型-表型”解读难题,尤其是单例超罕见病的诊断,提供了一个可推广的框架。popEVE的模块化设计使其易于扩展,例如未来可整合蛋白质-蛋白质相互作用信息,或进一步统一评估功能丧失性变异(LoF)和错义变异的严重性。随着患者测序的普及,这种进化信息驱动、经过校准的评分模型,有望在全球范围内提升遗传诊断率,最终惠及更多患者及其家庭,推动精准医疗的发展。同时,作者也呼吁关注大规模模型开发的计算成本和环境影响,倡导发展可重用、可回收的组件化深度学习策略。

生物通微信公众号
微信
新浪微博


生物通 版权所有