摘要
尽管由单基因缺陷引起的孟德尔疾病较为罕见,但其总体疾病负担巨大。确定每种疾病的致病基因对于准确诊断和有效治疗至关重要。然而,历经数十年研究,超过一半已知孟德尔疾病的遗传学基础仍未阐明。为应对这一挑战,我们引入了MENDELSEEK,这是一个通过整合残基变异评分、通路参与度、基因本体(GO)过程和蛋白质语言模型特征来预测孟德尔基因的机器学习框架。在使用包含16,946个人类基因的数据集进行10折交叉验证的基准测试中,MENDELSEEK的曲线下面积(AUC)达到0.869,精确率-召回率曲线下面积(AUPR)达到0.737,显著优于次优方法ENTPRISE+ENTPRISE-X和REVEL。将其应用于全部17,858个人类基因,MENDELSEEK以高于0.7的精确度预测了1,277个新的孟德尔基因候选者。进一步分析揭示,与非孟德尔基因相比,孟德尔基因参与显著更多的蛋白质-蛋白质相互作用,且在进化上更为古老。这些结果共同表明,MENDELSEEK在方法学上取得了重要进展,并为区分孟德尔基因与非孟德尔基因的生化特征提供了新的见解。
引言
据估计,大约80%的罕见病源于单基因突变,即具有孟德尔遗传特性,然而许多致病基因仍未确定。识别孟德尔基因不仅有助于精准医疗的发展,对于理解由多基因共同作用导致的复杂疾病也至关重要。高通量测序技术的进步加速了基因发现,但单凭外显子测序无法直接定位致病的孟德尔基因。现有方法常常过度预测致病变异,产生大量假阳性,导致在实际患者数据分析中难以准确定位真正致病的基因。
为克服这一局限,我们开发了MENDELSEEK。该框架旨在从众多变异候选基因中,甄别出最有可能导致孟德尔疾病或表型的基因,从而过滤掉基于变异方法的假阳性。MENDELSEEK整合了多种基因层面的信息来源。
方法
MENDELSEEK的流程如图1所示。其核心是为每个基因构建一个高维特征向量,该向量包含以下部分:
- 1.
基因变异综合评分:通过取所有可能错义(使用ENTPRISE)或移码/无义(使用ENTPRISE-X)变异评分的平均值来计算。
- 2.
通路特征:基于Reactome数据库,如果一个基因存在于某通路,对应分量为1,否则为0,共2,363维,并加上一个总通路数维度。
- 3.
GO生物过程特征:基于GO数据库的生物过程(效果最佳),构建方式同上,共12,535维,并加上总过程数维度。
- 4.
蛋白质语言模型特征:使用ProtBert模型生成1,024维的蛋白质序列嵌入向量。
最终,每个基因的特征向量维度为15,926(2 + 2,364 + 12,536 + 1,024)。
为减少特征、避免过拟合,对每个通路和GO过程特征,使用曼-惠特尼U检验计算其区分孟德尔基因与未知基因的z分数。仅保留z分数>0.1的特征,最终特征数从15,926降至3,755。
我们采用极端梯度提升(XGB)回归机器学习方法。已知OMIM数据库中的孟德尔基因回归目标值设为1.0,未知基因设为0.0。为降低训练中将未知基因全部视为真阴性的不确定性,我们利用预测的精确度分数,对未知基因的目标值在第二轮(迭代)训练中进行调整,最终的预测结果来自迭代训练模型。
结果
与其他方法的比较
我们在两个基因集上评估了MENDELSEEK的性能。在包含16,946个基因的“共识集”上,MENDELSEEK的AUPR和AUC分别为0.737和0.869,表现最佳。其次是ENTPRISE+ENTPRISE-X(AUPR 0.626, AUC 0.781)。作为元预测器的REVEL排名第三(AUPR 0.401, AUC 0.585)。DeepMind的AlphaMissense方法表现令人意外,其AUPR为0.324,低于MENDELSEEK一半以上。某些其他方法的性能甚至不及随机选择。
在排除ENTPRISE+ENTPRISE-X训练用致病基因的14,598个基因“困难集”上,MENDELSEEK的优势更加明显,其AUPR相对ENTPRISE+ENTPRISE-X提高了约46%。此外,我们还进行了时间验证,使用2015版OMIM数据训练,在由2025版OMIM新增基因构成的验证集上测试,MENDELSEEK在所有指标上仍优于其他方法,表明其预测能力稳健。
消融研究
为评估各特征组件对MENDELSEEK性能的贡献,我们进行了消融研究。结果(表4)显示,移除ENTPRISE+ENTPRISE-X评分导致AUPR从0.739降至0.646(贡献最大,提升约14%)。移除蛋白质语言模型特征导致AUPR降至0.712(提升约3.8%)。移除GO过程和Reactome通路特征分别导致AUPR降至0.729和0.731(各提升约1%)。若同时移除GO过程和通路特征,AUPR从0.739降至0.718(下降约3%)。迭代训练使性能提升约3.6%。这表明整合多种信息源是关键,其中变异评分贡献最大,但其他特征(尤其是蛋白质语言模型)也提供了重要的补充信息。
GO过程、通路与蛋白质互作及进化时间的相关性
我们对GO过程和Reactome通路特征进行了分析。发现区分孟德尔基因能力强的GO过程/通路(高z分数),其对应的基因往往具有更多的蛋白质-蛋白质相互作用(PPI)且进化上更古老。GO过程的z分数与最大PPI数呈正相关(皮尔逊相关系数0.421),通路的z分数与最大PPI数亦呈正相关(0.382)。这表明参与更多PPI的基因更可能是孟德尔基因。
同时,GO过程/通路的z分数与其最低共同祖先(LCA)进化时间尺度呈负相关(相关系数分别为-0.215和-0.153)。这意味着孟德尔基因在进化上更为古老,这符合直觉:古老基因及其功能对生命至关重要,其功能破坏会对生物体产生重大表型影响。
表5和表6列出了z分数最高的前20个GO过程和Reactome通路。排在前列的GO过程多与基因表达调控相关,如“RNA聚合酶II介导的转录正调控”、“DNA模板转录的正调控”。而排名前列的通路则包括“代谢”、“信号转导”和“免疫系统”等生命核心过程。
新孟德尔基因预测的文献证据
我们将MENDELSEEK应用于整个17,858个人类基因集,以高于0.7的精确度预测了1,277个新的孟德尔基因候选者(未在OMIM数据库中)。为了验证这些预测,我们使用文献挖掘工具Valsci进行查证。在随机选取的已知孟德尔基因和未知基因对照中,Valsci显示出较高的精确度。在预测的1,277个新基因中,有108个得到了文献支持(Valsci评分≥3),这与随机预期相比,富集因子达到1.9。若检查排名前1%的预测,富集因子更高(达到2.3-2.7)。例如,预测基因ITGB1(整合素β1)与肾脏疾病相关,ND6基因与线粒体疾病相关,RIMS1基因与视锥视杆细胞营养不良相关,SORL1基因与家族性痴呆相关。
此外,将这1,277个预测基因与DECIPHER数据库(排除OMIM已有基因)比对,发现有465个重叠,结合Valsci验证结果,总计有530个基因(占41.5%)得到了数据库或文献支持。这显著提高了已验证预测基因的比例。
孟德尔基因与复杂疾病驱动基因的差异
我们比较了仅驱动孟德尔疾病的基因、同时驱动孟德尔与复杂疾病的基因以及仅驱动复杂疾病的基因三者之间的差异。分析发现,同时驱动两类疾病的基因,其PPI数量、涉及的通路和GO过程数量均显著多于仅驱动单一类型疾病的基因。仅驱动复杂疾病的基因在这些指标上则要低得多。此外,仅驱动孟德尔疾病和同时驱动两类疾病的基因,其RNA表达水平没有显著差异,但两者都显著高于仅驱动复杂疾病的基因。同时驱动两类疾病基因的平均LCA值高于仅驱动孟德尔疾病的基因,暗示它们出现时间可能稍晚,可能由孟德尔基因演化而来,通过获得额外的PPI、通路和GO过程而参与复杂疾病,但未改变表达水平。而仅驱动复杂疾病的基因则在各个方面都表现出显著差异,表明其进化路径可能独立。
讨论
本研究证明,MENDELSEEK在区分孟德尔基因与非孟德尔基因方面,显著优于包括当前最先进的AlphaMissense在内的其他方法。消融分析表明,反映残基变异的ENTPRISE+ENTPRISE-X评分对性能提升贡献最大(提高AUPR约14%)。分析还揭示,孟德尔基因往往参与更多的蛋白质互作,且在进化上更为古老。文献挖掘支持了MENDELSEEK部分新基因预测的有效性,其余预测则为实验验证提供了高价值靶点。
未来的研究方向包括扩展MENDELSEEK的功能,不仅预测一个基因是否为孟德尔基因,还要预测其相关的表型、症状和遗传模式(常染色体显性或隐性)。一个主要的挑战在于许多表型的训练样本不足。一个潜在的解决方案是将表型分解为症状集,然后针对每个症状进行学习。此外,理解遗传修饰因子在孟德尔疾病表型中的作用也是一个重要挑战。
孟德尔基因的单基因致病模式,为理解基因型与表型之间的联系提供了宝贵窗口。开发能够将孟德尔基因映射到其表型的工具,不仅将推动对罕见病的理解,其产生的算法和原理也有望应用于更复杂的非孟德尔疾病研究。