基于纳米粒子富集质谱的蛋白质组全基因组关联研究揭示pQTLs的表位效应与蛋白质异构体复杂性

时间:2025年11月28日
来源:Nature Genetics

编辑推荐:

本研究针对亲和蛋白质组学平台在pQTL研究中存在的表位效应和蛋白质异构体检测局限,采用Seer Proteograph纳米粒子富集质谱技术,对1,260名美国人群和325名亚洲人群血浆样本进行蛋白质组全基因组关联分析。研究鉴定出364个pQTLs(其中102个成功重复),发现30%的亲和平台报告的pQTLs可能受表位效应干扰。该研究为精准pQTL定位提供了新方法,对药物靶点发现具有重要意义。

广告
   X   

在精准医疗时代,蛋白质作为生命活动的直接执行者,其数量变化与疾病发生发展密切相关。蛋白质定量性状位点(pQTL)研究通过揭示遗传变异与蛋白质水平的关联,为理解疾病机制和发现药物靶点提供了重要线索。然而,当前大多数pQTL研究依赖于亲和蛋白质组学平台(如SOMAscan和Olink),这些方法虽然通量高,但存在明显局限:它们仅提供有限的目标蛋白质异构体信息,且可能受表位结合区域的遗传变异影响,导致检测结果不能真实反映蛋白质丰度变化。
为了突破这些技术瓶颈,由Karsten Suhre和Jessica A. Lasky-Su领导的研究团队在《Nature Genetics》上发表了一项创新性研究。他们采用基于质谱(MS)的Seer Proteograph纳米粒子富集平台,对来自两个不同人群队列的血浆样本进行了全面的蛋白质组全基因组关联研究(GWAS)。这项研究不仅发现了新的pQTLs,还系统评估了先前亲和蛋白质组学研究报告的pQTLs,揭示了表位效应对pQTL研究结果的潜在影响。
研究团队开发了一种创新的肽水平分析方法——MS-based peptide association(MSPA)评分,用于区分真正的蛋白质丰度pQTLs和由表位效应造成的假阳性信号。通过这种方法,他们能够更精确地识别那些确实由遗传变异引起的蛋白质丰度变化,而不是单纯由表位结合差异造成的测量偏差。
研究采用了几个关键技术方法:首先,利用Seer Proteograph纳米粒子富集技术结合Bruker timsTOF Pro2质谱仪的数据非依赖采集(DIA)协议,对血浆样本进行深度蛋白质组分析;其次,对1,260名美国多背景人群(Tarkin队列)和325名主要阿拉伯、印度和菲律宾背景人群(QMDiab队列)的血浆样本进行蛋白质定量;最后,应用考虑蛋白质改变变异(PAV)的定制化蛋白质序列数据库,确保准确识别和定量蛋白质异构体。

蛋白质QTLs的鉴定

在发现阶段(Tarkin队列),研究团队在1,980个定量蛋白质中鉴定出364个独立的蛋白质关联达到Bonferroni显著性水平(P<5×10-8),涉及295个遗传位点和274个不同蛋白质。通过严格的重复标准,102个pQTLs(28.0%)在亚洲人群中成功重复,所有重复的pQTLs均表现出一致的效应方向。
研究观察到,未能重复的pQTLs主要原因是重复队列样本量有限:在70个具有80%重复效能的pQTLs中,58个(82.9%)成功重复,表明大多数未重复的pQTLs可能在更大规模研究中是可重复的。此外,14个未重复的pQTLs在两个队列中表现出显著但不同的遗传信号,如intelectin-1(ITLN1)pQTL,这可能反映了人群特异性遗传背景的影响。

新pQTLs的生物医学意义

在102个重复的pQTLs中,35个(34.3%)是全新的发现。这些新pQTLs与多个生物医学相关位点重叠,包括与低密度脂蛋白(LDL)胆固醇水平相关的COLEC11位点的ANGPTL6 trans-pQTL、与年龄相关性黄斑变性和IgA肾病相关的CFH位点的BRE trans-pQTL,以及与炎症性肠病相关的半乳糖神经酰胺酶cis-pQTL等。这些发现为这些疾病的候选药物靶点提供了新线索。
研究还发现了对亲和研究结果的补充性发现,如同一位点的FUCA2 cis-pQTL,这可以解释Olink平台观察到的FUCA1 trans关联。有趣的是,SOMAscan在该位点最强的关联是与甘露糖苷酶MAN2B2。FUCA1、FUCA2和MAN2B2都是参与糖蛋白和糖脂溶酶体降解的酶,这些来自不同蛋白质组学平台的遗传信号展示了pQTLs在药物靶点发现过程中的假设生成价值。

正交平台报告的pQTLs分析

研究团队进一步评估了先前亲和蛋白质组学研究报告的pQTLs在质谱技术中的可重复性,以及这些pQTLs是否受表位效应影响。他们分析了deCODE SOMAscan研究的319个cis-pQTLs和UKB-PPP Olink研究的392个cis-pQTLs,开发了MSPA评分来代表肽水平对真实蛋白质丰度pQTL的支持程度。
研究发现,deCODE的52个(16.3%)和UKB-PPP的62个(15.8%)pQTLs具有MSPA评分≥0.8。在具有足够重复效能的pQTLs中,deCODE的39个(32.5%)和UKB-PPP的49个(29.3%)pQTLs成功重复且MSPA评分>0.8,而deCODE的36个(30.0%)和UKB-PPP的55个(32.9%)pQTLs未重复且MSPA评分<0.2。研究还确认了先前报告的GDF15 pQTL的表位效应,该pQTL在本研究中显示MSPA评分为0。

与蛋白质异构体的遗传关联

肽水平QTLs的方向性冲突可能提示不同异构体的共存。研究在deCODE中鉴定出10例,在UKB-PPP中鉴定出8例此类情况。一个典型例子是变异rs2052534,它是丝氨酸肽酶抑制剂Kazal型5(SPINK5)的pQTL,由UKB-PPP、deCODE以及本研究在连锁不平衡(LD)变异中报告。
SPINK5(也称为淋巴上皮Kazal型相关抑制剂或LEKTI)在皮肤和毛发形态发生以及黏膜上皮保护中发挥作用。SPINK5突变与以鱼鳞病为特征的皮肤疾病(如Netherton综合征)以及毛发异常相关。该pQTL的MSPA评分为0.5,表明部分而非所有分析的肽关联提供支持。研究发现三个不同LEKTI异构体的转录本,对应三个UniProt条目:包含1,064个氨基酸的典型形式Q9NQ38、在位置915含有30个氨基酸插入的异构体Q9NQ38-3,以及在位置913截短的异构体Q9NQ38-2。这些观察可以通过影响Lys913附近剪接的遗传变异来合理解释,从而增加Q9NQ38-3异构体的生成同时减少Q9NQ38的生成。

MSPA评分的有效性

为了进一步验证MSPA评分作为遗传关联检测或未检测的代理指标及其识别真实阳性蛋白质丰度pQTLs的潜力,研究团队选择了所有由deCODE和UKB-PPP在同一遗传变异上报告的pQTLs,且在Tarkin和QMDiab中也有匹配的蛋白质和遗传数据。这组46个pQTLs作为比较效应大小和方向性的参考集,无需依赖代理SNPs。
研究发现,该参考集中排名靠前的pQTLs几乎都具有高MSPA评分,表明这些pQTLs可能未受表位效应影响。Olink和SOMAscan平台之间效应大小的近乎完美相关性进一步支持了这一推断。考虑到这些pQTLs是基于在两个亲和平台中的检测而预先选择的,一个pQTL被两个亲和平台检测到似乎是真实蛋白质丰度QTL且不存在表位效应的强指标。
研究还调查了是否可以为图3b和f中红色标记的pQTLs鉴定候选表位改变变异。查询Ensembl数据库发现,对于36个SOMAscan pQTLs中的22个和55个Olink pQTLs中的29个,已报告此类变异(要求LD r2>0.8)。主要pQTL SNP或完全LD(r2=1)的SNP在51例中的除5例外均明显是表位改变的。

研究结论与意义

综上所述,该分析表明超过30%的亲和蛋白质组学pQTLs可通过质谱重复,而另外30%无法重复可能归因于表位效应。其余可能是遗传变异干扰亲和结合,但同时可能通过其他生物学途径影响蛋白质丰度的情况。
这项研究提出了使用基于质谱的Seer Proteograph平台的全面GWAS,并伴有完整重复,采用了考虑分析肽内遗传变异的蛋白质组学数据分析方案。该方法不仅发现了亲和蛋白质组学平台先前未评估的蛋白质上的新pQTLs,还重新检查了先前报告的亲和pQTLs是否存在因表位改变变异导致的潜在混淆。
研究团队估计,他们评估的具有足够效能的pQTLs中30%可能受此类效应影响,无论亲和平台如何。然而,鉴于统计效能的限制将评估仅限于最强的亲和pQTLs——这些pQTLs由于确认偏倚最可能富含表位效应——这一估计应视为上限,靶向不同异构体的亲和结合剂也可能解释某些情况。
使用考虑PAVs的蛋白质组FASTA库是本研究的核心。没有这种方法,将会检测到大量假阳性pQTLs。传统的自下而上蛋白质组学数据分析流程通常依赖有限的肽库进行蛋白质定量,其中单个具有大效应的肽的存在可能扭曲整体定量。包含此类PAV包含肽在蛋白质定量中将导致等同于表位效应——即不能完全反映基因型依赖性蛋白质丰度的pQTL信号。
尽管质谱蛋白质组学不偏向任何特定预设蛋白质组,但它偏向于所用数据库中存在的蛋白质异构体、使用五种纳米粒子之一富集的蛋白质以及可通过应用的质谱蛋白质组学方法裂解成检测到的肽的蛋白质,如高丰度蛋白质。不同技术覆盖的蛋白质组也存在一些差异。相对于各自的面板大小,Seer平台覆盖最大比例的细胞质蛋白质,而Olink在膜蛋白质中领先。SOMAscan具有最低比例的细胞外蛋白质,但大多数蛋白质源自细胞核。
总之,研究人员通过验证可能由表位效应驱动的关联并显著扩展pQTL研究可及的蛋白质面板,证明了质谱蛋白质组学与亲和方法的互补性。他们报告了具有生物医学意义的新pQTLs,并在肽水平提供了关于先前报告pQTLs遗传架构的重要见解。研究还表明,当存在多种异构体时,基于质谱和基于亲和的方法在解释pQTLs方面是互补的,因为亲和方法在折叠蛋白质水平区分蛋白质,而质谱方法在更高"分辨率"的肽水平工作,将多个肽映射到蛋白质的不同部分。

生物通微信公众号
微信
新浪微博


生物通 版权所有