脂蛋白(a) [Lp(a)]是一种常见、独立且因果性的心血管疾病(CVD)风险因子,其致病性与剂量呈正相关。个体Lp(a)浓度差异巨大,超过90%的变异由LPA基因位点控制,使其成为一个高度寡基因甚至单基因性状。LPA基因编码载脂蛋白(a) [apo(a)],该基因由纤溶酶原基因(PLG)复制和重塑演化而来。其结构包含10个高度相似的血浆酶原Kringle IV结构域(KIV-1至KIV-10)、一个KV结构域和一个无活性的蛋白酶结构域。其中,KIV-2结构域存在至少三种亚型(KIV-2A、KIV-2B、KIV-2C),并具有高度拷贝数可变性,每个等位基因可有1至约40个拷贝,导致产生约40种蛋白质亚型。KIV-2拷贝数通过逆相关于内质网转运时间,解释了约30-60%的Lp(a)变异。通常,大多数循环中的Lp(a)源自KIV-2拷贝数较少的apo(a)亚型,但亚型大小与血浆浓度的关系复杂。低分子量(LMW)亚型(≤22个KIV单元)的中位Lp(a)水平比更大亚型高5至10倍,然而相同大小的亚型个体间Lp(a)水平差异仍然巨大。这种显著的变异由遗传决定,但由于LPA基因结构的复杂性和错综复杂的连锁不平衡模式,其因果变异长期难以捉摸。近年来,测序和生物信息学的进步揭示了众多隐藏在KIV-2区域的功能性单核苷酸多态性(SNP),解释了相同大小亚型中大部分的Lp(a)变异。
NEW TECHNOLOGIES: LIPIDOLOGY MEETS GENOMICS
传统的短读长测序(NGS)难以解析像LPA这样的基因组区域,KIV-2区域的复杂变异模式也逃脱了当前基因组数据标准,使得LPA成为基因组学研究的前沿位点。长读长测序(LRS)技术能够产生跨越数十甚至数百千碱基的读长,改变了基因组学格局,并促成了第一个完整人类基因组参考序列(T2T-CHM13)的创建。这个新参考序列包含一个具有23个KIV-2单元的LPA基因,而之前的hg38参考序列只有6个,并且表明KIV-2B单元聚集在KIV-2阵列的末端,而非像hg38中那样散布。未来数百个高质量长读长基因组有望提供更多关于LPA结构和变异性的见解。例如,一项研究报道其93%的LRS基因组组装在LPA区域实现了完全连续性。另一个预印本描述了一个近乎无错误的二倍体基准基因组,其两个LPA等位基因可能实现了无缺口、完全解析的组装。这些新的参考数据集使得能够开发新的分析工具来处理现有数据,例如变异识别工具Locityper,它通过选择参考数据中能最好解释观测到的测序读长的单倍型对,从任何测序技术中确定KIV-2 SNP单倍型。随着LRS参考数据集规模和人群多样性的增长,此类工具有望增强现有短读长数据集的效用。值得注意的是,即使是LRS读长也很少在高覆盖度下跨越整个KIV-2区域,特别是在大等位基因中,因此完全重建仍然需要计算密集的从头组装。
为了进行更有针对性的分析,研究人员最近引入了一种可扩展的直接KIV-2测序和单倍型分型方法,该方法将长读长纳米孔测序与基于分子条形码的单分子水平错误校正(UMI-ONT-Seq)相结合。这为每个KIV-2单元产生了高度准确的共有序列,例如证实了两个主要的欧洲Lp(a)降低变异KIV-2 4925G>A和KIV-2 4733G>A发生在不同的单倍型上。通过计数独特的单倍型并校正覆盖度,UMI-ONT-Seq还能以与数字PCR相当的准确度估算总KIV-2拷贝数(CN),其性能已经优于通过qPCR进行的KIV-2 CN定量。虽然仅评估总KIV-2拷贝数存在重要局限,但大型生物库已使用基于测序的KIV-2拷贝数定量作为蛋白质印迹法进行apo(a)大小分型的替代方法,以其统计效能弥补其不精确性。通常,基于测序的KIV-2拷贝数定量解释的Lp(a)变异比例与通过qPCR进行的KIV-2拷贝数评估相似(R2≈ 20–30%),但显示出更好的亲子一致性。
EXISTING DATA, NEW TRICKS: UNLOCKING LPA FROM SHORT-READ SEQUENCING DATA
由于大多数大型生物库仅提供短读长数据,多个研究小组试图通过开发新的分析方法和重新分析现有的NGS数据来提高这些数据对LPA遗传学的效用。最近一项研究发现,两个内含子KIV-2 SNP在存在时,会出现在基因等位基因的每个重复单元中。在杂合子个体中(约占40-52%,取决于祖先),并在对二倍体基因组区域进行适当归一化后,这些SNP允许以显著的准确度确定每个等位基因的KIV-2拷贝数,因为两个SNP等位基因上的测序覆盖度反映了每个等位基因上的KIV-2单元数量。这两个SNP出现在1000基因组项目的所有五个主要祖先群体中,表明它们可能追溯到非常古老的LPA等位基因,并且KIV-2内的重组很少见。该方法成功复制了已知的祖先特异性等位基因大小分布,复制了已知的SNP-亚型关联,并且60个三重奏中的等位基因大小估计与Bionano光学图谱数据强烈相关(R2> 0.997),支持了该方法的有效性。这种方法最近也被应用于GENESIS-HD研究的8351个短读长基因组,再次复制了已知的SNP-亚型关联和复杂的连锁模式。不幸的是,该算法已被集成到Illumina的商业平台中并作为知识产权提交,限制了其可及性。值得注意的是,其他基于测序覆盖度的KIV-2拷贝数识别工具至少在总KIV-2拷贝数确定方面表现同样出色。
从全基因组或全外显子组数据中准确检测KIV-2中的变异很复杂,因为kringle结构域之间的高度同源性会导致错误比对和假阳性变异识别。最近有研究观察到,最佳读长比对策略在很大程度上取决于被分析个体基因组中KIV-2B单元的存在,并发现了一个位于KIV-2外的SNP可以预测KIV-2B的存在。基于此观察,研究人员开发了一个可扩展的开源工具,该工具选择性地重新映射短读长KIV-2读长数据,根据个体基因型动态选择最佳比对策略。这将KIV-2区域的变异识别准确度提高了一倍,并在约19.9万个英国生物样本库样本中检测到700多个高置信度的KIV-2突变。然而,这种KIV-2B标签SNP方法目前仅适用于欧洲人群,凸显了获取其他祖先群体更多数据的迫切需求。
GENETIC EFFECTS ACROSS ANCESTRIES AND THEIR IMPACT ON GENETIC RISKS SCORES
尽管Lp(a)升高在不同祖先群体中带来相似的心血管疾病风险,但中位水平差异很大,从东亚人和芬兰人的约6 mg/dl到某些非洲人群的约40–50 mg/dl,反映了性状分布的显著差异。南亚人表现出仅次于非洲人的第二高Lp(a)中位水平,全球约三分之一Lp(a) > 50 mg/dl的个体是南亚裔。南亚人Lp(a)升高的原因尚不清楚,因为未一致观察到低分子量亚型频率更高,表明存在人群特异性的调控效应,类似于非洲人中调控变体rs1800769频率更高的情况。相反,较大亚型的较高频率解释了中国人较低的水平。
SNP模式和SNP-亚型关联在不同祖先群体间差异显著。例如,已发现rs3798220在南亚人或中国人中不标记短apo(a)亚型或高Lp(a)。相反,rs10455872在中东地区也与心血管疾病相关,但在中国人中不存在,在南亚人中非常罕见。
最近一项针对超过1.8万名中国人的全基因组关联研究(GWAS)及其在英国生物样本库的验证,为了解东亚Lp(a)遗传学提供了非常有趣的见解。两个中国先导变异(rs192717255, rs73596816)分别解释了11.3%和10.4%的Lp(a)变异,这远低于rs10455872单独在欧洲人中解释的变异(24–29%)或rs10455872和rs3798220共同解释的变异(36%)。与此一致,源自中国人的28个SNP评分在英国生物样本库中仅解释了10%的变异(而可比欧洲SNP评分可达约60%),并且在中国SNP中加入欧洲SNP评分,反之亦然,并不能改善另一祖先群体的解释方差。这凸显了中国人和欧洲人之间Lp(a)性状遗传结构的显著差异,也可能暗示中国人存在更高的等位基因异质性。然而,作者也复制了先前在欧洲人中观察到的APOE与Lp(a)的关联,证实了尽管遗传模式不同,但仍存在共享的生物学机制。
这些强烈的祖先特异性成分限制了基于SNP的Lp(a)遗传风险评分(GRS)在不同人群间的可转移性(与KIV-2拷贝数效应相反)。正如一项研究所观察到的,最佳的Lp(a) GRS在英国人中解释了66%的变异,但在伊朗人中仅为40%,在加勒比人中为15%,在尼日利亚人中为0%。由于几乎不了解针对非欧洲群体的任何高影响力LPA变异,迫切需要更多样化的测序工作。
PROGRESSES IN IDENTIFYING REGULATORS OUTSIDE OF THE LPA GENE
LPA之外的调控因子作用,尤其是Lp(a)受体的身份,在很大程度上仍然未知,尚未鉴定出单一的主要受体。低密度脂蛋白受体(LDLR)是主要候选者,并已在体外显示可结合Lp(a),但体内证据不一致。一些作者提出,LDLR可能仅在受体表达超生理水平和LDL-C特别低的情况下(例如他汀类药物治疗加PCSK9抑制所达到的条件)才有显著贡献。
最近有人提出Lp(a)通过apo(a)部分与纤溶酶原受体相互作用介导的大胞饮作用内化,但在最近的后续工作中,大胞饮抑制剂丙咪嗪实际上刺激了Lp(a)内化,这是由于纤溶酶原受体PlgRKT上调以及随后Lp(a)锚定到细胞膜上,以便进行S100A10-和膜联蛋白A2诱导的大胞饮作用。然而,其他人指出肝细胞并不依赖于大胞饮作用,并暗示真正的Lp(a)受体仍未确定。为了以一种不可知论的方式扩大寻找Lp(a)受体的规模,最近一项研究在HuH7细胞中进行了一项全基因组CRISPR敲除筛选,探究超过1.9万个基因对Lp(a)摄取的影响。尽管这种方法固有地受到所用细胞系特定基因表达模式的限制,但值得注意的是,它仅检索到LDLR和MYLIP(LDLR的负调控因子)作为Lp(a)摄取的显著正向和负向决定因素。即使放宽显著性阈值,也只发现了进一步的LDLR调控因子,这与一项大型GWAS的结果一致,该研究在所有提出的受体候选基因中,仅在LDLR中发现了一个关联信号,但其对Lp(a)变异的影响仅为rs14055872的约1%。毫无疑问,Lp(a)代谢仍然是一个谜。
最近有学者指出,此类努力假定存在一个类似于LDL-LDLR系统的离散Lp(a)受体。鉴于Lp(a)最近的进化起源,可能没有共同演化出特异性受体,Lp(a)摄取可能涉及多个具有偶然亲和力的受体。这与有些不确定的生化学数据一致,这些数据在不同程度上暗示了许多候选受体和机制。这将使得识别“Lp(a)受体”变得困难,甚至可能质疑其作为药物靶点的适用性。
CONCLUSION
Lp(a)存在的根本原因仍然是个谜,甚至有人将LPA基因的突变模式与一个被转录的假基因相比,质疑它是否真的具有生理功能。即将到来的技术进步有望为LPA的变异模式和Lp(a)的遗传结构提供前所未有的见解。将这些完整的遗传数据置于正式的进化框架中,可能最终有助于回答Lp(a)究竟是一个真正的适应性性状,还是仅仅是一个进化副产品,这对整个领域具有重要意义。这可能让我们离解开Lp(a)提出的众多谜团之一更近一步。