在人类基因组中,有一类特殊的DNA序列称为短串联重复(Short Tandem Repeats, STRs),它们由几个碱基对的单元首尾相连重复多次而成。这些序列看似简单,却与超过70种神经系统疾病密切相关,例如亨廷顿病(Huntington’s disease, HD)、肌萎缩侧索硬化(Amyotrophic Lateral Sclerosis, ALS,文中常以Motor Neuron Disease, MND代指)、脊髓小脑性共济失调(Spinocerebellar ataxias, SCAs)和强直性肌营养不良(Myotonic dystrophies, DM)等。这些疾病统称为重复扩增疾病,通常具有神经退行性特征,给患者家庭和社会带来沉重负担。然而,长期以来,由于这些疾病相对罕见,且准确测定STR重复长度的技术(如PCR)成本高、通量低,人们对这些致病性重复扩增在普通人群中的真实携带频率、在不同种族间的分布差异,以及它们在疾病临床表现出现前如何影响人体(例如是否已导致大脑结构的早期改变)知之甚少。这种认知空白限制了我们准确评估人群疾病风险、理解疾病自然史以及开发早期干预策略的能力。为了填补这一空白,一项发表在《自然》(Nature)杂志上的大规模研究应运而生。
为了回答上述问题,研究人员整合了来自七个大型队列的超过102万份样本的全外显子组测序(Whole-Exome Sequencing, WES)数据,以及其中来自英国生物样本库(UK Biobank, UKB)的约46.5万份样本的全基因组测序(Whole-Genome Sequencing, WGS)数据。他们建立了一套分析流程,主要运用GangSTR和ExpansionHunter这两种生物信息学工具,从测序数据中准确推断出37个与疾病相关的STR位点的重复长度。通过严格的质控,研究人员获得了可靠的基因分型数据。在此基础上,他们系统计算了每个位点致病性和前突变(premutation,或称减效穿透)范围扩增的携带频率,并比较了其在欧洲、非洲、东亚、南亚和美洲混合( Hispanic/Latin American)这五个人群中的分布差异。此外,研究还进行了大规模的表型组关联分析(PheWAS),将重复长度与7671种临床诊断(基于ICD-10编码)相关联,评估了扩增与疾病风险的关系。更进一步,研究者利用UKB中丰富的磁共振成像(MRI)数据和血浆蛋白质组数据,分析了致病性重复扩增携带者(在尚未被诊断出相应疾病的情况下)其特定脑区体积和神经丝轻链(Neurofilament Light Chain, NfL)水平的变化,旨在寻找疾病前期的生物标志物。
重复扩增在疾病相关位点中的情况
研究人员设计了一套从大型电子健康记录队列中调用和分析STR的工作流程。他们首先从102万份WES样本中,使用GangSTR对42个疾病相关位点进行了重复序列调用,并辅以UKB的WGS数据(使用ExpansionHunter调用)进行补充和验证。经过严格的质量控制,最终确定了37个具有可靠数据的独特位点用于后续分析。研究比较了WES和WGS两种数据来源在14个重叠位点上的结果,显示两者相关性良好,验证了数据可靠性。
致病性重复扩增的流行率
研究绘制了37个位点的重复长度分布图,并计算了每个位点中携带重复次数超过文献报道的前突变和致病阈值个体的频率。一个关键发现是,对于大多数位点(如HTT、CACNA1A、C9orf72、DMPK),致病性扩增的携带频率高于其对应疾病的已知患病率。例如,HTT(亨廷顿病相关基因)致病性扩增(≥40次CAG重复)的携带频率约为0.016%-0.053%(即每10万人中16-53人),而亨廷顿病的患病率估计仅为每10万人3-7人。这种“携带者多于患者”的现象提示,这些重复扩增的外显率(即携带者最终发病的比例)可能低于之前的预期,或者存在诊断不足、发病年龄晚等因素。研究还通过PCR验证了部分HTT位点的WES检测结果,证实了其可靠性,但指出GangSTR倾向于轻微高估重复长度。
祖先群体特异性的流行率差异
通过将样本划分为五个遗传祖先群体,研究发现致病性和前突变扩增的频率存在显著的群体差异。例如,AR(雄激素受体)和ATXN2(共济失调蛋白2)基因的致病性扩增在美洲混合人群(AMR)中显著富集;AR和CACNA1A(钙离子通道亚基)的致病性扩增在东亚人群(EAS)中富集;而C9orf72、FXN(frataxin,弗里德赖希共济失调相关)和TCF4(转录因子4)的扩增则在欧洲人群(EUR)中更常见。这些差异与已知的疾病流行病学数据相符,例如脊髓小脑性共济失调6型(SCA6,由CACNA1A引起)在日本的发病率较高。此外,研究还发现CNBP和JPH3基因的前突变扩增在非洲人群(AFR)中富集,这为这些基因相关疾病(如DM2和HDL2)在非洲人群中的潜在风险提供了新线索。
疾病风险随重复长度增加而升高
研究人员进行了表型组关联分析,以评估不同重复长度阈值与疾病风险的关系。他们设置了五个阈值:文献中的前突变和致病阈值,以及根据重复长度分布得出的前1%、0.1%和0.01%分位数。分析成功复现了多个已知的强关联,例如DMPK扩增与强直性肌营养不良、HTT扩增与亨廷顿病、C9orf72扩增与运动神经元病(MND)的关联。更重要的是,对于HTT、DMPK和C9orf72这三个位点,研究观察到一个明确的模式:疾病风险随着重复长度的增加而逐渐升高。例如,对于HTT,位于前1%(约32次重复)到前0.1%(约37-38次重复)区间的扩增携带者,其患亨廷顿病的风险已显著增加(比值比OR=62),而位于前0.01%(约41-44次重复)及以上的携带者风险极高(OR=2570)。这表明,即使是低于传统致病阈值的较长重复,也可能带来一定的疾病风险,且外显率是渐进的。研究还计算了不同年龄区间的外显率,发现其随年龄和重复长度增加而上升。
脑容量与扩增相关
这是本研究最具创新性的发现之一。研究利用UKB的脑部MRI数据,分析了尚未被诊断出相应疾病的致病性重复扩增携带者,其特定脑区体积是否已发生变化。结果发现,即使在疾病确诊前,扩增携带者已表现出与疾病病理特征高度吻合的特定脑区萎缩:
- 1.
HTT扩增携带者:其壳核(putamen)和尾状核(caudate)体积显著减小。与重复次数正常(≤26次)的对照组相比,致病性扩增(≥40次)携带者的壳核体积平均减少了22.1%,尾状核体积减少了20.6%。
- 2.
CACNA1A扩增携带者:其小脑灰质体积显著减小,平均减少了24.6%。
- 3.
C9orf72扩增携带者:其丘脑体积显著减小,平均减少了9%。
这些脑区正是相应疾病(HD、SCA6、ALS/FTD)早期受累的典型区域。此外,蛋白质组学分析发现,HTT致病性扩增携带者的血浆神经丝轻链(NfL)水平是对照组的1.9倍,C9orf72致病性扩增携带者的NfL水平也有轻度但显著的升高。NfL是神经元损伤的标志物。这些结果表明,脑结构萎缩和轴突损伤的生物标志物变化,在重复扩增相关疾病的临床症状出现之前就已经发生。
结论与讨论
本研究通过对超百万人群的遗传数据进行分析,首次在如此宏大的尺度上描绘了多种神经系统疾病相关短串联重复扩增的人群图谱。其主要结论和重要意义体现在以下几个方面:
首先,研究量化了致病性STR扩增在普通人群中的真实负担,发现其频率普遍高于对应疾病的临床患病率。这挑战了基于家族性研究得出的高外显率假设,提示在普通人群中,这些扩增可能具有不完全外显、晚发或受遗传/环境修饰因子影响等特点。这为更精准的遗传咨询和风险评估提供了人群基线数据。
其次,研究系统揭示了STR扩增频率的祖先群体差异性,其中许多差异与已知的疾病流行病学分布相符,证实了数据的可靠性。新发现的在某些群体中的富集(如CNBP、JPH3在非洲人群中的前突变富集)提示了未来疾病研究和临床关注的新方向。
再者,研究明确了疾病风险与重复长度之间的“剂量效应”关系,即风险随重复次数增加而渐进式升高,而非简单的“有或无”的二元关系。这对理解疾病的连续谱和定义中间状态的临床意义至关重要。
最引人注目的是,研究发现致病性重复扩增在个体尚未出现临床症状时,就已导致特定脑区的显著萎缩和血液中神经损伤标志物(NfL)的升高。这证明,通过基因分型可以在疾病的“临床前阶段”识别出高危个体。这一发现具有深远的转化医学价值:它为早期干预和治疗时间窗的大幅前移提供了可能性。如果能在脑萎缩和神经元损伤的早期进行干预,或许能延缓甚至阻止疾病的全面爆发。
当然,研究也存在局限,例如短读长测序技术对超长重复和复杂重复基序的检测仍有挑战,部分关联可能受到诊断准确性、样本异质性等因素影响。未来的研究需要结合长读长测序等技术进行验证,并深入探索影响外显率和发病年龄的遗传与环境修饰因子。
总而言之,这项研究不仅极大地丰富了我们对重复扩增疾病群体遗传学的认识,更重要的是,它架起了一座从遗传风险到早期病理改变的桥梁,为将这些毁灭性神经退行性疾病的防治关口大幅前移带来了希望。