中东近完整基因组解析自合性与疾病变异发现:填补人群特异性参考空白

时间:2025年5月6日
来源:Nature Genetics

编辑推荐:

本研究针对中东(ME)人群基因组代表性不足的问题,通过长读长测序技术对6个神经发育障碍家系(n=18)进行近完整基因组组装,揭示了42.2 Mb新序列、75个新HLA/KIR等位基因及显著自合性(ROH)特征。研究采用组装优先策略鉴定出23个致病变异,证明ME特异性参考基因组可显著提升变异检测精度,为中东人群遗传病研究提供关键资源。

广告
   X   

基因组学的"中东拼图":长读长测序如何破解遗传病诊断困局

在人类基因组计划完成二十余年后,全球基因组多样性地图仍存在显著空白——中东(ME)人群的遗传特征长期缺乏高质量参考数据。这个横跨亚非欧大陆的群体不仅具有独特的种群隔离和高近交率,其神经发育障碍发病率更是欧洲人群的2-3倍。传统短读长测序在复杂区域(如HLA基因簇)的"盲区",加上GRCh38参考基因组对ME人群的匹配度不足,导致约40%的中东患者无法获得明确分子诊断。

为破解这一困局,Sidra Medicine联合华盛顿大学的研究团队在《Nature Genetics》发表突破性成果。研究者选取6个具有苏丹、约旦、叙利亚、卡塔尔和阿富汗血统的神经发育障碍家系(n=18),采用PacBio HiFi长读长测序(平均读长19 kb,覆盖度38×)结合Illumina短读长数据,通过trio-Hifiasm流程完成目前最完整的中东二倍体基因组组装。

关键技术包括:(1)基于家系的长读长组装策略,利用父母短读长数据校正子代单倍型;(2)以CHM13-T2T为基准评估新序列;(3)免疫多态性基因(如HLA-DQB2)的等位基因注释;(4)组装优先变异检测(PAV)与传统读长比对(DeepVariant)的并行分析;(5)针对27个ME样本的参考基因组匹配度测试。

遗传背景解析
祖先分析显示苏丹家系保留>99%非洲成分,而卡塔尔家系呈现显著的半岛阿拉伯(PAR)特征(63%)。约旦父亲携带目前报道最长的纯合片段(ROH),覆盖6号染色体30%区域(52.9 Mb含794个基因),挑战了传统"致病性ROH"的阈值定义。

基因组新大陆
相比CHM13参考基因组,ME组装揭示42.2 Mb新序列,其中13.8%影响已知基因。在高度重复的着丝粒区域发现10-40%的序列变异,而12.6%新序列位于内含子/UTR区。最引人注目的是鉴定出75个新HLA/KIR等位基因,包括11个存在CDS突变的独特等位,为理解ME人群免疫特征提供分子基础。

变异检测革命
组装优先策略比传统方法多检出50%的候选致病变异。在已排除诊断的卡塔尔家系中,发现KIF1A基因内含子234 bp缺失可能通过影响突触小泡运输导致小脑萎缩。值得注意的是,约50%的候选变异(如GABRG1基因2.2 kb缺失)仅能通过组装方法检出,凸显参考基因组匹配度对变异检测的关键影响。

临床转化价值
构建的ME参考基因组(MER1)使短读长数据的未比对率降低22%,变异假阳性减少3.6倍。这一成果直接促成两项临床转化:(1)修订ACMG评分中7个VUS(如SOX5变异)的临床意义;(2)为GABRG1基因与癫痫性脑病的关联提供"限定性"到"明确性"证据升级的支持数据。

这项研究标志着群体基因组学进入"精准参考"时代。通过揭示ME人群特有的基因组结构、变异谱系和致病机制,不仅填补了人类遗传多样性地图的关键缺口,更证明长读长组装在复杂疾病诊断中的不可替代性。随着Qatar Genome Program等计划的推进,未来ME特异性泛基因组将进一步提升罕见病诊断率,并为理解近交群体中"健康纯合"现象提供新视角。研究揭示的基因组"暗物质"区域(如着丝粒新序列)及其与神经发育的潜在关联,将成为后续功能基因组学研究的重点方向。

生物通微信公众号
微信
新浪微博


生物通 版权所有