编辑推荐:
为解决非欧洲人群在全基因组关联研究(GWAS)中的代表性不足问题,中国医科大学附属医院研究人员构建了台湾汉族大型遗传资源库HiGenome。通过定制基因分型芯片整合电子病历(EMR)与基因组数据,完成1085种性状的GWAS和238种疾病的多基因风险评分(PRS)分析,发现最强关联集中于肌肉骨骼疾病。该研究为东亚精准医学提供了人群特异性分析框架,推动早期风险预测和个性化预防。
在人类遗传学研究领域,一个长期存在的"欧洲中心主义"问题日益凸显——全球90%以上的全基因组关联研究(GWAS)数据来自欧洲后裔人群。这种严重的代表性偏差不仅限制了科学发现,更可能加剧健康不平等,因为基于欧洲人群开发的疾病风险预测模型在其他族群中往往表现不佳。以东亚人群为例,许多在欧洲罕见的遗传变异在亚洲可能具有较高频率,而这些变异可能与当地高发疾病密切相关。台湾作为全球终末期肾病和2型糖尿病发病率最高的地区之一,其独特的疾病谱系和遗传背景亟需系统性研究。
中国医科大学附属医院的研究团队在《SCIENCE ADVANCES》发表了一项突破性研究。他们建立了覆盖41万台湾汉族人群的HiGenome数据库,整合了近20年电子病历和定制化基因芯片数据。研究采用台湾精准医学1.0版(TPMv1)芯片进行基因分型,结合千人基因组计划数据进行主成分分析(PCA)和祖先溯源,使用PLINK和PRSice-2进行GWAS和PRS建模,并开发HLA分型和药物基因组学分析平台。
HiGenome特征
研究构建的HiGenome包含32万通过质控的样本,采用定制TPMv1芯片覆盖714,457个SNP位点,通过Beagle 5.2算法将基因型数据扩展到1,418万变异位点。该平台整合了药物基因组学、HLA分型和亲缘关系验证等分析模块。
临床特征
队列年龄跨度0-111岁,男女比例45.3:54.7,85.9%参与者随访超1年。疾病谱分析显示循环系统(18.7%)、肿瘤(15.3%)和内分泌代谢疾病(14.6%)占比最高。年龄分布揭示多数疾病组中位年龄显著高于对照组(P<1×10-6
),证实衰老与疾病风险的正相关性。
祖先分析
PCA显示台湾汉族主要聚类于南方汉族(占67.3%),其次为北京汉族(21.5%)和越南京族(8.1%)。通过IQR>3标准排除异常样本后,群体遗传结构更趋同质化,为后续分析提供可靠基础。
HLA与药物基因组
建立的HLA分型模型平均准确率达96.86%,发现HLA-A11:01(33.16%)和HLA-B40:01(26.50%)为最常见单倍型。药物代谢基因分析显示49.72%台湾人群为CYP2C19中间代谢型,29%个体存在药物反应异常风险。
GWAS图谱
对1085种PheCode分类疾病进行GWAS,鉴定到57个T2D相关位点(最强信号rs2237897位于KCNQ1,P=2.9×10-93
)、9个CKD位点(rs56094641于FTO,P=9.3×10-12
)和11个痛风位点(rs4148155于ABCG2,P=9.7×10-187
)。与UK Biobank比较显示,ALD相关rs3782886(BRAP)等位基因在台湾人群MAF达0.32,而在欧洲人群中几乎不存在。
PRS模型
对238种疾病构建的PRS模型中,15种疾病AUC>0.6,51种在加入年龄、性别等协变量后AUC>0.8。以T2D为例,PRS结合临床特征的预测效能(AUC=0.793)显著优于单独PRS模型(AUC=0.57)。值得注意的是,痛风PRS显示强烈性别差异(男性OR=1.38 vs 女性OR=0.26)。
这项研究建立了首个整合长期临床随访与基因组数据的台湾汉族资源库,揭示了KCNQ1、ABCG2等东亚特异性疾病风险位点。通过证明PRS结合EMR数据可显著提升预测精度,为亚洲人群精准医学实践提供了范式。发现的CYP2C19中间代谢型优势分布等特征,为区域合理用药提供了遗传学依据。研究同时凸显了跨人群遗传差异——如ALD相关BRAP变异在欧洲人群几乎不存在,强调本土化研究的必要性。
尽管存在单中心数据、潜在共病干扰等局限,HiGenome通过≥3次诊断确认的严格表型定义,大幅降低了假阳性率。未来整合国家医保数据库和出生队列数据,将进一步增强该平台的科研转化价值。这项研究不仅填补了东亚遗传学资源的空白,更通过创新的"基因-临床"整合分析框架,为全球医学遗传学研究树立了新标准。
生物通 版权所有