在生命科学与医学领域,基因研究一直是探索人体奥秘、攻克疾病难题的关键所在。长久以来,科学家们致力于解读人类基因组这部 “生命天书”,期望从中找到预防、诊断和治疗各类疾病的密码。然而,人类基因组极为复杂,其中约 98% 的非编码 DNA 曾被视为 “垃圾 DNA”,但随着研究深入,发现它们包含着关键的调控元件,在不同细胞类型和发育阶段协调基因表达(gene expression),对这部分 DNA 的研究被称为调控基因组学(regulatory genomics) 。不过,传统研究方法在解析这些复杂的基因组调控机制时困难重重,难以全面、深入地理解基因组的奥秘。在此背景下,基因组语言模型(genomic language model,gLM)应运而生,为解码 DNA 序列带来了新的希望。
多伦多大学(University of Toronto)、德累斯顿工业大学(Technische Universität Dresden)等机构的研究人员开展了关于基因组语言模型的研究。研究聚焦于以 Evo2 为代表的 gLM,评估其在生物学研究和医学应用中的潜力,同时探讨其面临的技术障碍和伦理挑战。研究发现,gLM 虽展现出巨大潜力,但在理解基因组序列的方式、评估方法的有效性等方面存在问题。这一研究对于明确 gLM 在医学领域的应用前景,以及推动其安全、有效应用于临床具有重要意义,该研究成果发表在《npj Digital Medicine》杂志上。
研究人员采用了多种关键技术方法。首先是预训练(Pre-training),让 gLM 在大量 DNA 序列数据上学习基因组的潜在模式和语法,这一过程通常是无监督的自我学习。之后进行微调(Fine-tuning),在特定生物学任务的小而精的标记数据集上进一步训练。此外,通过多物种基因组训练,利用进化上的保守性来增强模型学习效果,并增加模型的上下文窗口大小以模拟基因组的长程相互作用。
训练 gLM
- 预训练与微调:预训练是 gLM 学习基因组模式和语法的初始阶段,它在大量无标签 DNA 序列数据上进行自我监督学习,常以重建任务来衡量学习效果,如 Evo2 模型通过预测基因组序列中的下一个核苷酸来学习。微调则是在预训练基础上,使用特定任务的小数据集进行训练,以适应不同生物学任务,这与传统依赖特定任务标记数据集的监督学习不同,gLM 旨在学习通用基因组表示。
- 多物种训练与加权损失:当前训练 gLM 的范式是在尽可能多的不同物种基因组上进行无监督预训练,Evo2 在超过 128,000 个基因组上训练,远超之前模型。同时,包括 Evo2 在内的 gLM 采用加权损失方案,减少训练中重复序列的影响,提升与基因调控相关任务的性能。
- 增加上下文窗口大小:gLM 建模的另一趋势是增加模型上下文窗口大小,以模拟基因组长程相互作用。Evo2 采用特殊架构,能处理长达 100 万个核苷酸的序列,但与整个人类染色体所需的上下文相比仍有差距,且大上下文窗口使模型可解释性降低。
gLM 的生物学和临床相关性
- 零样本性能的潜力:gLM 的预训练在生物学上具有巨大潜力,体现在 “零样本” 性能上,即模型在未明确训练的任务上也能表现良好。这表明模型学习到了基因组结构的基本原理,有助于揭示新的基因组语法,推动对人类疾病的理解和个性化医疗的发展。
- 临床应用前景:一些 gLM 在预测非编码变异影响方面表现出色,如 GPN-MSA9和 Evo2。这一能力可与现有基因组检测流程结合,识别当前筛查方法遗漏的潜在致病性调控变异,尤其对复杂或罕见遗传疾病的诊断具有重要意义。
gLM 临床应用中的挑战与机遇
- 理解与记忆的区分难题:确定 gLM 是真正理解基因组序列的上下文关系还是仅记忆训练模式是一个关键挑战。现有的简单基准测试无法充分反映基因组调控的复杂性,导致难以区分模型的真实理解能力和对相似序列的回忆能力。
- 生成能力的评估局限:Evo2 等 gLM 可生成新的基因组序列,但目前对其生成能力的评估主要基于生物信息工具对生成序列统计特性的分析,缺乏对其生物学可行性和功能的测试,且评估可能更多反映模型对训练数据的再现能力,而非对基因组语法的真正理解。
- 临床应用的机遇与挑战:尽管存在评估挑战,gLM 的生成能力仍有望先应用于生物学研究,为探索 DNA 序列和开发新药物提供资源。此外,gLM 在预测非编码变异方面的能力,为临床诊断提供了新的可能性。
gLM 发展和临床应用中的伦理考量
- 数据隐私与同意:随着 gLM 在临床应用中的推进,个人遗传数据隐私和患者对全基因组变异风险筛查的同意问题变得至关重要。需要确保患者的遗传数据和模型预测结果得到妥善保护,同时保障患者的知情权和选择权。
- 两用风险:gLM 生成完整基因组和新生物体的能力带来了两用风险,即合法研究工具可能被用于有害目的,如设计生物武器。因此,必须加强风险评估和管理,防止技术被滥用。
- 公平性与成本:实施全基因组测序和 gLM 预测成本高昂,可能导致只有高收入人群能够受益,加剧医疗不平等。在 gLM 的开发和应用中,需要考虑公平性,确保技术的普及和可及性。
研究结论表明,基因组语言模型虽有潜力变革医学,但目前其预测能力是源于对基因组的真正理解还是对训练序列的统计再现尚难区分。gLM 距离临床应用还有一定距离,这为制定安全有效的应用策略提供了时间。在 gLM 的发展过程中,应重视技术改进、评估方法完善,同时考虑伦理问题,以确保其安全、有效、公平地应用于医学领域,为人类健康事业做出贡献。