综述:生成式人工智能在预测育种中的应用:希望与挑战

时间:2025年6月12日
来源:Theoretical and Applied Genetics

编辑推荐:

这篇综述深入探讨了生成式人工智能(genAI)在预测育种中的革命性潜力,系统比较了自回归模型(ARMs)、生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型和基于流的方法等技术特点,并提出了将传统符号模拟与数据驱动的genAI相结合的混合框架,为复杂农艺性状的多维建模提供了新范式。

广告
   X   

引言

植物和动物育种长期依赖混合模型理论和无穷小模型,但计算机模拟已成为解决选择响应预测、育种方案优化等复杂问题的关键工具。传统符号模拟通过编码预设自然机制(如等位基因分离规则)生成数据,但其强假设和有限的多维表型处理能力催生了新范式——生成式人工智能(genAI)。这项技术通过数据驱动模式生成高度逼真的合成数据,尤其适用于果实形态、植株架构等非参数分布性状。

设定舞台

育种程序涉及三大变量:基因型(G)、环境(E)和表型(Y)。完整的模拟平台包含四个模块(图1):

  • G2G:基于亲本基因型模拟后代基因型
  • E2E:模拟环境条件
  • GE2Y:整合基因型与环境生成表型
  • Y2Y:基于现有表型生成新表型

传统方法采用作物生长模型等生理知识驱动模拟,而genAI通过对抗训练或潜在空间学习直接捕捉数据分布,突破了对显式基因型-表型映射的依赖。

经典范式:符号模拟

基因丢弃(gene dropping)和溯祖(coalescence)是两种主流基因组模拟方法。前者通过正向模拟实现灵活的选择决策建模,后者基于中性假设重建群体历史但难以处理选择压力。混合策略如AlphaSimR结合两者优势,利用溯祖结果作为正向模拟输入。然而,这些方法面临内存消耗大、并行化困难等挑战,且多性状参数化存在现实性瓶颈。

新范式:生成式AI

genAI通过KL散度等损失函数最小化真实与合成数据分布差异,其核心突破在于:

  1. 自回归模型:逐元素生成序列数据,适用于气候预测等时序场景,但需处理高维参数爆炸问题。
  2. 生成对抗网络:生成器与判别器的博弈训练产生逼真输出,但存在模式坍塌风险。CycleGAN等变体可实现图像风格迁移,如健康与病叶特征转换。
  3. 变分自编码器:将输入映射到低维正态分布潜在空间,解码器重建数据。在草莓果实形态分析中,其潜在空间可解释为发育阶段轴。
  4. 扩散模型:通过逐步去噪过程生成数据,DALL·E 2等工具已实现文本到图像的精准生成,农业中用于病害图像增强。
  5. 基于流模型:利用可逆变换链精确计算似然,RealNVP算法通过1×1卷积保持高效采样。

比较实验显示(图4),自回归模型在微生物组数据生成中表现最优,而GANs出现二值化崩溃,凸显算法选择需匹配数据类型。

希望与挑战

genAI的潜在空间学习为育种带来新机遇:

  • 表型预测:VAE潜在空间可关联遗传变异,实现番茄果实形状的跨代预测(图6)
  • 环境模拟:自回归模型生成历史天气数据的延续序列
  • 基因组设计:DNA语言模型可能合成符合孟德尔定律的新基因型

然而,三大瓶颈亟待突破:

  1. 可解释性:潜在空间需人工解析其生物学意义
  2. 迁移性:训练数据范围限制外推能力
  3. 幻觉数据:生成违反生物学规律的无效组合

融合路径

最具前景的方案是混合框架(图7):

  1. 用符号模拟生成基因型,genAI生成表型
  2. 将潜在空间建模为基因组关系矩阵的函数,如zG
    ~ N(0,A)
  3. 结合强化学习优化育种方案

例如,扩散模型生成环境数据,VAE解码潜在空间为表型,再通过GBLUP评估育种值。这种"符号+数据"双轨策略既保留参数可控性,又提升复杂性状建模效率。

未来方向

基因组语言模型可能彻底革新G2G模块,而气候数据库将增强E2E真实性。需重点开发:

  • 条件生成模型处理G×E互作
  • 潜在扩散模型提升VAE输出质量
  • 开源农业专用genAI工具链

正如作者强调:"数据增强能提升基因组预测性能,但参数化模拟仍是育种策略评估的基石"。这场传统方法与AI的协同进化,正在重新定义预测育种的疆界。

生物通微信公众号
微信
新浪微博


生物通 版权所有