编辑推荐:
这篇综述深入探讨了生成式人工智能(genAI)在预测育种中的革命性潜力,系统比较了自回归模型(ARMs)、生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型和基于流的方法等技术特点,并提出了将传统符号模拟与数据驱动的genAI相结合的混合框架,为复杂农艺性状的多维建模提供了新范式。
植物和动物育种长期依赖混合模型理论和无穷小模型,但计算机模拟已成为解决选择响应预测、育种方案优化等复杂问题的关键工具。传统符号模拟通过编码预设自然机制(如等位基因分离规则)生成数据,但其强假设和有限的多维表型处理能力催生了新范式——生成式人工智能(genAI)。这项技术通过数据驱动模式生成高度逼真的合成数据,尤其适用于果实形态、植株架构等非参数分布性状。
育种程序涉及三大变量:基因型(G)、环境(E)和表型(Y)。完整的模拟平台包含四个模块(图1):
传统方法采用作物生长模型等生理知识驱动模拟,而genAI通过对抗训练或潜在空间学习直接捕捉数据分布,突破了对显式基因型-表型映射的依赖。
基因丢弃(gene dropping)和溯祖(coalescence)是两种主流基因组模拟方法。前者通过正向模拟实现灵活的选择决策建模,后者基于中性假设重建群体历史但难以处理选择压力。混合策略如AlphaSimR结合两者优势,利用溯祖结果作为正向模拟输入。然而,这些方法面临内存消耗大、并行化困难等挑战,且多性状参数化存在现实性瓶颈。
genAI通过KL散度等损失函数最小化真实与合成数据分布差异,其核心突破在于:
比较实验显示(图4),自回归模型在微生物组数据生成中表现最优,而GANs出现二值化崩溃,凸显算法选择需匹配数据类型。
genAI的潜在空间学习为育种带来新机遇:
然而,三大瓶颈亟待突破:
最具前景的方案是混合框架(图7):
例如,扩散模型生成环境数据,VAE解码潜在空间为表型,再通过GBLUP评估育种值。这种"符号+数据"双轨策略既保留参数可控性,又提升复杂性状建模效率。
基因组语言模型可能彻底革新G2G模块,而气候数据库将增强E2E真实性。需重点开发:
正如作者强调:"数据增强能提升基因组预测性能,但参数化模拟仍是育种策略评估的基石"。这场传统方法与AI的协同进化,正在重新定义预测育种的疆界。
生物通 版权所有