传统育种决策依赖表型观察,评估时间长,且常用的线性回归模型在处理复杂遗传性状时存在局限性。GP,也叫基因组选择(GS),借助统计机器学习(ML)方法,利用基因组信息预测个体性状表现,能加速育种进程。深度学习(DL)作为 ML 的子集,在 GP 中各有优势和适用场景,选择哪种方法取决于数据特性和预测目标。
岭回归 BLUP(rrBLUP)和基因组最佳线性无偏预测(GBLUP)通过对β的平方效应大小进行惩罚来实现正则化,二者基本相同,只是惩罚权重定义略有差异。最小绝对收缩和选择算子(LASSO)则惩罚β的绝对值之和,倾向于使许多标记效应估计为零。贝叶斯方法使用不同的先验分布。在实际应用中,rrBLUP/GBLUP 通常是探索 GP 潜力的首选方法。
在植物育种和基因组学研究中,多种软件工具推动了基因组预测(GP)的发展。早期,de los Campos 等人开发的 R 包为基因组预测奠定基础,随后 Pérez 等人的贝叶斯线性回归(BLR)R 包,以及 Endelman 的 rrBLUP R 包,分别为多数据类型分析和岭回归、线性混合模型提供了便利。
Pérez 和 de los Campos 将 BLR 扩展为贝叶斯广义线性回归(BGLR)包,功能更强大,支持多种贝叶斯回归模型、变量选择和收缩方法,可处理连续和分类响应性状,还能用于评估标记效应与环境的相互作用。Pérez - Rodríguez 和 de los Campos 进一步扩展 BGLR 包以拟合多性状模型,增加了模型的灵活性。
MegaLMM 包用于拟合多性状 GP 模型,能处理大规模表型数据或多环境试验数据。lme4GS 包针对遗传分析中线性混合模型(LMM)的不足进行改进,可定义个体或群体间的相关性。sommer 和 rTASSEL 包也在拟合 LMM 方面发挥重要作用,rTASSEL 还能直接处理变异调用格式(VCF)文件,加速 SNP 质量控制等流程。
GAPIT 包广泛应用于 GWAS 和 GP 分析,不断更新迭代,增加了多种模型和功能。BWGS 包涵盖了 GS 应用的多个步骤,支持多种模型训练和交叉验证。IBCF MTME 算法和相关 R 包用于处理多性状多环境数据。此外,还有用于实现贝叶斯广义核回归方法、稀疏核方法的软件包,以及用于整合多组学数据的 CHiDO 工具等。
本综述阐述了基因组预测(GP)的原理,探讨了统计机器学习(ML)方法对 GP 效率的提升作用,分析了不同类型性状预测的统计 ML 工具的优缺点,重点介绍了深度学习(DL)模型在基因组选择中的应用及局限,回顾了相关软件和数据管理工具。未来,在非高斯性状建模、贝叶斯模型优化、深度学习应用拓展等方面仍有许多研究工作需要开展,以进一步推动植物育种领域的发展。