综述:人工智能驱动的植物表型组学:进展、挑战与机遇

时间:2025年12月31日
来源:The Plant Phenome Journal

编辑推荐:

本综述系统阐述了人工智能(AI)技术在植物表型组学领域的融合与应用,涵盖了从高通量数据采集(如无人机UAV、地面机器人UGV)到多模态性状分析(形态、产量、胁迫等)的全流程创新。文章通过蓝莓、草莓、柑橘三个典型案例,展示了AI在解决特色作物育种与生产难题中的实践价值,并前瞻性地探讨了基础模型(FM)、可解释AI(XAI)、生成式AI、数字孪生等前沿方向如何推动植物表型组学向实时化、自动化、智能化迈进,同时深刻剖析了数据、模型与伦理层面的核心挑战。

广告
   X   

摘要

人工智能(AI)作为第四次工业革命的关键驱动力,正被迅速整合到植物表型组学中,以实现传感自动化、加速数据分析并支持表型预测和基因组选择中的决策。本文综述了当前进展,识别了主要障碍,并提出了未来方向,以实现AI驱动的植物表型组学的变革潜力。文章概述了有潜力解决表型组学从数据收集到表型性状提取和环境传感关键挑战的AI技术,并通过三个特色作物(蓝莓、草莓、柑橘)案例研究说明了AI驱动表型组学的实际应用。此外,文章重点展望了进一步研究和创新的未来前景与机遇,包括大型基础模型(FM)、边缘设备上的实时推理、可解释AI(XAI)、生成式AI和数字孪生、AI增强的多组学、代理AI以及知识引导与数据驱动的混合方法。最后,讨论了将AI应用于植物表型组学的关键挑战和局限性,包括数据管理、模型泛化与偏见,以及与公平获取AI工具相关的伦理考量。

1 引言

人工智能(AI)正在改变科学和社会,其驱动力来自算法、大数据和计算能力的最新突破。AI被广泛定义为创造能够模仿人类智能以执行广泛任务的机器、算法和计算机系统的科学与工程。尽管AI自20世纪50年代就开始被研究,但基于神经网络的深度学习(DL)的重大进展始于2010年代初,并在过去十年中加速发展,以解决复杂的科学问题。就在过去三年里,我们见证了生成式AI技术(如ChatGPT)的迅速兴起,以及通往人工通用智能(AGI)的潜在路径。这些发展展示了AI在包括农业和表型组学在内的各个领域的变革潜力。
DNA测序的快速发展为作物基因组提供了前所未有的见解,并实现了实用的基因组预测。然而,植物表型组学——测量作物的物理和生化特性——仍然是改善农业系统预测能力的一个显著瓶颈。传统方法受限于高成本和熟练劳动力的需求,使得在多样化环境和发育阶段进行大规模性状测量对于育种计划来说不切实际。这一挑战对于特色作物尤为显著,其较小的市场规模和有限的行业足迹限制了对育种创新研究和开发的投入。
作为回应,AI,特别是与机器人技术和高性能计算相结合的计算机视觉,正在成为一种变革性的解决方案。这些技术正在实现可扩展的表型分析,并克服了理解植物系统和提高育种决策预测准确性的长期障碍。例如,自主机器人平台——从地面漫游车到空中无人机——现在以前所未有的空间和时间分辨率收集海量传感器数据。基于深度学习的方法,如神经辐射场(NeRF),可以表征否则无法手动测量的新颖三维植物结构。基于图像的表型分析和AI加深了我们对玉米干旱耐受机制的理解,并导致了耐旱基因型的开发。此外,AI驱动的建模和自动化可以实现作物管理、品种选择和基因编辑策略的实时决策,将受控环境农业转变为高度适应和高效的生产系统。展望未来,预测建模和可解释的AI方法有望预测植物性状、胁迫响应和生态系统动态。总的来说,AI驱动的表型组学代表了一种范式转变,有潜力加速全球作物改良,增强韧性、可持续性和生产力。
本文的目标有三方面。首先,我们概述了与解决表型组学挑战相关的AI技术,并重点介绍了针对美国东南部特色作物的三个案例研究。其次,我们概述了未来的研究方向,例如边缘设备上的实时推理、在表型组学中使用大型基础模型(FM)、以及生成式AI和数字孪生的整合。最后,我们讨论了关键挑战,例如数据注释和管理、模型泛化与偏见以及更广泛的伦理考量。

2 解决表型组学问题的AI方法

AI方法已广泛用于植物表型组学的六个领域,包括四种主要类型的表型性状测量、高通量数据收集和环境传感(图1)。

2.1 高通量数据收集

与传统表型分析相比,由自动化和AI驱动的高通量表型分析显著提高了数据收集的规模、频率和数量。在各种使用的平台中,我们主要关注无人驾驶航空器(UAV)和无人驾驶地面车辆(UGV),因为AI最直接地驱动其感知、导航和机载决策。
UAV已成为田间尺度表型分析的主要平台,因为它们能够快速覆盖大面积区域——每次飞行可覆盖数十公顷,分辨率达到厘米级。通过集成多种传感器类型(RGB、多光谱、高光谱、热成像和激光雷达LiDAR),UAV能够进行从氮素状况和产量预测到水分胁迫和病害检测的多种评估。然而,操作限制,特别是有限的电池寿命(15-30分钟)和对大面积进行多次任务的需求,凸显了空间覆盖范围和数据粒度之间的基本权衡。
UGV通过实现持续的、近距离的冠层内观测来解决空中平台的局限性。在地面操作,这些平台捕获难以或无法从上方测量的性状,包括茎粗、分枝模式和详细的开花动态,具有高空间分辨率。承载较重有效载荷的能力使得能够进行机载分析和实时处理。在一项研究中,漫游车高精度地测量了198,000个玉米小区的关键性状。用于机器人导航和规划,强化学习在与环境交互的基础上开发自主视觉导航系统方面具有巨大潜力。
UAV和UGV平台的集成代表了一种有前景的解决方案,它利用了它们互补的优势。UAV可以提供田间层面的背景信息,例如测绘布局、识别障碍物或检测胁迫热点,以指导UGV的部署和导航。此外,将UAV遥感获得的指数(例如NDVI图、热热点)与详细的UGV测量(例如茎直径、叶面积)相结合,提高了性状估计的准确性,并实现了多尺度的表型表征。这种空地协作体现了AI驱动平台如何从独立的数据收集转向集成的表型分析系统。

2.2 形态性状

植物形态性状,包括地上部性状(如冠层覆盖度、叶长、叶宽、叶角、冠层结构和植物体积)以及地下部根系性状,是植物生长、结构和生产力的基本指标。机器人平台实现了高分辨率成像,用于详细的植株级数据收集。植物3D扫描仪,如LemnaTec Scanalyzer 3D,提供完全自动化、高通量的植物叶片结构和胁迫响应表型分析。激光扫描系统,由连接到机器人手臂的光学扫描仪组成,可以重建准确的、带标签的3D点云,用于高级植物结构分析。
AI的进步显著改善了在不同环境中这些性状的提取、估计和量化。基于深度学习的图像分割模型已被广泛用于从2D RGB或多光谱图像中量化性状,如冠层覆盖度和叶面积。这些模型通过准确地将植物结构与背景噪声分离,实现了高效的覆盖度估计和叶片性状分析。对于涉及3D结构的更复杂形态性状,3D重建和基于几何的AI方法的最新发展扩展了植物表型分析的分析能力。利用主成分分析(PCA)和卷积自编码器从基于LiDAR的3D点云中有效提取了可遗传的潜在性状,比手动表型分析更有效地描述植物结构。技术,如NeRF和3D高斯泼溅(3DGS),已被应用于从多视角图像重建高保真度的3D植物模型,从而允许精确测量植物体积和冠层结构。此外,3D点云分割模型,如PointNet++、PVCNN和Kpconv,已被应用于从LiDAR或立体成像衍生的点云中提取结构特征,例如茎叶区分、叶角和株高。这些模型能够对精细尺度的植物组件进行定位和分类,用于下游性状估计。
特别是对于地下部性状,AI驱动的方法已经改变了传统的方法论。根系表型分析已从劳动密集型的手动测量发展为高通量、数据驱动的图像分析。例如,RhizoVision Crown标准化了从根颈提取性状,量化了总长度、深度和体积等特征,实现了大规模、可重复的评估,加速了基因型-表型(G2P)作图。3D成像的出现,如DIRT/3D,允许对具有高遗传力的根性状进行详细、自动化的重建,包括轮生间距、节根数量和角度以及冠根直径,为解析RSA的遗传基础提供了新的视角。基于AI的工具,如使用DL在嘈杂的田间图像中检测和分割根系的RootDetector,以及用于自动化根图像分析的机器学习流程faRIA,克服了手动注释的瓶颈,即使在嘈杂的田间环境中也能实现根长、直径和密度的大规模、一致测量。由深度分割网络驱动的受控环境平台,如ChronoRoot,增加了一个时间维度,重建了幼苗生长轨迹,并提供了人类可能忽略的新的时间相关性状。

2.3 采后生理性状

在过去十年中,与AI集成的高通量表型分析已广泛用于特色作物的采后生理和生化性状评估,实现了对成熟度、糖含量、果实硬度、内部瘀伤、货架期和缺陷等性状的无创、快速和客观评估。先进的传感模式,如可见光(RGB)成像、高光谱和多光谱成像、近红外(NIR)光谱、热成像、荧光成像、电化学传感器(例如电子鼻)、声学传感器以及X射线和磁共振成像,已被研究用于收集水果和蔬菜各种采后性状的表型数据。
利用各种传感模式产生的丰富数据,AI算法在解释数据和预测生理性状方面起着至关重要的作用。早期研究通常采用统计和传统机器学习模型,例如偏最小二乘回归、支持向量机(SVM),将传感器读数与质量性状联系起来。近年来,深度学习方法(特别是用于图像分析的卷积神经网络CNN)由于在挑战性任务(如缺陷检测和成熟度分类)中提高了准确性和鲁棒性而变得更受欢迎。深度学习也已应用于光谱数据分析,利用1D卷积或自编码器比手动特征工程更有效地从光谱数据中提取特征。一个重要趋势是利用机器学习模型进行多模态传感数据融合,例如融合RGB图像特征与NIR光谱特征,或结合视觉和触觉传感。这种多传感器数据融合可以提供对特色作物质量性状的更全面评估。尽管取得了进展,但在采后表型分析中使用AI仍面临挑战,例如有限的模型泛化能力(在一个数据集上训练的模型无法推广到另一个数据集或品种)以及缺乏高质量、大规模、开放注释的数据集。另一个主要挑战是通过优化算法以便在边缘计算设备(如智能手机或机器人)上部署,来增强表型分析系统的通量和实用性。

2.4 产量性状

准确的产量估计在植物育种和农业生产中起着关键作用。AI驱动的产量估计的一个主要优势是能够在整个生长季节支持非破坏性和连续的作物性能评估,从而实现动态决策而不干扰植物发育。典型的AI驱动产量估计方法涉及使用深度学习模型直接从图像中量化生殖结构,如果实、穗或圆锥花序。卷积神经网络(CNN)已被广泛用于在高分辨率RGB图像中检测和计数这些结构。例如,使用DL模型进行的小麦穗检测已显示与最终籽粒产量密切相关。目标检测、分割和视频帧中的多目标跟踪等方法已被应用于计数番茄果实、葡萄和蓝莓簇、棉花棉铃和花以及草莓花或果实。为了计数高密度的植物器官(如棉花棉铃),研究人员还研究了基于密度图回归的方法来预测产量。另一种间接方法利用从UAV遥感或近感系统获得的光谱和形态性状,例如NDVI、冠层高度和植物体积,使用机器学习模型在更大的田间尺度上预测产量。研究已经证明了随机森林、梯度提升和CNN在从植被指数和结构特征预测作物产量方面的效用。与从多模态图像中提取数值性状然后进行基于模型的回归相比,研究人员直接将多模态图像数据和基因组亲缘关系矩阵输入深度神经网络进行小麦产量预测。

2.5 生物和非生物胁迫

生物和非生物胁迫表型分析对于植物育种、生理研究和精准农业至关重要,因为这些胁迫因素显著影响作物性能和管理。然而,传统方法是劳动密集型的,并且需要精确的时间安排和高分辨率数据(即空间、光谱和时间数据)来捕捉植物胁迫的复杂动态。AI方法为检测胁迫响应提供了可扩展、快速和自动化的替代方案,在机器学习和DL模型中使用光谱性状(例如植被指数)和形态性状(例如冠层结构、叶片萎蔫)。高光谱成像(HSI)结合CNN在胁迫分类中已显示出成功。微观成像与DL的集成使得能够检测和分割详细的解剖和亚细胞特征,用于植物病害诊断。融合基于形态和光谱数据的模型进一步改善了胁迫检测。基于CNN提取的图像嵌入可用于基于图像序列区分处理植物和对照植物,而单独的解码器网络可以将潜在向量映射回图像空间进行解释。此外,可解释的DL模型通过自动化地从图像中识别、分类和量化植物胁迫,提供了显著优势,从而克服了手动方法的主观性和低效率。一个主要挑战是缺乏大型注释数据集,特别是对于早期阶段或罕见的胁迫症状。为了解决这个问题,使用生成对抗网络(GAN)等合成数据生成方法来模拟疾病症状和增强数据集,提高了模型的鲁棒性并解决了类别不平衡问题。此外,基于Transformer和预训练的视觉模型越来越多地用于胁迫表型分析,因为它们能捕捉长程依赖关系并有效处理多模态数据。

2.6

生物通微信公众号
微信
新浪微博


生物通 版权所有