机器学习驱动的全球气溶胶-气象耦合系统（AI-GAMFS）：推动高时效高精度气溶胶预测

时间：2026年3月6日

来源：Nature

编辑推荐：

本文推荐《机器学习的全球气溶胶-气象预测系统进展》。传统基于物理的模型因气溶胶-气象相互作用复杂、计算成本高，难以满足业务预报需求。本工作创新性地开发了AI-GAMFS系统，利用ViT与U-Net混合架构的注意力机制，在1分钟内生成5天、3小时间隔的气溶胶光学成分与地表浓度预报，相比CAMS、GEOS-FP等传统系统，在AOD、DUAOD等关键指标上展现出更优的准确性与计算效率，为空气质量管理、健康风险评估和气候变化应对提供了革命性工具。

引言：大气气溶胶预测的重要性与挑战

大气气溶胶在地球气候系统中扮演着至关重要的角色，它通过影响辐射强迫、云微物理和大气化学过程，对天气、气候产生深远影响。关键气溶胶成分，如黑碳（BC）和沙尘（DUST），因其光学和微物理性质的巨大变异性，成为气候变化评估中主要的不确定性来源。此外，气溶胶复杂的化学反应性和广泛的粒径范围可导致空气质量恶化，对人类呼吸系统、心血管系统及神经系统构成健康风险。因此，准确预测气溶胶的分布和组成，对于改善空气质量管理、保护公众健康和减缓气候变化至关重要。

然而，气溶胶预测远比天气预测复杂且成本高昂，这归因于其需要同时考虑多样的气溶胶源与类型、复杂的化学反应、物理过程以及与天气系统的多尺度相互作用。这些复杂性导致了气溶胶产生、输送、转化和清除的高度非线性和多变性，极大地增加了预测的不确定性。传统的物理预报系统，如哥白尼大气监测服务（CAMS）和美国宇航局的全球地球观测系统前向处理（GEOS-FP），耦合了数值天气预报（NWP）模型和大气化学传输模型，必须同时解析大气动力学并计算数以千计的气溶胶相关化学反应，进一步加剧了NWP本已高昂的计算成本。近年来，机器学习的进步为研究人员探索将高级神经网络作为NWP的补充工具开辟了新途径，在提高天气预报的计算效率和准确性方面显示出巨大潜力。然而，专门针对全球气溶胶预测的机器学习研究仍明显不足。尽管近期有研究开始将深度学习应用于全球和区域尺度的气溶胶预测，但这些努力很大程度上依赖于NWP输入，并且通常局限于单一气溶胶指标，如总气溶胶光学深度（AOD）。用于同时进行全球尺度气溶胶组分和气象预测的机器学习模型的业务集成仍然不完整，特别是在表征气溶胶-天气耦合过程、泛化不同气溶胶类型以及解决计算约束方面面临挑战。

AI-GAMFS：机器学习的全球气溶胶-气象预测系统

为解决上述挑战，本文提出了机器学习的全球气溶胶-气象预测系统（AI-GAMFS），旨在快速模拟空间和时间尺度上复杂的气溶胶-气象相互作用。该系统基于42年的现代研究与应用回顾分析第2版（MERRA-2）大气再分析数据进行训练。与哥白尼大气监测服务（CAMS）和区域沙尘模型相比，利用全球气溶胶机器人网络（AERONET）和中国气溶胶遥感网络（CARSNET）观测数据的评估表明，业务化的AI-GAMFS在预测AOD和沙尘组分方面性能更优。与GEOS-FP相比，AI-GAMFS在全球AOD预测上表现出更低的均方根误差，在美国和中国地区的多个关键地表气溶胶组分预测上也有改进，同时计算成本降低了一个数量级。

系统架构与预测策略

AI-GAMFS旨在提供空间分辨率约50公里、时间间隔为3小时（世界时01:30, 04:30, ..., 22:30）的全球5天气溶胶-气象预测，预报变量包括AOD、关键气溶胶组分（硫酸盐、沙尘、黑碳、有机碳和海盐）的光学特性与地表浓度，以及控制气溶胶生命周期动力学的表层和上层气象变量。其架构包含三个核心模块：（1）立方体嵌入，从输入特征矩阵中提取三维时空特征；（2）视觉变换器，利用多头自注意力机制处理和理解特征间的复杂关系；（3）立方体解嵌入，利用反卷积和上采样技术将高维特征重构回原始空间分辨率。为确保预测的准确性和保真度，系统中加入了跳跃连接。这些模块协同工作，能够以前一时间步的输入，准确预测下一时间步的气溶胶和气象状态空间场。

研究分别训练了预测时效为3小时、6小时、9小时和12小时的四个基础模型。每个基础模型使用相同的框架和设置训练了80个周期，包含约12亿参数。为减轻单个模型中因长期迭代导致的误差累积，采用了一种时间聚合策略，通过这四个基础模型进行接力预测。一旦预训练和接力连接完成，最终的AI-GAMFS模型在单个L40图形处理器（GPU）上，以实时的GEOS-FP分析场作为输入，可在大约39秒内生成5天的业务预报，这比传统GEOS-FP预报所需的4-6小时快了约360倍。

接力预测降低累积误差

基于这种旨在抑制误差增长的接力架构，研究系统性地评估并优化了其配置。利用四个预训练的基础模型，设计了四种渐进式预测方案以确定最优接力策略。结果显示，在超过24小时的预测时效后，采用3小时、6小时、9小时和12小时四种模型的接力策略，在几乎所有气溶胶变量的空间相关性（R）和均方根误差（RMSE）方面都表现出最优的准确性。例如，在120小时时效，该接力模型对所有气溶胶变量的平均RMSE值分别比3小时单模型、3-6小时接力模型、3-6-9小时接力模型低15.1%、5.6%和3.2%。这种优势在各种气象变量的全球预测中也很明显。因此，研究最终选择了3小时、6小时、9小时和12小时接力模型策略作为最终的AI-GAMFS模型，用于所有后续评估和分析。

增强的全球气溶胶预测

全球范围内，AOD是最广泛观测的大气气溶胶参数，广泛应用于气候变化研究、空气质量监测和环境评估。作为AOD的关键组分，沙尘气溶胶光学深度（DUAOD）是监测全球沙尘循环及其影响的重要指标。本研究对AI-GAMFS每日在22:30（世界时）初始化生成的5天、3小时全球AOD和DUAOD预测进行了全面评估，并以2023年的MERRA-2评估数据为基准。与领先的全球气溶胶预测模型CAMS相比，在0-120小时的预测期内，业务化的AI-GAMFS在预测AOD和DUAOD时，在R和RMSE方面持续表现更优。特别是在0-2天期间，优势明显。虽然随着预测时效增加，业务化AI-GAMFS的优势有所减弱，但在120小时时效，其AOD和DUAOD的RMSE仍比CAMS分别降低了约11.3%和25.2%。

为确保公平比较，研究额外使用了2023年AERONET的二级瞬时全球气溶胶观测数据，评估了业务化AI-GAMFS和CAMS的5天、3小时间隔AOD和DUAOD预测性能。结果显示，业务化AI-GAMFS针对AERONET观测表现出较高的预测技巧，尽管准确性随时间可预见地下降。具体而言，在整个预测期（第1-5天），模型平均AOD的R值在0.57到0.78之间（RMSE 0.12到0.15），平均DUAOD的R值在0.65到0.73之间（RMSE 0.04到0.06）。与使用MERRA-2作为参考的评估结果一致，业务化AI-GAMFS在AOD和DUAOD预测上也比CAMS更准确。统计上，在所有40个预测步长（3小时间隔）中，业务化AI-GAMFS在AOD和DUAOD的R值上分别有31步和36步优于CAMS，在RMSE上分别有37步和40步优于CAMS。MERRA-2驱动配置和业务化（GEOS-FP驱动）配置之间一致性的准确度，肯定了AI-GAMFS在真实世界业务环境中的可靠性和有效性。

空间分布分析进一步显示，对于AOD，业务化AI-GAMFS在61.6%的AERONET站点（主要位于美国、欧洲、非洲和东南亚）表现出比CAMS更低的RMSE值。鉴于中国是气溶胶载荷严重的地区之一，但AERONET覆盖严重不足，研究补充使用了2023年中国26个CARSNET站点的连续AOD观测数据进行评估。结果显示，业务化AI-GAMFS在中国地区展现出可接受的预测技巧，在整个预测期（第1-5天）平均R在0.44到0.65之间，平均RMSE在0.26到0.34之间。此评估也证实了业务化AI-GAMFS相对于CAMS的稳健优势。此外，在全球DUAOD预测方面，业务化AI-GAMFS相对于CAMS展现出明显优势，在全球86.0%的站点上实现了更低的RMSE。这些结果有力地证明了业务化AI-GAMFS在全球AOD和DUAOD预测方面相比CAMS的优越性能。

区域沙尘暴预测

东亚是受沙尘暴影响最严重的地区之一，凸显了对沙尘暴事件进行准确预测的迫切需求。业务化AI-GAMFS模型可同时预测DUAOD和沙尘地表质量浓度（DUSMC），从而提供了评估其相对于几个成熟的基于物理的沙尘预测模型性能的机会。针对2023年，研究将业务化AI-GAMFS与CAMS及部署在沙尘暴预警咨询和评估系统亚洲区域中心的四个基于物理的沙尘预测模型进行了比较评估。这些模型包括芬兰气象研究所的SILAM、中国气象局的CUACE/Dust、日本气象厅的MASINGAR和韩国气象厅的ADAM3。与它在全球的表现一致，业务化AI-GAMFS在东亚地区所有预测时段内，其表现显著优于这五个基于物理的沙尘预报模型。具体而言，在72小时时效，DUAOD的空间R值相对于FMI-SILAM、CAMS、JMA-MASINGAR、CMA-CUACE/Dust和KMA-ADAM3分别提高了12.0%、21.4%、34.2%、105.1%和199.7%。在120小时时效，其相对于FMI-SILAM、CAMS、CMA-CUACE/Dust和KMA-ADAM3的改进分别为4.9%、16.9%、90.4%和133.5%。对于DUSMC，业务化AI-GAMFS在72小时时效的纬度加权RMSE为82.5微克/立方米，分别比FMI-SILAM、KMA-ADAM3和CMA-CUACE/Dust低约34.4%、42.7%和60.3%，相对于JMA-MASINGAR则有更大幅度的降低（约74.1%）。利用AERONET北京-CAMS站点一年的粗模态AOD记录以及中国西北沙漠地区四个CARSNET站点的AOD观测，进一步证实了业务化AI-GAMFS相对于基于物理的沙尘模型的这种区域优势。以2023年4月中国北方的特大沙尘暴为例，研究发现业务化AI-GAMFS能够可靠地重现整个沙尘传输过程，包括影响区域和强度。更重要的是，业务化AI-GAMFS不仅能预测1-2天内的沙尘输送路径，还能提前3-4天预测戈壁沙漠增强的沙尘排放，而这对区域沙尘预报模型来说通常是一个挑战。

气溶胶组分预测

除了预测AOD和沙尘相关属性，AI-GAMFS还能同时预测总散射气溶胶光学深度（TSAOD）、其他气溶胶组分（即硫酸盐、黑碳、有机碳和海盐）的光学特性及其地表浓度。这些组分预测使得能够精确评估其对气候、空气质量和公共卫生的具体影响。研究使用常规的GEOS-FP作为参考基准，因为它代表了最先进的大气气溶胶组分预测，并提供与业务化AI-GAMFS完全一致的输出配置。利用2024年7月至8月的MERRA-2数据作为参考进行评估，结果显示业务化AI-GAMFS在所有12个气溶胶变量上都提供了出色的预测性能。在最初的1-3天，除特定时间点的黑碳地表质量浓度（BCSMC）和有机碳地表质量浓度（OCSMC）（基于R值）外，业务化AI-GAMFS在所有变量和所有时效上的表现都优于GEOS-FP。在更长的预测时效，除了两个与海盐相关的变量（SSAOD和SSSMC），AI-GAMFS的表现持续优于GEOS-FP。气溶胶组分预测对天气预测的准确性高度敏感。尽管业务化AI-GAMFS在某些气象变量（如风速、海平面气压和温度）的预测准确性上没有超过GEOS-FP，但对影响气溶胶排放、转化和沉降的关键变量（如比湿和降水）的预测准确性有所改进，使得AI-GAMFS能够改进其气溶胶模拟。然而，超过2天后风速预测准确性下降，这对海盐气溶胶的预测产生了负面影响。

在MERRA-2之外，研究还利用2024年7月至8月的全球气溶胶观测数据进行了独立评估。通过使用来自AERONET的地基AOD和粗模态AOD观测、来自CARSNET的AOD观测，以及来自美国保护视环境机构间监测网络的黑碳、有机碳和硫酸盐地表质量浓度观测，比较了业务化AI-GAMFS和GEOS-FP的气溶胶组分预测性能。在全球范围内，业务化AI-GAMFS在第1-5天的预测中，AOD的平均RMSE在0.11到0.16之间，DUAOD的平均RMSE在0.03到0.05之间。在AOD预测上，它优于GEOS-FP，针对AERONET数据，在40个预测步长中有36步的RMSE更低。在中国，由24个CARSNET站点评估，模型的RMSE在0.33到0.35之间。尽管存在这些区域性较高的误差，它仍保持了对GEOS-FP的优势。全球DUAOD预测的表现在第1-4天整体与GEOS-FP相当，但在第5天稍弱。此外，沙尘主导区域的两个独立CARSNET站点的AOD观测为业务化AI-GAMFS在中国地区改进的沙尘预测提供了额外证据。

针对美国保护视环境机构间监测网络评估的地表气溶胶组分，业务化AI-GAMFS在5天期间每日预测的RMSE持续低于GEOS-FP。黑碳、有机碳和硫酸盐地表质量浓度的RMSE范围分别为0.45–0.51微克/立方米、4.6–6.7微克/立方米和1.0–1.3微克/立方米，相对于GEOS-FP分别降低了约64.4–86.2%、74.5–88.3%和42.2–61.0%。黑碳和有机碳预测的改进在美国西部（受频繁野火影响）最为显著，而硫酸盐预测的改进则集中在人为排放影响强烈的美国东部。针对美国环境保护署化学物质监测网络的评估也确认了类似优势，表明业务化AI-GAMFS在预测与野火相关的黑碳和有机碳，以及人为硫酸盐方面具有整体优势。在中国，中国大气观测网络的观测显示，业务化AI-GAMFS在所有5天的黑碳预测上都优于GEOS-FP，在52.5–75.0%的站点有更高的每日R值，在62.5–72.5%的站点有更低的RMSE。在有机碳和硫酸盐预测上也观察到了相当的优势。

追踪污染类型事件

数据驱动预测的一个显著特点是其能够以传统基于物理的气溶胶预测模型所需计算成本和时间的一小部分，快速追踪和分离气溶胶污染类型，紧密贴合现实世界的模式。一项具有3天预报时效的案例研究突显了业务化AI-GAMFS在预测全球AOD及其5个关键组分（硫酸盐、沙尘、黑碳、有机碳和海盐气溶胶光学深度）方面的性能。总体上，业务化AI-GAMFS产生的预测与MERRA-2的吻合度高于GEOS-FP，有效缓解了通常由较长预报时效引入的空间平滑伪影。在AOD预测方面，它展示了比GEOS-FP更优的R值和显著更低的RMSE值。这种改进在各种气溶胶光学组分和地表浓度的预测中是一致的。业务化AI-GAMFS的卓越性能很大程度上归功于其对关键气象变量的精确预测。

撒哈拉沙尘和中部非洲野火是全球气溶胶载荷的长期来源，其准确预测仍然是一个重大挑战。研究进一步评估了业务化AI-GAMFS以半天间隔预测区域沙尘和黑碳的表现。与GEOS-FP相比，业务化AI-GAMFS显著改进了对撒哈拉沙尘和中部非洲野火气溶胶的模拟，表现为更高的R值和更低的RMSE值。此外，它成功捕捉了沙尘和烟尘气溶胶的跨大西洋输送，突显了其在预测长距离气溶胶输送方面的稳健性。值得注意的是，除了非洲，它还捕捉了南美洲烟尘气溶胶的时空演变。

讨论与展望

本文介绍了用于业务化全球气溶胶预测的数据驱动系统AI-GAMFS。通过从42年的耦合气溶胶-气象再分析数据中提取有价值的见解，它展示了推动业务化天气预报向更复杂的环境气象预测发展的潜力。研究结果表明，业务化AI-GAMFS的性能优于多个基于物理的全球和区域气溶胶预测系统，为AOD和多种气溶胶组分提供了改进的确定性预报。与在6或12小时间隔运行的GEOS-FP和CAMS等基于物理的模型不同，AI-GAMFS以3小时间隔生成预报，从而提高了时效性，更好地捕捉了气溶胶的时空变化。

尽管业务化AI-GAMFS在改进全球气溶胶预测方面显示出巨大潜力，但通过几项战略性改进仍可进一步增强。首先，训练策略可以通过纳入多时间步滚动输入来加强，以改进时间连贯性和自回归性能。未来的模型还应整合动态人为排放清单和时变背景场，以更好地捕捉长期气溶胶趋势并减轻人为活动变化的影响。其次，当前约12万个时间步的训练数据集明显小于其他数据驱动天气模型的训练集。这有限的数据量很可能导致模型在预测风速和温度等关键气象变量方面的准确性低于GEOS-FP，从而影响了海盐气溶胶预测的准确性。在计算可行的情况下，用更高时间分辨率的记录扩展训练数据集，对于提高所有气溶胶组分的预测技能至关重要。此外，由于获取GEOS-FP历史预报数据的限制以及地表气溶胶组分观测数据的稀缺性，积累更长时间序列的观测和预报数据对于实现对业务化AI-GAMFS稳定性和预测能力的稳健跨季节评估将是必要的。最后，未来发展的一个根本方向在于将物理化学约束和大气动力学作为归纳偏置嵌入模型架构中——从纯粹的数据驱动学习转向混合物理-机器学习框架，确保预测本质上与地球系统原理保持一致。

数据集与模型详情

本研究使用了多种数据集。核心训练数据为MERRA-2再分析数据，其提供了1980年至2023年高精度的气象参数、多层大气剖面以及多种气溶胶组分（沙尘、硫酸盐、黑碳、有机碳和海盐）的数据，空间分辨率为0.5° × 0.625°，本研究使用了其在01:30, 04:30, ..., 22:30（世界时）三个小时重叠时段的数据。业务化对比使用了NASA的GEOS-FP近实时分析和预报系统数据，其模型配置与MERRA-2相同，空间分辨率约为25公里。作为基准对比的物理模型包括欧洲中期天气预报中心的CAMS全球气溶胶预报产品，以及SDS-WAS亚洲区域中心的多个基于物理的沙尘预报模型（FMI-SILAM, CMA-CUACE/Dust, JMA-MASINGAR, KMA-ADAM3）。观测验证数据则来自全球AERONET网络、中国的CARSNET网络、美国的IMPROVE网络和EPA-CSN网络，以及中国的CAWNET网络。

AI-GAMFS模型采用自回归模式，其基础模型架构包含立方体嵌入、视觉变换器和立方体解嵌入三个主要模块。模型训练采用滚动训练方法，以平均绝对误差作为损失函数，使用Adam优化器，并在8个L40 GPU上训练约10天。预测时采用时间聚合接力策略，结合四个不同预测时效（3、6、9、12小时）的预训练基础模型，以在保证时间分辨率的同时减少迭代次数，从而降低误差累积。最终的AI-GAMFS模型在单个L40 GPU上生成5天预报仅需约39秒。

评估实验与指标

研究进行了一系列严谨的评估实验，包括：AI-GAMFS不同接力配置的性能比较；AI-GAMFS与多个区域沙尘预报模型在东亚地区的对比；AI-GAMFS与CAMS在全球AOD和DUAOD预测上的对比；以及业务化AI-GAMFS与GEOS-FP在所有54个目标气溶胶和气象变量上的综合对比。评估使用了站点尺度和空间尺度两种评价方式。站点尺度评估使用RMSE和皮尔逊相关系数R作为指标，以独立观测为基准。空间尺度评估则以MERRA-2为基准，使用纬度加权RMSE和空间R作为指标，以公平地评估模型在不同纬度地区的整体表现。