物理上可解释的AlphaEarth基础模型嵌入使得基于大语言模型（LLM）的土地表面智能分析成为可能

时间：2026年5月17日

来源：Remote Sensing Applications: Society and Environment

编辑推荐：

**Mashrekur Rahman** **达特茅斯学院图书馆，达特茅斯学院，6025 Baker-Berry图书馆，汉诺威，03755，新罕布什尔州，美国** **摘要** 卫星基础模型产生的嵌入向量具有较高的密度，但其物理可解释性仍不甚明了，这限制了它们在环境决策系统

**Mashrekur Rahman**

**达特茅斯学院图书馆，达特茅斯学院，6025 Baker-Berry图书馆，汉诺威，03755，新罕布什尔州，美国**

**摘要**

卫星基础模型产生的嵌入向量具有较高的密度，但其物理可解释性仍不甚明了，这限制了它们在环境决策系统中的集成应用。利用2017年至2023年间美国大陆的1210万个样本，我们首次对Google AlphaEarth的64维嵌入向量与涵盖气候、植被、水文、温度和地形的26个环境变量进行了全面的可解释性分析。通过结合线性、非线性和基于注意力机制的方法，我们发现各个嵌入维度能够映射到特定的地表属性，而整个嵌入空间能够高精度地重构大部分环境变量（26个变量中有12个的R²值超过0.90；温度和海拔的R²值接近0.97）。最强的维度-变量关系在三种分析方法中都是一致的，并且在空间块交叉验证中表现出稳健性（平均ΔR²=0.017），并且在七年研究期间保持时间稳定性（年均相关性r=0.963）。基于这些验证的结果，我们开发了一个名为“Land Surface Intelligence”的系统，该系统通过FAISS索引的嵌入数据库（包含1210万个向量）实现检索增强生成，将自然语言环境查询转化为基于卫星数据的评估。在360个查询-响应周期中进行的LLM作为裁判的评估中，使用四个LLM分别扮演生成器、系统和裁判的角色，得到的加权分数为μ=3.74±0.77（1-5分制），其中基于事实的准确性（μ=3.93）和一致性（μ=4.25）是最重要的评估标准。我们的结果表明，卫星基础模型的嵌入向量是具有物理结构的表示，可以用于环境和地理空间智能应用。

**1. 引言**

基础模型正成为地球观测和环境系统建模中的变革性方法（Xiao等人，2025年；Zhu等人，2026年；Bodnar等人，2025年；Hong等人，2024年；Mai等人，2023年）。这些模型在庞大的数据集上训练，能够从未标记的卫星数据中学习丰富的特征表示，并将其转移到各种下游任务中。Google的AlphaEarth整合了多模态卫星数据（包括光学图像、SAR和气候观测数据），构建了用于全球地表特征描述的高维嵌入场（Brown等人，2025年；Tollefson，2025年）。尽管卫星基础模型的应用日益广泛，但对学习到的嵌入向量的可解释性理解仍存在显著差距，这限制了我们对哪些物理属性被编码以及这些表示如何用于环境决策系统的洞察。在高维特征空间中，解释性尤其具有挑战性，因为复杂非线性关系并不立即显现。虽然有几项研究通过属性映射和分层分析探讨了基础模型的行为（Khan等人，2024年；Xiao等人，2025年；Mai等人，2023年），但对AlphaEarth嵌入是否编码了具有物理意义的环境特征的系统性研究仍然有限。最近的应用已经证明了其在特定任务中的实用性，包括城市空气质量预测（Alvarez等人，2025年）、农业分析（Fang等人，2025年；Murakami，2025年）和空间表示学习（Liu等人，2025年）。然而，能够实现更广泛集成到环境信息系统的维度-变量关系的全面表征仍然缺乏。

对于地理空间模型来说，一个关键的方法学考虑是空间验证。当使用标准随机交叉验证时，空间自相关可能导致对泛化能力的严重高估（Ploton等人，2020年；Karasiak等人，2022年）。随机验证可能会将空间邻近样本的记忆与真正的模式学习混淆，从而导致性能指标膨胀，而这些指标可能无法在空间上泛化（Kattenborn等人，2022年；Roberts等人，2017年）。

除了可解释性之外，维度-变量关系还促进了基础模型与自然语言接口之间的新应用。检索增强生成（RAG）系统可以利用嵌入相似性搜索，将大型语言模型（LLM）的响应与实际的卫星数据相对应。大型语言模型与地理空间科学的整合已成为一个快速发展的研究前沿，应用范围包括空间查询系统、自主GIS工作流程和多智能体决策支持（Wang等人，2024年；Zhang等人，2023年；Xu等人，2025年；Sun等人，2026年）。最近的框架探索了在结构化地球数据中定位LLM代理以用于灾害响应（Chen等人，2025年）、在地理空间数据库上的自然语言检索，以及统一多模态地球观测数据的智能体系统（Feng等人，2025年）。利用地理空间基础模型的系统要求嵌入向量能够编码与物理变量有意义且稳定的关系。评估此类系统也带来了额外的挑战，因为传统指标可能无法捕捉到响应质量的维度，如科学准确性和实用性。

在这项研究中，我们通过多步骤研究AlphaEarth嵌入向量的可解释性及其在土地表面智能中的应用来填补这些空白。利用2017年至2023年间美国大陆的1210万个样本，我们系统地描述了64维嵌入空间与涵盖地形、气候、植被、水文和城市发展的26个环境变量之间的关系。我们通过空间和时间稳定性分析来测试这些关系，然后利用验证后的解释结果开发了一个土地表面智能系统，该系统允许通过检索增强生成来处理自然语言查询。

具体来说，我们解决了以下研究问题：

1. AlphaEarth嵌入维度是否编码了具有物理意义的环境特征，我们能否确定哪些维度对应于特定的地表属性？
2. 嵌入-变量关系是否对空间验证具有鲁棒性，并且在多年间是否保持稳定？
3. 经过验证的维度解释是否能够实现自然语言环境查询的检索增强生成？
4. 我们如何评估基于LLM的地理空间系统在科学准确性和响应质量方面的表现？

**2. 方法**

**2.1. 研究区域和采样设计**

为了定义我们的研究区域，我们首先在美国大陆（CONUS）创建了一个规则的采样网格，范围为经度125.0°W–66.5°W和纬度24.5°N–49.5°N。网格点之间的间隔为0.025°（大约2.75公里），共得到约234万个位置。我们提取了2017年至2023年所有七个可用AlphaEarth年度合成数据集的数据，每年大约产生173万个样本，最终得到约1210万个样本的聚合数据集。

**2.2. AlphaEarth嵌入**

我们通过Google Earth Engine API（Gorelick等人，2017年）获取了AlphaEarth基础模型的嵌入向量。这些是64维向量（A00–A63），由一个基于多模态卫星数据训练的地理空间嵌入模型生成，包括Sentinel-2光学图像、Sentinel-1合成孔径雷达、Landsat和辅助地球观测数据（Brown等人，2025年）。每个年度合成数据将给定位置和年份的完整观测序列总结为一个嵌入向量。我们提取了1公里分辨率的嵌入向量，并设置了500米的点缓冲区。分布式的8位量化值被转换为浮点数以用于所有分析。由于边缘效应或数据缺失而缺少嵌入值的样本被排除在外。

**2.3. 环境变量**

我们收集了26个环境变量，涵盖七个主题类别，以描述每个样本位置的地表属性（表1）。

| 变量类别 | 来源 |
|---------|------|
| 地形 | USGS SRTM 30米DEM（Farr等人，2007年） |
| 海拔 | |
| 坡度 | |
| 方位 | |
| 流量累积（对数） | HydroSHEDS（Lehner等人，2008年） |
| 土壤 | OpenLandMap/SOL_CLAY-WFRACTION（250毫秒） |
| 有机碳 | OpenLandMap/SOL_ORGANIC-CARBON（250毫秒） |
| 水分含量（KPa） | OpenLandMap/SOL_WATERCONTENT-3（250毫秒） |
| 植被 | NASAMODIS MOD13A2（16天，1公里分辨率） |
| NDVI（年均） | |
| EVI（年均） | |
| LAI（年均） | |
| 树木覆盖率（%） | Hansen等人/UMD/hansen/global_forest_change（30毫秒） |
| 阿尔贝多（WSA短波） | |
| 温度 | NASAMODIS MOD11A2（8天，1公里分辨率） |
| 日间LST（°C） | |
| 夜间LST（°C） | |
| 平均气温（°C） | |
| 露点温度（°C） | |
| 降水量（年） | PRISMAN81m（4公里分辨率） |
| 月降水量（mm） | PRISMAN81m（4公里分辨率） |
| 土壤湿度（m³/m³） | ECMWFERA5-Land（月度汇总，11公里） |
| 年径流（mm） | ECMWFERA5-Land（累积，11公里） |
| 年蒸发量（mm） | ECMWFERA5-Land（累积，校正符号） |
| 不透水面百分比（%） | USGS NLCD（30毫秒） |
| 夜间光照（nW/cm²/sr） | NOAA VIIRS DNB VCMCFG（500米分辨率） |
| 人口密度（每平方公里） | CIESINGPWv4（2020年估计，静态） |

**2.4. 可解释性分析**

我们应用了三种互补的方法来描述AlphaEarth嵌入维度与环境变量之间的关系：Spearman等级相关性、随机森林回归和多任务Transformer模型。

**2.4.1. Spearman等级相关性**

我们计算了每个64个嵌入维度与26个环境变量之间的Spearman等级相关系数（ρ），得到一个64 × 26的相关矩阵。从多年数据集中随机抽取了n=1,000,000个样本。我们使用Spearman的ρ而不是Pearson的r，因为它可以在不假设线性的情况下捕捉关系。在这种样本量下，所有非零相关性的p值都小于0.001。对于每个维度，主要对应的变量被确定为具有最高|ρ|的变量。

**2.4.2. 随机森林回归**

我们为每个环境变量分别训练了随机森林（RF）回归器（Breiman，2001年），使用所有64个嵌入维度作为预测因子。从汇总数据集中抽取了n=700,000个样本；在排除目标值缺失的样本后，有效样本量从309,666（PRISM衍生变量）到700,000（具有完整空间覆盖的变量）不等。每个模型都使用5折交叉验证进行评估。在100,000个样本的子集上计算了排列重要性，得到一个64 × 26的重要性矩阵。对于每个变量，我们记录了三个最重要的嵌入维度。

**2.4.3. 多任务Transformer**

我们设计了一个多任务TabTransformer，从64维嵌入输入共同预测所有26个环境变量。该架构包括一个输入投影层（每个维度到dmodel=128的标量，产生64个令牌）、一个四层Transformer编码器（h=8个注意力头，前馈维度dff=512，丢弃率为0.1）和一个共享的输出MLP（128→512→26），用于处理平均池化的令牌表示。我们在NVIDIA RTX 5090 GPU（32 GB VRAM）上使用bfloat16混合精度训练，批量大小为2048，训练了60个周期。

**2.4.4. 方法收敛性**

对于每个维度，我们比较了三种方法产生的主要变量分配。如果至少有两种方法将相同的环境变量识别为主要关联变量（即Spearman的|ρ|最高、RF的排列重要性最高或Transformer的梯度重要性最高），则认为该维度是一致的。我们通过计算所有64×26=1,664个维度-变量对之间的Pearson相关性来量化线性和非线性表征之间的整体一致性。得到的r=0.45处于Schober等人（2018年）的中等相关范围（0.40–0.69）内，表明这两种方法虽然识别出相似的结构，但各自捕捉了嵌入-变量关系的不同方面。由于Spearman测量的是单调线性关联，而RF排列重要性反映的是非线性预测贡献（包括交互效应），因此不期望完全收敛。2.5. 验证2.5.1. 空间块交叉验证在地理空间环境中，随机交叉验证可能会高估性能，因为空间上相邻的样本通过空间自相关共享信息（Ploton等人，2020年；Roberts等人，2017年）。为了评估空间泛化能力，我们将CONUS划分为2°×2°的块，并使用分组k折分割方法将块分配到五个折叠中，确保一个块内的所有样本都出现在同一个折叠中。我们对RF和Transformer模型应用了空间交叉验证，并计算了每个变量的泛化差距ΔR2=Rrandom2−Rspatial2。2.5.2. 时间稳定性我们通过计算特定年份的Spearman相关性剖面来评估嵌入变量关系是否随时间保持稳定。对于每个年份（2017-2023年），我们独立抽取了n=300,000个样本并计算了完整的64 × 26相关性矩阵。这产生了每个维度的七个年度相关性剖面，每个剖面是一个包含ρ值的26元素向量。时间稳定性通过其年度剖面之间的平均成对皮尔逊相关性来量化，共21个年份对。接近1.0的值表明该维度与环境变量的关系随时间是一致的，而低值则表明对年际变化的敏感性。2.6. 维度字典我们将所有三种方法的输出编译成一个维度字典：一个结构化的查找表，记录每个维度的主要Spearman变量（最大|ρ|）、主要RF变量（最大重要性）、主要Transformer变量（最大梯度重要性）、相关的相关强度和重要性得分以及主题类别分配。该字典还记录了双向（Spearman–RF）和三向一致性标志。这个字典作为Land Surface Intelligence系统的解释基础，在查询时将原始嵌入值转换为环境意义。2.7. 土地表面智能系统我们开发了一个Land Surface Intelligence系统，该系统在AlphaEarth嵌入空间上实现了检索增强生成（RAG），使得基于卫星数据的自然语言环境查询成为可能（图1）。下载：下载高分辨率图像（452KB）下载：下载全尺寸图像图1. 土地表面智能系统架构。流程从自然语言查询开始，该查询被解析为地理坐标和目标年份。从FAISS索引的包含1210万个样本的数据库中检索相应的AlphaEarth嵌入向量和环境变量。每个嵌入维度都使用从Spearman、随机森林和Transformer分析中编译的维度字典进行解释。查询被分类为十个意图类别之一，然后通过最近邻搜索检索出k个最相似的位置。包含位置数据、维度解释和相似位置元数据的结构化上下文文档通过检索增强生成提供给大型语言模型，以生成基于环境的评估。2.7.1. FAISS向量索引我们使用Facebook AI相似性搜索（FAISS）（Johnson等人，2019年）对大约1210万个嵌入向量进行了索引。我们使用了IndexIVFFlat，nlist=3,500个簇（大约N个）和搜索时的nprobe=64。每个向量链接到一个包含坐标、年份和所有26个环境变量的元数据记录，存储在Parquet文件中。k最近邻检索的查询延迟小于毫秒。在AlphaEarth嵌入空间中的接近性对应于物理陆地表面特征的相似性。因此，一个地理区域中的查询位置可以检索到整个CONUS内物理上类似的位置，从而无需显式特征匹配即可进行比较环境分析。2.7.2. 查询流程我们开发了一个以位置优先的查询流程，通过五个连续阶段将自然语言查询转换为结构化的环境剖面。在第一阶段，位置解析中，自然语言位置参考（例如，“Upper Valley, NH”）通过分层匹配过程被解析为地理坐标。当存在时，提取与可用数据年份（2017-2023年）相对应的时间参考；否则，系统默认使用最新可用年份。第二阶段检索解析位置的嵌入向量。给定坐标（lon, lat），我们使用欧几里得距离在地理空间中识别最近的索引点。从元数据存储中检索相应的64维嵌入向量及相关环境变量。在第三阶段，使用从我们的可解释性分析（第2.6节）构建的维度字典解释每个嵌入维度。对于与环境变量具有|ρ|>0.5相关性的维度，我们生成结构化的解释，将维度值与环境意义联系起来。例如，A57维度的高值与其与降水的正相关（ρ=+0.78）表明该位置处于湿润气候区。第四阶段将用户查询分类为十个意图类别之一：洪水风险、干旱脆弱性、植被健康、农业适宜性、气候特征、地形分析、水文、城市发展、位置比较和一般概况。分类使用预定义的分类法与关键词匹配，每个意图类别都关联有一组触发关键词和相关环境变量的优先列表。意图分类帮助我们确定响应中强调哪些变量和维度解释。第五阶段通过FAISS索引执行相似性搜索，以识别k个最相似的位置（默认k=10）。2.7.3. LLM集成检索流程的输出通过检索增强生成（RAG）与大型语言模型集成。集成通过两个组件进行：一个静态系统提示，编码经过验证的维度-变量关系；以及一个从检索流程输出中组装的动态查询上下文文档。系统提示为LLM提供了来自我们分析的解释框架。它指定了六个最强的维度-变量关系及其相关符号和幅度（例如，“A57 → 降水量（ρ=+0.78）：较高值表示更湿润的气候”；“A00 → 蒸发蒸腾（ρ=−0.74）：较高值表示较低的ET”），按变量类别总结的性能基准（温度、植被和地形的R2范围），以及明确指示模型引用检索数据中的具体数值和嵌入维度标识符的指令。相关符号至关重要：对于负相关的维度，提示编码了方向反转，以防止将高嵌入值误解为表示高环境变量值。对于每个查询，都会生成一个Markdown格式的结构化上下文文档，并附加到用户的问题中。该文档包含五个部分：（1）带有解析坐标和数据年份的位置标题；（2）按主题类别（地形、土壤、植被、温度、气候、水文）分组的所有26个环境变量值的表格，以及单位；（3）按绝对值排名的前10个嵌入维度，每个维度都标注了其主要变量、相关系数和生成的含义陈述（例如，“A57：值=1.24 → 降水量（ρ=+0.78）表示高于平均降水量”）；（4）突出显示与检测到的查询意图相关的变量和风险因素的意图特定综合部分；（5）通过FAISS检索的k个最近邻居的元数据，包括坐标、年份和余弦相似性得分。含义陈述是通过结合嵌入值的符号和维度-变量相关符号程序生成的，确保方向解释与可解释性分析中验证的关系一致。LLM接收系统提示和上下文文档，并按照规定的格式生成结构化响应：执行摘要、分类的环境数据表、关键嵌入维度解释、意图特定的分析、类似位置模式和方法论注意事项（数据分辨率、研究级状态、间接大气表示）。我们使用Dartmouth Chat API（Dartmouth College，2024年）实现了该系统，该API可以访问多个LLM后端。在评估实验中，我们选择了四个免费级别的模型以最大化查询预算同时保持响应质量：GPT-OSS-120B（一个以推理为重点的开源模型）、Llama-3.2-11B-Vision-Instruct（Grattafiori等人，2024年）、Gemma-3-27B-IT（Gemma团队，2025年）和Qwen3-VL-32B-Instruct（Yang等人，2025年）。这些模型涵盖了不同的架构家族和训练方法，为跨模型评估提供了多样性。2.8. 系统评估评估基于LLM的地理空间系统面临的挑战超出了传统的检索指标，因为响应质量包括科学依据、事实准确性和决策支持的实际效用。我们采用了LLM作为裁判的框架（Zheng等人，2023年），通过轮换模型角色来减轻单一模型的偏见，并提供多视角的系统性能评估。2.8.1. 评估设计我们设计了一个围绕三个功能角色的跨模型评估实验：查询生成器、测试系统和裁判。查询生成器生成关于随机采样的CONUS位置的自然语言查询。测试系统通过我们的Land Surface Intelligence流程使用特定的LLM后端处理这些查询。裁判根据定义的标准评估系统响应的质量。四个免费级别的LLM根据设计约束轮换这些角色：生成器和裁判模型必须与系统模型不同，以防止自我评估偏差。这产生了12种不同的配置（4个系统模型×3个生成器/裁判模型组合）。对于每种配置，我们生成了30个查询，总共进行了360个评估周期。查询位置在CONUS范围内均匀采样（125.0°W–66.5°W, 24.5°N–49.5°N）。每个查询通过轮询分配被分配到十个意图类型之一，以确保跨用例的平衡覆盖。查询文本使用特定于每个意图类型的模板生成，并包含自然语言变化（例如，“[位置]的洪水风险是什么？”或“评估[位置]的干旱脆弱性”）。2.8.2. 评估标准系统响应根据五个标准进行评估，这些标准反映了它们对科学应用的重要性。依据性（权重=0.25）评估响应是否引用了实际嵌入数据及其正确的解释，区分了数据驱动的响应和通用或推测性的陈述。科学准确性（权重=0.25）评估解释是否与我们分析中验证的维度-变量关系一致，例如正确解释A48与EVI的正相关或A57与降水的关联。完整性（权重=0.20）衡量响应是否全面解决了用户查询，并包含了适当的相关环境类别。连贯性（权重=0.15）评估响应是否结构良好、清晰且逻辑组织得当，并适当综合了多个数据源。实际效用（权重=0.15）评估提供的信息是否对环境决策具有可操作性。每个标准根据提供给裁判模型的详细评分标准在1-5的范围内评分。加权得分计算如下：(1)Sweighted=0.25⋅G+0.25⋅A+0.20⋅C+0.15⋅H+0.15⋅U，其中G、A、C、H和U分别表示依据性、科学准确性、完整性和实际效用得分。2.8.3. 裁判协议在每个评估周期中，裁判LLM接收一个包含原始用户查询、位置元数据（坐标、年份、意图类型）和系统完整响应的结构化提示。提示包括评估标准，并指示裁判为每个标准提供分数以及简要的理由。为了评估裁判之间的可靠性，我们检查了四个裁判模型之间的分数分布，并计算了重叠查询-响应对的加权分数的成对相关性。3. 结果在本节中，我们围绕第1节提出的四个研究问题组织了发现。首先，我们检查AlphaEarth嵌入维度是否编码了具有物理意义的环境特征（RQ1），然后评估这些关系的空间和时间稳健性（RQ2）。我们描述了经过验证的解释如何使Land Surface Intelligence系统成为可能（RQ3），最后通过LLM作为裁判的框架评估系统的响应质量（RQ4）。3.1. RQ1：AlphaEarth嵌入是否编码了具有物理意义的环境特征？我们的第一个研究问题是64维AlphaEarth嵌入空间是否编码了与物理陆地表面属性可识别的关系。为了回答这个问题，我们将其分为四个部分：（1）各个维度与环境变量之间存在哪些线性关联；（2）完整嵌入空间可以通过非线性模型解释环境变量的多少方差；（3）联合训练的Transformer揭示了哪些额外结构；（4）三种分析方法是否在维度-变量分配上达成一致。3.1.1. 维度与环境变量之间存在哪些线性关联？64 × 26的Spearman相关矩阵揭示了嵌入空间中的结构化、可物理解释的关系。图2a显示了分层聚类后的完整矩阵，图2b按最强绝对相关性对20个最可解释的维度进行了排名。在64个维度中，有34个维度的相关系数超过|ρ|>0.5，62个维度的相关系数超过|ρ|>0.3，六个维度的相关系数超过|ρ|>0.7。最强的相关性涵盖了不同的环境领域。A57维度与年降水量（ρ=+0.78）的相关性最强，同时也与叶面积指数（ρ=+0.76）、露点温度（ρ=+0.74）和海拔（ρ=−0.70）有显著关联。这种多变量剖面反映了复杂地形中地形降水量、植被生产力和温度调节之间的耦合（Daly等人，2008年）。A40维度捕捉了热状况，与日地表温度（ρ=+0.78）相关，并与土壤有机碳（ρ=−0.78）呈反比关系，这与温暖环境中更快的分解速率一致（Davidson和Janssens，2006年）。A48维度编码了植被结构：EVI（ρ=+0.73）、LAI（ρ=+0.72）和NDVI（ρ=+0.71）。A26维度捕捉森林覆盖情况（ρ=−0.74，包括树木覆盖），A00维度编码水文循环（蒸散作用ρ=−0.74、降水量ρ=−0.65、土壤湿度ρ=−0.61），A50维度跟踪平均气温（ρ=−0.70）。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像

图2. AlphaEarth嵌入可解释性分析。(a) 嵌入维度与环境变量之间的Spearman等级相关矩阵（64 × 26），并对行和列应用了层次聚类。顶部轴上的颜色条表示每个环境变量的主题类别。(b) 按绝对Spearman相关性（|ρ|）从高到低排列的20个最可解释的维度，标签指示主要关联的变量。垂直参考线标记|ρ|=0.5和|ρ|=0.7。(c) 使用64维嵌入作为输入时，随机森林和Transformer模型对每个环境变量的预测能力（R2，5折交叉验证）。变量按R2降序排列；水平参考线标记R2=0.5、0.7和0.9。

图2a还显示了从层次聚类中产生的块对角结构。维度按主题相似性分组：与温度相关的维度聚集在一起，植被和水文维度也是如此。这表明AlphaEarth训练过程沿物理上连贯的轴组织嵌入空间，而不是任意分布环境信息。图5中的空间地图进一步证实了这一点，显示各个嵌入维度的地理分布与其最相关的环境变量的空间模式非常吻合。

3.1.2. 完整的嵌入空间能解释多少方差？
随机森林回归量化了所有64个维度共同预测每个环境变量的能力。图2c比较了所有26个变量的RF和Transformer的R2值。
在5折交叉验证下，26个变量中有12个的R2>0.9，20个的R2>0.7。最强的预测是针对温度相关变量：露点温度（R2=0.97）、平均气温（R2=0.97）和日LST（R2=0.96）。海拔（R2=0.96）和夜LST（R2=0.96）也几乎被完美重建。在植被指数中，NDVI（R2=0.94）、EVI（R2=0.94）、树木覆盖（R2=0.93）和反照率（R2=0.92）也被很好地捕捉到了。蒸散作用（R2=0.90）和土壤湿度（R2=0.80）显示出较强的预测能力，但较低。城市指标，包括夜间灯光（R2=0.58）和人口密度（R2=0.56），编码较弱。
排列重要性确定了哪些维度驱动这些预测。对于植被变量，A57和A48始终排在前三名预测因子中（NDVI：A57第一，A48第二；EVI：A57第一，A48第二）。温度预测依赖于一组不同的维度：日LST主要依赖于A40，而夜LST和平均气温依赖于A14和A50。这种分离表明嵌入空间区分了白天的辐射加热和夜间的热惯性。最难预测的变量是坡向（R2=0.30）和流量累积（R2=0.15），这可能反映了1公里尺度卫星嵌入在解析局部坡向和上游流域几何形状方面的能力有限。

3.1.3. Transformer揭示了哪些额外的结构？
多任务Transformer从64维输入中联合预测所有26个变量，其R2值高于随机森林（图2c）。在随机交叉验证下，14个变量的R2>0.9（RF为12个），20个变量的R2>0.8。降水相关变量的改进最大：年降水量从R2=0.83（RF）提高到R2=0.92（Transformer），最大月降水量从R2=0.63提高到R2=0.78。露点温度（R2=0.99）和平均气温（R2=0.98）接近完美预测。
Transformer的自注意力机制揭示了其他两种方法未能捕捉到的维度间关系。来自最终编码层的注意力权重，在200,000次前向传递中的平均值显示，A16维度作为一个注意力中心，从大多数其他维度接收不成比例的高关注度。这表明A16编码了一个广泛相关的条件特征，可能与地理或气候背景有关，模型在预测多个目标变量时使用了这一特征。

3.1.4. 这三种方法是否一致？
这三种方法提供了互补而非冗余的嵌入空间表征。图3将每种方法的维度-变量映射可视化为二分网络，并量化了它们之间的一致性。在比较主要变量分配时，Spearman和随机森林在64个维度中有11个维度是一致的（双向一致性为17.2%）。没有维度在所有方法中都达到三方一致性，这是预期的，因为每种方法捕捉到不同的方面：Spearman测量单调趋势，随机森林通过排列捕捉非线性重要性，而Transformer在联合训练的模型中提取梯度敏感性。

3.2. RQ2：嵌入-变量关系在空间上是否稳健，在时间上是否稳定？
我们的第二个研究问题是，RQ1中确定的维度-变量关系是否在空间上具有普遍性，并且随时间保持不变。我们分两部分进行检验：(1) 通过块交叉验证评估空间普遍性；(2) 七年间的时间稳定性。

3.2.1. 关系在空间验证下是否成立？
使用2°×2°的块作为分组单元的空间块交叉验证，测试预测模型是否利用了空间自相关性或捕捉到了真实的物理结构。图4a显示了每个变量的普遍性差距（ΔR2=Rrandom2−Rspatial2）。对于Transformer，所有26个变量的平均差距为ΔR2=0.017，其中18个变量的差距低于0.02。最小的差距出现在海拔（ΔR2=0.002）、NDVI（ΔR2=0.002）和EVI（ΔR2=0.002），表明这些关系在不同地区具有很好的普遍性。最大的差距出现在径流（ΔR2=0.083）、最大月降水量（ΔR2=0.066）和粘土比例（ΔR2=0.046）上。这些变量具有强烈的区域异质性和局部决定因素，可能不会在不同空间块之间传递。
对于在top 10个变量上评估的随机森林模型，平均差距为ΔR2=0.009，所有十个变量的R2>0.83。最小的RF差距是降水量（ΔR2=0.002），最大的是土壤有机碳（ΔR2=0.030）。通常较窄的差距表明嵌入编码了物理结构，而不是利用了训练数据中的空间邻近性。这与之前关于地理空间机器学习中存在显著空间膨胀的报告（Ploton等人，2020年）形成对比，可能是因为AlphaEarth嵌入代表了超越局部空间模式的广泛地表特征。
一个相关的考虑因素是环境目标变量与嵌入之间的分辨率不匹配是否会影响观察到的预测性能。这26个变量的原始分辨率从30米（SRTM海拔）到11公里（ERA5-Land水文）不等，而嵌入是在2.75公里采样网格上以1公里尺度提取的。然而，R2值的模式并不随原始分辨率变化：30米的海拔达到了R2=0.96，与4公里分辨率的PRISM温度变量（R2=0.97–0.98）相当，而最粗糙的变量（ERA5-Land 11公里）的性能较低（土壤湿度R2=0.80，径流R2=0.78），低于1公里分辨率的MODIS植被指数（R2=0.94）。如果空间平滑是主导因素，我们会预期分辨率最低的变量具有最高的R2值，但这并非我们所观察到的情况。此外，交叉验证中使用的2°空间块（约220公里）大于任何变量的原始分辨率，确保了上述狭窄的普遍性差距不是由分辨率内的空间冗余造成的。我们注意到ERA5-Land变量存在一些像素内的冗余，大约四个网格点落在一个源像素内，而在回归之前将嵌入聚合成每个目标的原始分辨率可能会进一步隔离尺度依赖的效应。

3.2.2. 关系是否在年份间稳定？
为了评估时间稳定性，我们计算了每年的Spearman轮廓（n=300,000个样本/年，2017–2023年），并测量了每个维度年度轮廓之间的平均成对相关性。图4b显示了所有64个维度的稳定性，图4c显示了年际相关矩阵，图4d跟踪了所有年份中排名前10的维度-变量对。

3.3. RQ3：经过验证的解释是否能够支持检索增强生成？
我们的第三个研究问题是，RQ1中建立的维度-变量关系以及RQ2中验证的关系是否可以作为自然语言环境查询系统的基础。Land Surface Intelligence系统（图1）通过三个组件实现这些关系：一个将嵌入值转换为环境意义的维度字典、一个允许在1210万个样本上进行相似性搜索的FAISS索引向量数据库，以及一个基于检索数据的LLM集成层。维度字典将所有三种可解释方法的输出编译成一个结构化的查找表。对于|ρ|>0.5的维度（64个维度中的34个），系统在查询时生成环境解释。例如，A57的高值与其与降水量（ρ=+0.78）的正相关被解释为指示湿润的气候类型；A48的高值与其与EVI（ρ=+0.73）的相关性表明植被生产力高。这些解释作为结构化上下文提供给LLM，同时从元数据存储中检索实际的环境变量值。
在FAISS索引上的相似性搜索利用了嵌入空间的一个核心属性：邻近性对应于地表上的物理相似性。在新英格兰的查询位置可以检索到美国大陆的类似位置，可能在太平洋西北部或阿巴拉契亚山麓，从而无需显式特征匹配即可进行比较环境分析。图5中可见的嵌入维度与环境变量之间的空间对应关系支持了这种检索机制。
图5中报告的指标说明了线性和非线性方法对于同一维度-变量对可能存在的差异。对于A57-降水量和A48-EVI这样的对，Spearman ρ和非线性R2值都始终很高，表明这些关系仅通过单调关联就能很好地捕捉到。这个差距表明存在交互效应或非线性响应函数，而这些是秩相关性无法检测到的。Transformer在所有六对数据中的R2值都达到了或超过了随机森林的R2值，这表明了联合多任务预测的好处，即跨相关目标变量的共享表示能够提高单个变量的重建效果。这些模式与第3.1.4节中提出的系统收敛性分析一致，其中Spearman |ρ|与RF排列重要性之间的中等整体相关性（r=0.45）证实了线性和非线性方法描述的是嵌入空间的互补方面，而不是冗余方面。下载：下载高分辨率图像（3MB）下载：下载全尺寸图像图5. 空间可解释性演示。展示了六个跨越不同环境类别的维度-变量对。对于每一对，左侧面板映射了嵌入维度值，右侧面板映射了相应的环境变量在整个美国大陆（CONUS）上的分布，两个面板都使用相同的颜色刻度进行了百分位数排名（0–100）的标准化，以便于视觉比较。报告了每对数据的Spearman ρ、随机森林R2和Transformer R2值。嵌入维度与其相关环境变量之间的空间对应关系证实了学习到的表示能够编码出地理上连贯的物理特征。查询意图分类决定了哪些变量和维度解释被强调。十个意图类别，从洪水风险和干旱脆弱性到植被健康和位置分析，每个类别都对应于一组优先的环境变量。这种映射是基于可解释性分析的结果：洪水风险查询强调编码降水量（A57）、土壤湿度（A00）和径流的维度，而植被查询则优先考虑A48（EVI）和A26（树木覆盖）。意图类别与特征维度之间的对齐使得响应更加具体和领域相关，而不仅仅是通用的环境总结。

3.4. RQ4：我们如何评估基于LLM的地理空间系统？我们的第四个研究问题涉及基于LLM的地理空间系统的评估，这需要超出标准检索准确性的指标。我们从三个方面进行考察：（1）360个评估周期内的整体系统性能；（2）不同LLM后端之间的差异；（3）不同查询意图类型之间的差异。

3.4.1. 整体响应质量如何？在360个查询-响应周期中，涉及四种LLM的12种配置，这些LLM在生成器、系统和评判者角色之间轮换，平均加权得分为μ=3.74（σ=0.77），评分范围为1-5分。图6c显示了每个标准的得分分布。所有五个标准都超过了3.0的合格阈值。一致性得分最高（μ=4.25，σ=0.86），表明响应组织得很好。基于事实的回答（μ=3.93，σ=0.96）表明响应经常引用具体的嵌入维度和环境变量值，而不是生成通用文本。科学准确性（μ=3.57，σ=0.89）和完整性（μ=3.58，σ=0.94）处于合格到良好的范围内。实际效用得分最低（μ=3.41，σ=0.78），表明在将环境数据转化为可操作指导方面还有改进空间。图7c显示了各标准之间的相关性结构。加权得分主要受基于事实的回答（r=0.92）和科学准确性（r=0.90）的影响，证实评估框架优先考虑数据驱动的响应。基于事实的回答和一致性之间的相关性为r=0.79，表明基于事实的回答往往更有条理。完整性和实际效用之间的相关性为r=0.78，表明更全面的响应被认为更有用。一致性と实际效用之间的相关性最弱（r=0.47）；一个连贯的响应如果没有特定领域的建议可能不具备可操作性。

图6. LLM作为评判者的评估框架和结果。(a) 跨模型评估设计：一个查询生成器LLM生成自然语言查询，土地智能系统用指定的系统LLM处理这些查询，然后评判者LLM根据五个加权标准评估响应质量。(b) 360个评估查询在美国大陆的地理分布，按加权得分着色。(c) 每个评估标准及总体加权得分的分布（n=360）。菱形标记表示平均值；μ和σ已标注。下载：下载高分辨率图像（567KB）下载：下载全尺寸图像图7. 系统性能分析。(a) 四种系统LLM后端按评估标准的平均得分；误差条表示一个标准差。(b) 按加权得分排名的所有评估标准的查询意图类型平均得分。(c) 五个评估标准与加权得分之间的成对皮尔逊相关性。

3.4.2. 不同LLM后端的性能是否有所不同？图7a比较了四种系统模型的性能。GPT-OSS-120B获得了最高的加权得分（μ=3.94），尤其是在基于事实的回答和科学准确性方面优势明显。这种更注重推理的模型在给定结构化上下文时，能够更一致地引用具体的嵌入数据和环境变量。所有模型的连贯性得分都很高（μ>4.0），表明即使较小的模型也能生成组织良好的文本。

3.4.3. 不同查询意图的性能是否有所不同？图7b显示了不同意图类型之间的系统性能差异。位置分析（μ=3.84）和水文学（μ=3.84）获得了最高的加权得分，其次是植被健康（μ=3.82）和洪水风险（μ=3.80）。这些意图与我们可解释性分析中发现的最强的嵌入-变量关系一致：水文学查询受益于降水量（A57，ρ=+0.78）、蒸散作用（A00，ρ=−0.74）和土壤湿度的强编码；植被查询则利用A48–EVI（ρ=+0.73）和A26–树木覆盖（ρ=−0.74）。时间变化查询的加权得分最低（μ=3.56），这反映了在没有明确多年比较的情况下，从单一年度嵌入数据中评估环境变化的难度。土壤属性（μ=3.64）和土地利用（μ=3.60）的表现也低于平均水平，这与可解释性分析中观察到的土壤和城市变量编码较弱的情况一致（粘土比例、夜间照明和人口密度的R2<0.80）。这种可解释性强度与查询性能之间的对应关系间接验证了系统设计的合理性。映射到特征明确的维度的意图获得了更基于事实、科学更准确的响应，而需要从编码较弱变量获取信息的意图则表现较差。改进嵌入空间对土壤和城市特征的表示可能会对这些查询类型带来最大的提升。

4. 结论本研究系统地调查了Google AlphaEarth卫星基础模型的嵌入及其在环境信息系统中的应用。利用七年间美国大陆1210万个样本，我们通过三种互补方法描述了64维嵌入空间与26个环境变量之间的关系：Spearman秩相关性用于线性关联，随机森林回归用于非线性预测关系，以及多任务Transformer用于联合预测和基于注意力的分析。然后通过空间块交叉验证和时间稳定性分析验证了这些关系，将结果编译成维度字典，并利用这一解释基础构建了一个土地表面智能系统，该系统通过检索增强生成的方式，在FAISS索引的嵌入数据库上回答自然语言环境查询。我们的可解释性分析表明，AlphaEarth嵌入不是不透明的特征向量，而是编码了关于土地表面的结构化、物理上连贯的信息。各个维度映射到特定的环境属性，涵盖气候、植被、水文学、温度和地形等方面，其中最强的关系在三种分析方法中都是一致的。嵌入空间共同解释了大多数环境变量的大部分方差，特别是温度、海拔和植被指数的重建精度非常高。重要的是，这些关系在空间块交叉验证中仍然成立，大多数变量的泛化能力较强，并且在七年可用数据中保持稳定。少数表现较弱或稳定性较低的维度和变量指出了基础模型在表示某些特征方面的具体局限性，特别是细尺度地形特征和城市指标。基于这些验证的解释，土地表面智能系统证明了卫星基础模型嵌入可以作为地理空间RAG流程的检索支柱。由于嵌入空间中的接近性对应于土地表面的物理相似性，该系统可以根据自然语言查询检索研究区域内的环境相似位置。设计有轮换模型角色的LLM作为评判者的评估表明，系统产生的响应基于实际卫星数据，并且在科学上是一致的。可解释性强度与查询级别性能之间的对应关系证明了这项工作的分析和应用组件之间的联系。需要承认几个局限性。我们的分析仅限于美国大陆，虽然涵盖了从干旱沙漠到温带森林和高山环境的多种生物群落，但没有包括热带、北方或极地土地覆盖类型。将所得到的维度-变量解释转移到其他生物地理区域的可能性取决于两个因素：(1) AlphaEarth训练数据是否包含这些区域的充分表示；(2) 嵌入维度与环境变量之间的物理关系是否在全球范围内一致或在地区上有所不同。AlphaEarth是在全球卫星观测数据上训练的（Brown等人，2025年），这为一定程度的可转移性提供了基础，但这里报告的具体维度分配和相关强度可能在主导土地表面过程不同的地区发生变化。例如，在温度季节性较弱且植被动态主要由水分可用性驱动的热带地区，编码温度-植被耦合的维度可能会表现不同（Nemani等人，2003年）。将这一可解释性框架扩展到其他大陆和气候区是评估这些发现普遍性的必要步骤。评估依赖于基于LLM的评判者而不是领域专家小组；虽然轮换角色设计可以减少单一模型的偏见，但人类专家的评估可以提供额外的验证层。可以通过强化学习从人类反馈和低秩适应等技术进一步微调LLM的响应（Hu等人，2022年）。未来的工作可以通过结合更高分辨率的辅助数据、将框架扩展到全球范围、整合多年嵌入以检测变化，以及在应用环境决策背景下使用多位领域专家来评估系统来解决这些差距。更广泛地说，这里展示的可解释性优先方法并不特定于AlphaEarth；同样的分析框架可以应用于其他地理空间基础模型的嵌入，随着这些模型的可用性，可以对其进行特征化和操作化。将验证的嵌入解释与目标气候风险数据相结合，可以实现针对洪水、干旱和野火风险的专门决策支持系统，超越一般的环境分析，提供具体的位置性气候适应指导。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部