基于GBIF的全球分类分层高分辨率采样努力数据集及其在无偏生态建模中的应用

时间:2026年5月21日
来源:Diversity and Distributions

编辑推荐:

生物多样性出现数据的时空与分类学采样偏差对稳健的生态推断、物种分布模型(SDMs)及保护规划构成关键挑战。尽管近几十年来全球生物多样性记录呈指数级增长,此类偏差依然存在。本研究通过可复现的工作流程,将全球生物多样性信息网络(GBIF)的原始出现记录转化为全球公

广告
   X   

生物多样性出现数据的时空与分类学采样偏差对稳健的生态推断、物种分布模型(SDMs)及保护规划构成关键挑战。尽管近几十年来全球生物多样性记录呈指数级增长,此类偏差依然存在。本研究通过可复现的工作流程,将全球生物多样性信息网络(GBIF)的原始出现记录转化为全球公开、按分类群分层且具有时间分辨率的采样努力栅格数据集,提供透明且标准化的观测计数与物种丰富度指标,以支持无偏生态分析。数据集涵盖两大互补栅格变量:观测计数与物种丰富度,覆盖九大主要分类群及其下级类群(如纲、目、科)。时间跨度为1980年至2025年的年度与累积栅格,空间覆盖全球,包含约1、5、10和20公里四种空间分辨率。基于约30亿条记录、涵盖超73万种物种,研究生成的全球年度与累积栅格量化了四个分辨率下的观测计数与物种丰富度,并按九大分类群及其后代分层。在1公里分辨率下,95%的记录仅占地球表面积的0.33%(占陆地面积的0.93%),剩余数据仅分布在1.77%(占陆地面积的3.88%)区域,约98%(占陆地面积的95%)区域未被采样。这种极端集中现象在所有分类群中均持续存在,凸显了分类特异性偏差校正的必要性。年度数据支持探索数据动员与采样努力的长期趋势。这些栅格可用于仅存在型SDMs的偏差校正,包括MaxEnt偏差文件、目标类群背景及基于模型的方法。除SDMs外,它们还可用于宏观生态综合、生物多样性监测及系统性保护规划,识别时空知识空白。所有数据与代码均依据FAIR原则开放获取,促进透明且可复现的生物多样性科学研究。

论文解读

研究背景与意义
全球生物多样性信息网络(GBIF)汇集了数十亿条地理参考物种出现记录,为宏观生态学、生物地理学和保护科学提供了关键数据基础,支撑物种分布模型(SDMs)、生物多样性格局分析及保护优先区规划。然而,这类机会性“仅存在(presence‑only)”数据普遍存在严重采样偏差:记录高度集中于交通便利、靠近城市与研究机构的区域,且不同分类群的采样方式、历史积累与数据动员程度差异显著。这种偏差导致SDMs易拟合采样努力而非真实环境适宜性,造成分布范围高估或低估,进而误导气候变化响应预测与入侵物种风险评估,最终影响保护资源配置效率。现有采样努力代理数据普遍存在空间分辨率不足、缺乏分类特异性、忽略时间动态三大局限,难以满足精细化无偏建模需求。为此,研究人员开发了这套全球分类分层高分辨率采样努力栅格数据集,发表于《Diversity and Distributions》,旨在为生态建模提供标准化、可复现的偏差校正基础数据。
关键技术方法
研究人员基于GBIF开放数据,采用模块化R语言工作流进行处理。首先针对两栖纲、蛛形纲、鸟纲(Aves)、真菌界(Fungi)、昆虫纲、哺乳纲、软体动物门、爬行纲及维管植物门(Tracheophyta)九大分类群,通过GBIF分类学主干解析分类单元及其直系后代。空间上采用7.5°×7.5°全球分幅策略,构建约1、5、10、20公里四种分辨率WGS84地理网格。数据获取限定1980年后、具备地理坐标的非化石、非圈养记录,经严格质量控制过滤:剔除坐标精度≤1位小数、坐标不确定性>10公里、位于行政中心或机构附近的异常记录。随后按网格统计各分类单元的观测计数与调查物种丰富度(唯一物种数),分别生成1980–2025年逐年及累积栅格,并通过虚拟栅格(VRT)技术拼接为全球无缝产品。最终数据集通过Open Science Framework(OSF)与Zenodo公开,并配套ecokit R包实现程序化调用。
研究结果
3 结果
经质控后保留约28.4亿条记录,涵盖超73万物种,占2025年GBIF已发布物种名的41%。观测计数高度聚集于西欧、北美、澳大利亚等温带区域,热带雨林、刚果盆地、新几内亚及极地和高海拔地区采样稀疏。值得注意的是,高观测计数并不等同于高分类覆盖率,凸显双指标互补价值。空间集中度分析表明:1公里分辨率下,95%记录仅占据地球表面0.33%(陆地0.93%),而底部5%记录分布于1.77%(陆地3.88%)区域,约98%地表(95%陆地)无任何记录;即便在20公里分辨率下,95%记录仍集中于仅2%全球面积(陆地5.6%)。该模式在所有分类群中一致存在,但程度各异:鸟类记录占比高达77%,其中雀形目(Passeriformes)单独贡献约12.1亿条记录(占总记录42%);而昆虫与维管植物虽各有超26万物种,记录量仅分别为2.21亿和3.32亿条。时间动态显示:2000年后记录呈指数增长,鸟类(尤其雀形目)、维管植物与鳞翅目增长最快,真菌与软体动物增长平缓,反映不同类群的数据动员差异。
讨论与结论
4 讨论
本数据集通过分类分层、时间分辨与多尺度设计,克服了传统全类群合并代理的局限,首次在全球尺度量化了采样偏差的极端空间集中性。研究发现,即便在20公里分辨率下,全球仍有三分之二区域无GBIF记录,且热带高多样性地区与北半球温带地区的采样密度差距悬殊,这种“数据荒漠”将持续制约生物多样性评估的公平性。分类差异同样显著:少数受关注类群主导数据增长,而高多样性类群(如昆虫、植物)代表性严重不足。研究人员强调,在SDMs应用中应根据类群特性选择观测计数或物种丰富度作为偏差代理,并匹配环境变量分辨率与时间窗口;例如MaxEnt可采用目标类群背景法,将背景点限制于有采样记录的网格内。除建模外,该数据集可直接用于识别保护空缺、优化监测网络布局及指导公民科学采样优先级。
5 结论
本研究发布的全球采样努力栅格数据集,通过观测计数与物种丰富度双指标、多分辨率与分类分层设计,为无偏生态分析提供了标准化基础。数据集实现了从原始GBIF记录到可复用栅格产品的透明转化,支持在SDMs中分离生态信号与采样伪影,并可拓展至宏观生态综合、生物多样性监测及系统性保护规划。开放源代码与FAIR数据共享模式确保了长期可复现性与广泛适用性,为全球尺度生物多样性知识缺口识别与证据驱动的保护决策提供了结构化支撑。

生物通微信公众号
微信
新浪微博


生物通 版权所有