一种适用于强空间异质性遗留冶炼场地重金属预测的便携式源信息机器学习框架

时间:2026年5月17日
来源:Journal of Hazardous Materials

编辑推荐:

废弃冶炼场地通常表现出强烈的点源控制、高度右偏的浓度分布和明显的垂直分层特征,这些因素共同挑战了基于有限钻孔数据的重金属(Heavy Metals, HMs)可靠空间预测。本研究调查了中国西南部一个废弃的锑(Sb)冶炼厂,并开发了一种污染源信息(Polluti

广告
   X   

废弃冶炼场地通常表现出强烈的点源控制、高度右偏的浓度分布和明显的垂直分层特征,这些因素共同挑战了基于有限钻孔数据的重金属(Heavy Metals, HMs)可靠空间预测。本研究调查了中国西南部一个废弃的锑(Sb)冶炼厂,并开发了一种污染源信息(Pollution Source Information, PSI)驱动的机器学习框架,用于预测 Sb、铅(Pb)和砷(As)。PSI 从 29 个代表性源中编码为基于距离的特征和距离衰减特征,并使用 5 折 GroupKFold(以钻孔为分组)评估模型泛化能力,以缓解空间泄漏(Spatial Leakage)。XGBoost 被用作主要算法,并与随机森林(Random Forest, RF)、支持向量机(Support Vector Machine, SVM)和多层感知器(Multilayer Perceptron, MLP)进行基准比较。为了改善重尾目标变量下的预测精度,引入了自适应对数目标变换(Adaptive Logarithmic Target Transformation, ALTT)和混合样本加权方案(Hybrid Sample-Weighting Scheme, HSWS)。在抗泄漏评估下,PSI 驱动的 XGBoost 模型的袋外(Out-of-Fold)R2值分别达到 0.82(Sb)、0.72(Pb)和 0.71(As),显著优于未使用 PSI 的模型(R2分别为 0.28、0.14 和 -0.013)。ALTT 与 HSWS 结合进一步提高了预测性能。引入源距离和距离衰减特征显著增强了模型表现。结合多环境介质的观测数据和 SHapley Additive exPlanations(SHAP)解释,结果揭示了源距离、深度和地层对重金属分布的共同控制作用。然而,金属特异性模式依然明显:Sb 和 As 更受源驱动,Pb 主要受土层控制,而 As 表现出更强的多源叠加和方向性梯度特征。该框架依赖于常规可得的场地调查数据,提供了高预测精度,并为点源主导的遗留场地提供了实用参考。

论文解读:基于源信息机器学习的遗留冶炼场地重金属空间预测

一、研究背景与意义

有色金属开采与冶炼是环境中重金属(Heavy Metals, HMs)的重要人为来源。遗留冶炼场地通常存在强烈的点源污染控制、高度右偏的浓度分布及显著的垂直分层现象,这给基于稀疏钻孔数据的可靠空间预测带来了巨大挑战。传统插值方法(如普通克里金法 Ordinary Kriging, OK 和反距离权重插值法 Inverse Distance Weighting, IDW)在高度异质性条件下往往过度平滑化,导致高风险区域(Hotspots)被低估。虽然机器学习(Machine Learning, ML)模型(如随机森林 RF、XGBoost)在土壤污染制图中的应用日益增多,但在点源主导的场地中,污染源信息(Pollution Source Information, PSI)的编码往往被简化为功能分区或边界距离,导致预测性能受限(R²常低于0.6)。此外,强烈的空间自相关性和重尾分布特性使得模型评估极易出现空间泄漏(Spatial Leakage),且热点区域容易被模型忽略。因此,开发一种能够整合显式源信息、抵抗空间泄漏并有效处理重尾分布的预测框架,对于遗留场地的精准风险评估与修复分区至关重要。本研究针对中国西南某废弃锑冶炼厂,构建了一种PSI驱动的便携式机器学习框架,旨在实现锑(Sb)、铅(Pb)、砷(As)的高精度三维空间预测,相关成果发表于环境科学领域权威期刊《Journal of Hazardous Materials》。

二、关键技术方法

本研究以中国广西某约0.6 km²的废弃锑冶炼厂为研究对象,基于273个钻孔的土壤样本数据,构建了一套完整的预测流程:
  1. 1.
    源信息特征工程:从场地历史资料中识别29个代表性污染源(如冶炼炉、废渣堆场),将其编码为源距离(Source-distance)和距离衰减(Distance-decay)特征,作为模型的关键输入。
  2. 2.
    模型构建与评估:以XGBoost为核心算法,对比RF、SVM及MLP。采用基于钻孔分组的5折GroupKFold交叉验证严格评估模型泛化能力,杜绝空间泄漏。
  3. 3.
    重尾数据处理:针对浓度极端右偏分布,引入自适应对数目标变换(ALTT)和混合样本加权方案(HSWS)以提升对高浓度热点区域的预测灵敏度。
  4. 4.
    模型解释与验证:利用SHAP(SHapley Additive exPlanations)分析特征贡献,结合场地多介质(土壤、地下水等)观测数据进行机理验证。

三、研究结果与发现

1. 描述性统计与空间–垂直模式
对Sb、Pb、As的统计分析显示,其浓度跨越4–5个数量级,超标率分别为33.2%(Sb)、9.9%(Pb)和8.6%(As),呈现典型的遗留场地重尾特征。空间分布表明,Sb和As受点源控制更明显,而Pb则表现出更强的土层主导分布特征。垂直方向上,As表现出更强的多源叠加和方向性梯度。
2. PSI驱动模型的预测性能
在抗泄漏评估(GroupKFold by boreholes)下,PSI的引入使模型性能产生质的飞跃:
  • 性能提升:PSI驱动的XGBoost模型袋外R²分别达到Sb: 0.82、Pb: 0.72、As: 0.71;而未使用PSI的模型性能显著下降(R²分别为0.28、0.14和-0.013)。
  • 技术组合效应:ALTT与HSWS的联合使用进一步提升了模型对极端高值的捕捉能力,证实了处理重尾分布策略的有效性。
3. 源贡献与机理阐释
通过SHAP分析与点源消融实验,研究人员揭示了金属分布的差异化控制机制:
  • Sb与As:更受源 proximity(邻近度)控制,源距离是首要贡献特征。
  • Pb:分布受土壤层(地层)控制更强,表现出与Sb/As不同的迁移行为。
  • 多源叠加:As的分布受多源叠加效应影响显著,且具有明显的深度梯度。

四、讨论与结论

本研究证实,在遗留冶炼场地,重金属的三维分布并非仅由地理位置决定,而是源 proximity、深度和地层约束共同作用的结果。尽管Sb、Pb、As同源,但其空间响应模式各异,表明“共现”不等于“共机制”。污染源信息(PSI)不仅是辅助变量,更是准确捕捉点源污染空间异质性的关键。该框架依赖常规场地调查数据,提供了高精度的预测工具,并为点源主导场地的风险划定与修复设计提供了可移植的解决方案。
结论部分翻译
“在遗留冶炼场地,Sb、Pb和As的三维分布并非仅由位置控制,而是受源 proximity、垂直位置和地层约束共同影响。尽管这些金属源自同一工业系统,但它们表现出 distinct 的空间响应,表明共现并不必然反映 shared 的控制机制或相似的地下行为。因此,污染源信息不仅是辅助变量,更是准确捕捉点源污染空间异质性的关键。该框架依赖常规场地调查数据,提供了高精度的预测工具,并为点源主导场地的风险划定与修复设计提供了可移植的解决方案。”

生物通微信公众号
微信
新浪微博


生物通 版权所有