基于检测限方法和K最近邻方法的分类技术在利用荧光衍生水质参数检测废水污染方面的比较评估

时间：2026年1月24日

来源：Journal of Environmental Management

编辑推荐：

基于荧光光谱和机器学习的水质监测方法研究显示，KNN分类法在复杂基线条件下（准确率91-98%）优于LOD阈值法（71-94%），且能更精准识别13-23%的废水混合比。关键参数包括色氨酸类似峰（T）和微生物腐殖酸峰（M），电导率亦为重要理化指标。

作者：Yustika Desti Yolanda、Mita Nurhayati、Sangsik Kim、Byung Joon Lee、Paul Westerhoff、Sungyun Lee

韩国庆北国立大学先进科学技术融合学院，庆尚北道尚州市庆尚大路2559号，37224

摘要

快速且低成本地检测水处理厂（WWTP）排放物对水生系统的污染对于保护公众健康和环境质量至关重要。虽然处理后的废水中含有的光学增白剂和荧光衍生物有机化合物可以作为检测替代指标，但很少有长期研究使用机器学习方法来评估荧光激发-发射矩阵（EEMs）以预测废水的影响。本研究比较了基于检测限（LOD）和基于k最近邻（KNN）的分类方法，这两种方法分别使用荧光衍生物指标和传统的物理化学参数来可靠地检测废水排放物。在韩国，这是首次从两个未受污染的上游站点（Bukcheon河和Byeongseongcheon河）、WWTP排放物以及Nakdong河支流中受排放物影响的下游站点收集水样，并从中获得EEMs数据。在稳定基线条件下（Bukcheon河），基于LOD的分类方法的准确率为82–94%，而在变化基线条件下（Byeongseongcheon河）则降至71–76%。相比之下，KNN方法表现出更高的稳健性，在两个站点的准确率分别为98%和91%，并且在不同参数组合下都能保持稳定的性能。特征重要性分析表明，类色氨酸（Peak T）和微生物腐殖质类（Peak M）是最重要的分类特征，而电导率是最具影响力的物理化学参数。蒙特卡洛敏感性分析显示，要达到90%的分类准确率，所需的最低可检测排放物混合比例为13–23%，其中KNN在复杂情况下表现出更高的准确率。这些发现表明，将先进的荧光光谱技术与机器学习相结合对于改进水质监测和检测废水排放物污染具有价值。

引言

水污染是一个全球性问题，它可能严重影响经济活动，并对环境完整性和公众健康构成威胁（Fao, 2018）。废水处理厂（WWTP）的排放物尤其令人担忧，因为大约80%的全球废水未经处理或处理不充分就直接排放到环境中（Wang et al., 2017）。即使是最先进的废水处理设施也常常无法完全去除未经监管的有机化合物，如药物和个人护理产品（PPCPs）、全氟和多氟烷基物质（PFAS）以及其他新兴污染物，从而导致这些潜在有害物质持续排放到接收水体中（Gajdoš et al., 2023; Islam et al., 2023; Wei et al., 2025; Yarkwan, 2023）。这些排放物衍生的污染物可以在水生环境中持续存在，并在食物链中积累，最终危及用于饮用、灌溉和娱乐的下游水资源的安全。使用替代指标来检测受WWTP排放影响的地表水中存在的各种有机物是有用的，但其测量方法应简单且成本低廉，以便在监测项目中频繁和常规地使用。

为了检测接收水体中是否存在WWTP排放物，目前的分析方法通常使用化学示踪剂（例如药物）、同位素和/或各种水质参数，但这些方法需要复杂的分析流程，这限制了样本数量或增加了从样本收集到确定示踪剂浓度之间的时间。例如，Cantwell等人（2018）使用蔗糖醇和咖啡因作为示踪剂来识别废水来源，并评估接收WWTP排放物的地表水中药物的存在和行为。Lee等人（2023）采用双碳同位素（¹⁴C和¹³C）分析来追踪河流环境中有机碳的来源，发现工业WWTP排放物、牲畜废水和天然河流来源的同位素特征存在差异。尽管这些方法有助于追踪废水污染的来源和程度，但它们通常需要复杂的仪器、繁琐的样本制备和大量的分析资源。高昂的成本和较长的分析时间限制了它们在现实世界地表水中的实际应用，从而无法有效保护下游用水者。

荧光激发-发射矩阵（EEM）光谱技术最近成为一种快速、无损且经济高效的方法，用于表征水生系统中的微量和大量溶解有机物（DOM）。该技术可以同时评估多种荧光有机成分，几分钟内提供有关DOM的组成、来源和反应性的信息（Chen et al., 2003; Hudori et al., 2021; Park et al., 2021）。包括平行因子分析（PARAFAC）在内的先进统计方法也被用来成功分解复杂的荧光信号，使不同的DOM来源和转化过程得以区分（Chen et al., 2021; Meng et al., 2013）。多项研究已经展示了基于荧光的方法在废水检测中的应用，其中类色氨酸荧光被认为是一种特别敏感的人为污染指示剂（Hambly et al., 2010; Li et al., 2018; Yin et al., 2020）。然而，以往使用荧光光谱的研究通常依赖于单参数分析或简单的基于阈值的方法（如检测限（LOD）方法），这可能限制了它们在不同环境条件下准确捕捉排放物影响的能力。

将机器学习算法与多参数水质数据相结合，有可能改进传统的基于阈值的方法进行排放物检测。虽然基于LOD的分类方法可以快速并提供关于污染存在与否的可解释结果，但它往往无法监测污染水平的变化或区分不同的水质类别。相比之下，机器学习技术，特别是k最近邻（KNN）分类，能够有效处理多个水质参数之间的复杂非线性相互作用，从而实现污染水平的精细分类和污染源的识别（Nasir et al., 2022; Shamsuddin et al., 2022）。同时处理多个输入特征的能力意味着机器学习方法特别适合水质评估，其中复杂的荧光光谱特征可以与传统的物理化学参数结合使用，以提高分类的准确性和可靠性。然而，尽管机器学习方法具有潜在优势，但在实际现场条件下，针对基于EEM的监测系统，基于LOD和ML的方法的系统比较仍然较少。以往的研究主要集中在DOM特征描述或废水分类上，而没有系统地评估不同混合比例和基线条件下排放物的可检测性（Nasir et al., 2022; Yang et al., 2018）。

为了解决这一不足，本研究在一个大型复杂的流域内，使用荧光衍生物EEM指标和传统水质参数的组合，比较了基于LOD的阈值分析和基于KNN的机器学习方法来检测WWTP排放物污染。这是韩国首次在20个月内从四个地点收集并分析高频样本：两个未受污染的上游河流站点（Bukcheon河和Byeongseongcheon河）、附近的WWTP排放物以及排放物与河水混合的下游汇合区。利用这些样本的数据，对基于LOD和KNN的方法进行了特征选择和参数优化，以评估它们对WWTP排放物污染的分类性能。还通过敏感性分析测试了这两种分类方法的实际可靠性。通过将多参数筛选与先进的分类算法相结合，本研究的结果可能有助于开发出响应迅速且有效的水质监测系统，以保护公众健康和环境完整性。

研究地点和样本收集

地表河水样本从流经韩国尚州市的Nakdong河的支流Bukcheon河和Byeongseongcheon河采集。采样点分别选在WWTP排放点的上游和下游，以评估参考水质和受排放物影响的水质之间的差异（图1）。选择Bukcheon河（Buk）和Byeongseongcheon河（Bs）作为上游站点，因为它们相对

物理化学水质指标的空间差异

为了评估水质的空间差异并评估排放物的影响，我们在20个月（2021年3月至2022年11月）内每两周采集一次水样。在两个上游支流（Buk和Bs）、废水处理厂排放物（Eff）以及下游混合区（Mix）分析了包括温度、pH值、电导率、DOC、UVA₂₅₄和荧光衍生物指数（FI、BIX和HIX）在内的物理化学参数，如图2和表S1所示。

结论

本研究系统地比较了基于LOD和KNN的分类方法，使用荧光衍生物指标（Peak T、Peak M和荧光指数）及物理化学参数来检测WWTP排放物污染。从两个上游河流（Buk和Bs）、WWTP排放物以及下游汇合点收集的现场样本，在对比的基线条件下评估了检测性能。

CRediT作者贡献声明

Yustika Desti Yolanda：撰写——原始草案、验证、方法论、调查、正式分析。Mita Nurhayati：方法论、调查、正式分析。Sangsik Kim：撰写——审稿与编辑、监督、方法论。Byung Joon Lee：撰写——审稿与编辑、监督、资源。Paul Westerhoff：撰写——审稿与编辑、监督、方法论。Sungyun Lee：撰写——审稿与编辑、监督、资源、方法论、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文所述的工作。

致谢

本研究得到了韩国国家研究基金会（NRF）的基础科学研究计划（编号：2020R1I1A3069197）的支持。