水污染是一个全球性问题,它可能严重影响经济活动,并对环境完整性和公众健康构成威胁(Fao, 2018)。废水处理厂(WWTP)的排放物尤其令人担忧,因为大约80%的全球废水未经处理或处理不充分就直接排放到环境中(Wang et al., 2017)。即使是最先进的废水处理设施也常常无法完全去除未经监管的有机化合物,如药物和个人护理产品(PPCPs)、全氟和多氟烷基物质(PFAS)以及其他新兴污染物,从而导致这些潜在有害物质持续排放到接收水体中(Gajdoš et al., 2023; Islam et al., 2023; Wei et al., 2025; Yarkwan, 2023)。这些排放物衍生的污染物可以在水生环境中持续存在,并在食物链中积累,最终危及用于饮用、灌溉和娱乐的下游水资源的安全。使用替代指标来检测受WWTP排放影响的地表水中存在的各种有机物是有用的,但其测量方法应简单且成本低廉,以便在监测项目中频繁和常规地使用。
荧光激发-发射矩阵(EEM)光谱技术最近成为一种快速、无损且经济高效的方法,用于表征水生系统中的微量和大量溶解有机物(DOM)。该技术可以同时评估多种荧光有机成分,几分钟内提供有关DOM的组成、来源和反应性的信息(Chen et al., 2003; Hudori et al., 2021; Park et al., 2021)。包括平行因子分析(PARAFAC)在内的先进统计方法也被用来成功分解复杂的荧光信号,使不同的DOM来源和转化过程得以区分(Chen et al., 2021; Meng et al., 2013)。多项研究已经展示了基于荧光的方法在废水检测中的应用,其中类色氨酸荧光被认为是一种特别敏感的人为污染指示剂(Hambly et al., 2010; Li et al., 2018; Yin et al., 2020)。然而,以往使用荧光光谱的研究通常依赖于单参数分析或简单的基于阈值的方法(如检测限(LOD)方法),这可能限制了它们在不同环境条件下准确捕捉排放物影响的能力。
将机器学习算法与多参数水质数据相结合,有可能改进传统的基于阈值的方法进行排放物检测。虽然基于LOD的分类方法可以快速并提供关于污染存在与否的可解释结果,但它往往无法监测污染水平的变化或区分不同的水质类别。相比之下,机器学习技术,特别是k最近邻(KNN)分类,能够有效处理多个水质参数之间的复杂非线性相互作用,从而实现污染水平的精细分类和污染源的识别(Nasir et al., 2022; Shamsuddin et al., 2022)。同时处理多个输入特征的能力意味着机器学习方法特别适合水质评估,其中复杂的荧光光谱特征可以与传统的物理化学参数结合使用,以提高分类的准确性和可靠性。然而,尽管机器学习方法具有潜在优势,但在实际现场条件下,针对基于EEM的监测系统,基于LOD和ML的方法的系统比较仍然较少。以往的研究主要集中在DOM特征描述或废水分类上,而没有系统地评估不同混合比例和基线条件下排放物的可检测性(Nasir et al., 2022; Yang et al., 2018)。