FD-GNN:面向异常检测的特征分解图神经网络

时间:2026年5月27日
来源:IEEE Transactions on Big Data

编辑推荐:

多维图欺诈检测旨在识别图中的欺诈实体。图神经网络(Graph Neural Network, GNN)模型利用图结构将邻居节点的信息传递给目标节点,从而获得精确的目标节点表征。然而,基于GNN的异常检测方法面临结构不一致性和过平滑等挑战,这会降低欺诈节点的可疑

广告
   X   

多维图欺诈检测旨在识别图中的欺诈实体。图神经网络(Graph Neural Network, GNN)模型利用图结构将邻居节点的信息传递给目标节点,从而获得精确的目标节点表征。然而,基于GNN的异常检测方法面临结构不一致性和过平滑等挑战,这会降低欺诈节点的可疑评分,阻碍异常检测模型的有效性。为解决这些问题,研究人员提出了一种端到端的异常节点检测模型——特征分解图神经网络(Feature Decomposition Graph Neural Network, FD-GNN)。在FD-GNN中,首先采用特征放大模块增强节点表征之间的差异;随后利用特征分解模块区分节点的固有属性与邻域属性,并对这两类属性施加约束;最后,表征聚合模块采用差分聚合操作进一步区分正常节点与异常节点。在两个真实数据集Amazon和YelpChi上的实验表明,FD-GNN分别取得了94.45%和91.62%的曲线下面积(Area Under Curve, AUC)得分,优于现有的多维图异常检测模型。
《IEEE Transactions on Big Data》刊载的研究针对多维图异常检测领域的核心瓶颈展开深入探讨。当前基于图神经网络(Graph Neural Network, GNN)的检测方法依赖同质性假设与平衡假设,但现实图数据往往存在结构不一致性与类别不平衡问题。欺诈者为逃避检测常伪装成正常节点并与大量正常节点连接,导致GNN在邻域信息聚合过程中出现过度平滑(Over-smoothing),难以区分正常与异常节点,同时训练集与测试集的结构偏移进一步降低了检测精度。为此,研究人员提出特征分解图神经网络(Feature Decomposition Graph Neural Network, FD-GNN),通过模块化设计实现端到端的异常节点检测,在Amazon和YelpChi数据集上分别取得94.45%和91.62%的曲线下面积(Area Under Curve, AUC),有效解决了结构不一致性与过平滑问题,为电商、社交网络等领域的欺诈检测提供了通用解决方案。
关键技术方法方面,研究采用两个真实多维图数据集:Amazon(包含用户-产品-用户、用户-星级-用户、用户-向量-用户三种关系)与YelpChi(包含评论-用户-评论、评论-星级-评论、评论-时间-评论三种关系)。核心方法包括三个模块:特征放大模块通过线性变换与激活函数增强节点特征差异;特征分解模块将节点特征拆分为固有属性(Natural Features)与邻域属性(Neighborhood Features),并引入自然约束与邻域约束优化特征分离;表征聚合模块采用差分聚合操作替代传统聚合,结合多层表征拼接获得最终节点表示。模型训练采用Adam优化器,损失函数由交叉熵损失与特征分解约束损失加权构成。
研究结果部分,首先在研究背景与问题定义章节,研究人员明确了多维图异常检测可抽象为半监督节点分类任务,通过同质性(Homophily)与异质性(Heterophily)指标量化节点连接模式,发现异常节点在训练集与测试集中均表现出高异质性,且训练集与测试集的同质性分数存在显著差异,验证了结构不一致性的存在。其次在FD-GNN模型架构章节,特征放大模块通过公式hv(0)=σ(xvW)实现节点特征增强,其中σ为ReLU激活函数,W为可学习权重矩阵;特征分解模块通过自然约束Lnat确保同类节点特征相似、异类节点特征相异,通过邻域约束Lsur确保相邻节点邻域特征相似、非相邻节点相异,约束损失Lconstraint由两者求和平均得到;表征聚合模块采用差分聚合操作hv,r(l)=AGGR{hv(l1)hu(l1)}AGGR{hu(l1)},并将各层表征拼接为最终表示hv(final)=CONCAT(hv(0),hv(1),,hv(L))。实验验证章节显示,在10%-40%训练比例下,FD-GNN在AUC、召回率(Recall)、F1值上均优于GCN、GAT、GraphSAGE等传统GNN及GEM、FRAUDRE、GDN等先进异常检测模型;表征相似性对比表明,FD-GNN使异常节点与邻居的平均余弦相似度从初始的0.5947降至0.0278,而正常节点相似度保持稳定;消融实验证实特征放大、分解、差分聚合三个模块均不可或缺,其中特征分解模块对性能影响最为显著;稳定性分析显示,模型在不同随机种子、约束权重参数β、特征维度参数topk下性能波动极小,最佳参数组合为β=0.1、topk=18;时间性能分析表明,FD-GNN训练开销略高于FRAUDRE但在可接受范围内,适合大规模图数据应用。
讨论与结论部分,研究人员指出FD-GNN的核心优势在于特征解耦能力,通过固有属性与邻域属性的双重约束,实现了对异常节点伪装行为的精准识别,并提供可解释的特征级异常分析。该模型的通用设计可有效应对数据不平衡与结构偏移问题,适用于电商、社交网络等多场景欺诈检测。未来工作将聚焦于嵌入异常表示与时序建模的深化应用,包括重构特征分解模块以支持基于注意力的动态嵌入调整,扩展至区块链交易图分析以评估智能合约调用链可靠性,以及融合循环神经网络构建时序增强图表示学习,捕捉节点特征的时序演化模式与新兴异常模式。

生物通微信公众号
微信
新浪微博


生物通 版权所有