银行系统中的欺诈检测对于金融稳定、客户保护、声誉管理和监管合规至关重要。机器学习(ML)在改进数据分析、实时欺诈检测以及通过从数据中学习并相应调整检测策略来开发欺诈技术方面至关重要。特征选择(FS)对于通过ML增强欺诈检测以实现最佳模型准确性至关重要,这是因为它有助于消除冗余和不相关属性的负面影响。为了提高给定数据集的准确性,研究人员利用多种方法来确定最合适的特征。然而,值得注意的是,当在具有较大特征尺寸的数据集上实施这些方法时,它们可能会遇到局部最优性问题。尽管存在这些挑战,研究人员仍在继续致力于提高这些方法的有效性。本研究提出了一种基于秘书鸟优化(SBO)算法的有效方法,称为带变异二进制秘书鸟优化(BSBO-MUT),通过识别相关特征来增强准确识别金融信用卡欺诈(CCF)交易的能力。BSBO-MUT具有降低维度同时提高分类精度的平衡能力。通过随机调整位置来增强探索和开发能力,然后将其转化为二进制变体。决策树(DT)、k最近邻(k-NN)和极端梯度提升(XGB)是与所述方法一起使用的ML分类器。在澳大利亚、欧洲和PaySim信用卡数据集上,将所提出的方法与基本的SBO以及多种当前优化器进行了比较。关于Wilcoxon秩和检验(α=0.05),所提出方法的优越性和有效性在所使用的三个数据集上是显而易见的,并且在大多数使用的数据集中获得高达99.85%的分类准确率,并且属性缩减长度降至67.44%。所提出的方法使用三个基准数据集进行了进一步验证,并且在大多数使用的数据集中关于不同性能指标的表现优于其竞争对手。
研究背景:银行系统中的信用卡欺诈检测(Credit Card Fraud Detection, CCFD)对于维护金融稳定、保护客户资产、管理机构声誉以及满足监管合规要求具有重要意义。随着数字化交易的激增,欺诈手段日益复杂且动态演变,传统基于规则或简单统计的方法难以应对。机器学习(Machine Learning, ML)技术因其在数据挖掘、实时检测及自适应策略调整方面的优势,被广泛应用于欺诈识别。然而,交易数据通常具有高维度、强噪声以及严重的类别不平衡(即欺诈样本极少)等特点。特征选择(Feature Selection, FS)作为数据预处理的关键步骤,旨在通过剔除冗余和不相关特征,降低数据维度,提升模型精度与泛算效率,并增强结果的可解释性。现有的传统FS方法(如过滤式、包裹式)在处理高维数据时易陷入局部最优,且对不平衡数据的敏感性导致分类性能下降。因此,亟需一种能够有效平衡全局搜索与局部开发能力、并能适应不平衡数据环境的鲁棒FS方法。
研究人员开展了什么研究:针对上述问题,研究人员提出了一种名为带变异二进制秘书鸟优化(Binary Secretary Bird Optimization with Mutation, BSBO-MUT)的新型元启发式算法,用于信用卡欺诈检测中的特征选择。该方法基于秘书鸟优化(Secretary Bird Optimization, SBO)算法改进而来,通过引入二进制编码机制和变异操作,使其适用于离散的FS问题。研究人员将BSBO-MUT与三种常见的机器学习分类器结合,包括决策树(Decision Tree, DT)、k最近邻(k-Nearest Neighbor, k-NN)和极端梯度提升(eXtreme Gradient Boosting, XGB)。实验在三个公开的基准数据集(澳大利亚信用卡数据集、欧洲信用卡数据集、PaySim移动支付模拟数据集)上进行,并与多种现有二元优化算法(如Binary African Vultures Optimization, BAVO;Binary Salp Swarm Algorithm, BSSA等)及传统FS方法(如递归特征消除RFE、卡方Chi-Square、逻辑回归LR)进行了对比。此外,研究还考察了不同重采样策略(随机欠采样RUS、SMOTE、ADASYN)对模型性能的影响,并采用了Wilcoxon秩和检验等统计方法验证结果的显著性。
结论与意义:研究表明,BSBO-MUT在与其他分类器结合时,均能显著提升分类准确率并大幅减少所选特征数量。例如,BSBO-MUT-DT在澳大利亚数据集上准确率提升24.74%,特征数减少50.21%;BSBO-MUT-XGB在PaySim数据集上达到99.85%的准确率,特征数减少67.78%。在对比实验中,BSBO-MUT在大多数评价指标上优于其他竞争算法和传统FS方法。特别是结合随机欠采样(RUS)和XGB分类器时,模型在准确率、F1值、ROC_AUC等方面表现最优。该研究的创新点在于将改进的SBO算法成功应用于高维、不平衡的欺诈检测特征选择问题,提供了一种计算高效且性能优越的解决方案。论文发表于《Alexandria Engineering Journal》。
主要关键技术方法:本研究采用的核心方法为带变异二进制秘书鸟优化(BSBO-MUT)算法,这是一种受自然界秘书鸟行为启发的群体智能元启发式算法,通过二进制转化和变异操作处理特征选择这一组合优化问题。研究采用包裹式(Wrapper)框架,以分类器(DT、k-NN、XGB)的错误率为基础构建适应度函数,兼顾特征子集规模与分类精度。数据来自三个公开基准数据集:Australian(澳大利亚信用卡数据,14个特征)、European(欧洲信用卡数据,30个特征)、PaySim(支付模拟数据,9个特征)。为处理类别不平衡,研究主要采用随机欠采样(Random Undersampling, RUS),并与SMOTE、ADASYN策略进行对比。算法性能通过10折交叉验证评估,并使用Wilcoxon signed-rank test(α=0.05)进行统计显著性检验。
研究结果:
4.1 实验设置:研究人员详细设定了BSBO-MUT及其他对比算法(BAVO、BSSA、BASO、BHGSO、BHHO、BSFO、BBA、BGOA、BPSO等)的参数,包括种群大小、迭代次数、转移函数参数等。分类器参数亦标准化(如XGB的树深度、学习率;k-NN的k值设为5;DT的最大深度等)。评估指标涵盖准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值、特异度(Specificity)、ROC曲线下面积(ROC_AUC)、Cohen’s Kappa、马修斯相关系数(MCC)、选入特征数及适应度值等。
4.2 与基础分类器的对比:在三个数据集上,BSBO-MUT结合DT、k-NN、XGB均较原始分类器(无FS)有显著提升。以XGB为例,在Australian、European、PaySim上准确率分别提升6.41%、3.84%、0.00%(后者已达上限99.85%),选入特征数减少55.50%、59.67%、67.78%。BSBO-MUT-DT与BSBO-MUT-k-NN同样展现类似趋势,证明该FS方法广泛有效。
4.3 不同重采样策略下的评估:研究人员比较了RUS、SMOTE、ADASYN三种处理不平衡数据的方法。结果显示,RUS结合BSBO-MUT-XGB在多数指标上综合表现最好,尤其在Accuracy、F1-score、ROC_AUC上领先。例如,RUS-XGB在Australian上准确率达91.76%,F1为88.42%;在PaySim上准确率达99.85%,F1为99.85%。Wilcoxon检验(p<0.05)证实RUS-XGB显著优于其他重采样组合。
4.4 与流行FS技术的对比:BSBO-MUT-XGB与传统方法(RFE、Chi-Square、LR)相比,在准确率、F1值、Kappa、MCC、ROC_AUC上均占优,且选入特征更少。如在European数据集上,BSBO-MUT-XGB准确率为96.33%,而RFE-XGB为99.5%(注:此处原文显示某些传统方法在特定指标上略高,但整体综合评价BSBO-MUT更稳健且特征更精简),F1值达96.27%,显著高于传统方法。
讨论与结论:研究人员指出,BSBO-MUT成功平衡了探索与开发,避免了局部最优,适用于高维FS问题。RUS虽可能损失部分多数类信息,但在BSBO-MUT框架下仍保持代表性,且计算效率高。变异操作的引入增强了种群多样性,提升了优化稳定性。统计检验证实了结果的显著性。该研究提出的BSBO-MUT是一种有效的、高效的、适用于不平衡数据环境的特征选择方法,可显著提升信用卡欺诈检测模型的性能,并具有较好的泛化能力。未来可探索其在其他不平衡分类问题及实时检测系统中的应用。