通过集成特征工程提升XGBoost的采样性能

时间：2026年1月29日

来源：Pattern Recognition

编辑推荐：

特征工程对XGBoost的优化及混合模型研究。提出集成多种特征变换的Feat-XGBoost，结合梯度采样方法，在61个数据集上平均提升0.9080%准确率，其中Balloon和hill-valley数据集表现突出。创新性采用动态特征组合策略，并通过Mix-XGBoost混合模型实现性能提升。

Lingping Kong|Ponnuthurai Nagaratnam Suganthan|Václav Snášel|Varun Ojha|Jeng-Shyang Pan

捷克共和国奥斯特拉瓦VSB-奥斯特拉瓦技术大学计算机科学系

摘要

特征工程对于提升模型性能至关重要，然而如何有效地结合多种特征转换以最大化其优势仍然是一个关键挑战。在这项研究中，我们提出了一种创新方法，该方法将各种特征工程技术集成到XGBoost算法的增强步骤中，并改进了基于梯度的单边采样机制，从而形成了一个名为Feat-XGBoost的增强型分类器。Feat-XGBoost通过迭代应用特征转换来改善数据表示和模型学习中的分类效果。我们在61个不同的数据集上评估了这种方法，并将其性能与12个基线分类器（包括标准的XGBoost）进行了比较。结果显示，在36个数据集中Feat-XGBoost提高了准确性，在Balloon数据集中的准确性提高了0.31，在hill-valley数据集中的准确性提高了13.5%。在所有61个数据集中，该方法的平均准确性提高了0.9080%，这突显了其在提升模型性能方面的有效性。这些发现表明，在增强框架内集成多种特征工程策略可以显著提高模型的准确性和鲁棒性。我们提出了一种简单的集成方法——Mix-XGBoost分类器，它根据Feat-XGBoost和基线模型的验证结果来选择最终的分类器。结果表明，Mix-XGBoost通过利用两种分类器的优势来提升性能。源代码将在被接受后公开发布，链接为：https://github.com/lingping-fuzzy。

引言

在机器学习中[1]，模型中使用的特征的质量和相关性往往决定了模型的整体效果[2]。因此，特征工程[3] [4]是开发机器学习分类器[5]的关键步骤。它通过转换数据使其更易于算法理解和处理，从而将原始数据与高性能模型联系起来。本引言探讨了两个关键问题：如何有效地应用特征工程，以及为什么XGBoost是这种方法的理想测试平台？

特征工程[6]是指选择、转换和创建能够提高机器学习模型性能的变量的过程。它有助于解决高维和噪声数据集带来的挑战，通过将原始数据细化为能够突出预测任务中关键模式和关系的特征。主要目标是使数据更具信息性，并符合机器学习算法的要求，从而提高模型的可解释性并降低计算成本[7]。

特征工程有几个常见的类别[3]，包括：

特征创建：通过操作现有特征来生成新特征，以突出关键关系。

特征转换：将特征调整到合适的分布或范围内，以帮助处理能力有限或数据集较小的模型。

特征提取：通过创建摘要特征（例如，通过主成分分析[8]、[9]）来简化原始数据。

特征选择：识别相关特征并移除冗余或不相关的特征，从而提高模型的速度和准确性[10]。

尽管特征工程的优势众所周知，且对其各种类别也有广泛的理解，但为特定数据集选择最合适的技术仍然具有挑战性。我们经常面临这样的问题：如何确定哪种特征工程方法最适合我们的数据？对于一个分类器来说，仅使用一种特征工程方法是否足够，还是应该结合多种方法？此外，如果我们缺乏对数据的领域知识，如何有效地选择正确的特征？工具和框架的可用性可以提供帮助，但在没有适当指导或对数据深入理解的情况下，做出最佳选择仍然很困难。这种不确定性突显了需要系统化的方法和自动化解决方案来帮助做出这些决策，确保应用最合适的特征工程策略来提升模型性能。

特征工程是一个至关重要但耗时的过程，需要创造力和领域专业知识。鉴于其显著的优势，一个重要的问题出现了：我们能否探索在不同的特征工程方法之间切换，以便更好地优化机器学习的数据？此外，在机器学习过程中顺序结合不同类型的特征工程技术可能会开发出更强大的模型，从而能够处理复杂的数据集。

在机器学习中，分类器是一种根据数据特征将数据点分配到预定义类别的算法[11]。虽然分类器经常与模型混淆，但分类器是从数据中学习的，而模型是用于预测的训练函数。有效的特征工程对于最佳性能至关重要，因为它有助于分类器检测模式并提高准确性。没有有效的特征工程，即使强大的分类器也可能难以识别这些模式。分类器在机制上各不相同，常见的类型包括决策树、支持向量机（SVM）、逻辑回归以及集成方法（如随机森林和XGBoost）。XGBoost以其高性能和可扩展性而闻名，它通过结合多个决策树的预测来提高准确性。它处理缺失数据，通过正则化防止过拟合，并利用并行处理，使其非常适合处理大型、复杂的数据集。

XGBoost基于梯度提升（Gradient Boosting）构建，通过引入弱学习器来纠正之前的错误，特别是关注具有挑战性的数据点。将特征工程集成到这一过程中可以转换复杂样本，简化分类过程。通过在增强过程中不断细化特征，XGBoost增强了其有效检测复杂模式的能力。然而，特征工程对模型性能的影响需要彻底的验证。尽管XGBoost的适应性很强，但在不同的特征工程方法中评估其有效性将提供对其优势的更深入理解。这一考虑对于确保最佳的特征选择和转换以改善分类结果尤为重要。

XGBoost与特征工程之间的协同作用提供了几个优势。通过丰富输入特征，XGBoost能够更好地建模复杂的交互作用，尤其是在难以分类的子集中。这种集成提高了泛化能力，更有效地减少了错误，并提高了预测准确性。

总之，我们在本工作中提出了以下动机并提出了相应的方法论。

动机：

(a)

通过结合特征工程技术来处理复杂或噪声数据集中的原始数据限制，从而增强数据表示。

(b)

利用XGBoost的迭代学习过程，该过程专注于纠正错误分类的数据，使其成为顺序应用特征工程以提高模型准确性的理想候选者。

贡献：

(a)

引入一个框架，将各种特征工程技术逐步集成到XGBoost中，以细化具有挑战性的数据样本。

(b)

证明这种组合方法能够提高分类性能，从而在复杂数据集上实现更好的泛化和预测准确性。

(c)

提供有关如何在每个增强步骤中进行有针对性的特征转换以提高模型鲁棒性和效率的见解。

本文的其余部分从第2节开始，介绍了相关工作和本研究中采用的关键技术。我们在第3节详细介绍了基于特征工程的XGBoost模型，包括其架构的详细说明。第4节验证了其在61个数据集上的有效性和适用性，并将其性能与其他领先分类器进行了比较。第5节以简要总结和对未来研究方向的讨论作为结论。

部分摘录

带有特征工程的XGBoost

本节介绍了所提出的特征工程辅助的XGBoost，称为Feat-XGBoost。该方法应用特征工程技术来转换之前弱学习器识别出的数据子集。为了进一步发挥Feat-XGBoost和传统XGBoost的优势，我们引入了Mix-XGBoost，它根据验证准确性在决策层面结合了这两种方法，从而形成了一个性能更优的集成模型。

实验

算法和数据集：为了验证所提出框架的有效性，我们在61个分类数据集上对其进行了测试，并将结果与12个分类器进行了比较，包括基线模型（如SVM、决策树、高斯朴素贝叶斯（Gaussian_NB）和K最近邻（KNN）。我们还比较了几种集成分类器，包括自适应提升（Adaboost）、极端随机树（Extratrees）、随机森林、堆叠和XGBoost。所有比较的算法都

结论

本文介绍了Feat-XGBoost，这是一种在XGBoost框架内集成先进特征工程的增强型分类器，以及Mix-XGBoost，这是一种结合Feat-XGBoost和XGBoost基线模型的集成模型，以利用它们的优势。Feat-XGBoost使用GOSS进行高效采样，并采用Autofeat、随机投影和HT-SVD等方法来改进数据表示，从而实现更好的类别分离和分类准确性。

CRediT作者贡献声明

Lingping Kong：撰写——原始草稿、软件、方法论。Ponnuthurai Nagaratnam Suganthan：监督、方法论、概念化。Václav Snášel：监督、方法论、概念化。Varun Ojha：可视化、形式分析、概念化。Jeng-Shyang Pan：可视化、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。

致谢

作者感谢捷克共和国教育、青年和体育部提供的财政支持（项目编号CZ.02.01.01/00/22 008/0004590）；卡塔尔国家图书馆；欧盟在REFRESH项目下的支持（项目编号CZ.10.03.01/00/22_/0000048，通过Just Transition运营计划）；欧盟HORIZON EUROPE研究下的CLARA项目（项目编号101136607）；以及EPSRC资助的国家Edge AI Hub（EP/Y028813/1）的支持。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部