M-Tune:通过调整决策阈值来处理机器学习中的不平衡数据问题

时间:2026年5月31日
来源:Molecular Diversity

编辑推荐:

摘要在使用不平衡数据训练机器学习分类器时,主要问题在于对多数类的过度预测以及预测性能不佳。这最终会导致更高的误分类率和对多数类的偏见。这是一个现实世界中的问题,尤其是在处理生物数据集时。有几种流行的方法,包括随机欠采样(RUS)、合成少数类过采样技术(SMOTE)和广义阈值调整(

广告
   X   

摘要

在使用不平衡数据训练机器学习分类器时,主要问题在于对多数类的过度预测以及预测性能不佳。这最终会导致更高的误分类率和对多数类的偏见。这是一个现实世界中的问题,尤其是在处理生物数据集时。有几种流行的方法,包括随机欠采样(RUS)、合成少数类过采样技术(SMOTE)和广义阈值调整(GHOST)。然而,这些方法要么会限制样本的数量,要么会对多数类产生偏见。在这项研究中,我们开发了一种新颖的策略“M-Tune”,这是一种简单而强大的技术,用于解决类别不平衡问题。该技术采用集成方法,结合了阈值调整和多数投票机制。这种新方法能够有效预测少数类。我们使用138个药物发现数据集对M-Tune方法进行了严格测试。进一步地,我们使用十一种不同的特征对两种分类器的性能进行了严格评估,发现这些分类器在有效分类少数类方面受益于M-Tune。M-Tune方法的性能优于其他策略(包括GHOST方法和SMOTE),并且在识别少数类方面与RUS方法的表现相当。总之,我们展示了一种新的阈值处理方法,可以有效地应用于现实世界中的不平衡数据集,即类别分布极不平衡的药物发现数据集。这种方法有助于在一般的不平衡数据集中,特别是在药物发现数据集中,识别少数类。尽管相对于保守的阈值策略,M-Tune会增加误报率,但在优先考虑最大化活性化合物回收的应用中,它提供了实际的优势。

在使用不平衡数据训练机器学习分类器时,主要问题在于对多数类的过度预测以及预测性能不佳。这最终会导致更高的误分类率和对多数类的偏见。这是一个现实世界中的问题,尤其是在处理生物数据集时。有几种流行的方法,包括随机欠采样(RUS)、合成少数类过采样技术(SMOTE)和广义阈值调整(GHOST)。然而,这些方法要么会限制样本的数量,要么会对多数类产生偏见。在这项研究中,我们开发了一种新颖的策略“M-Tune”,这是一种简单而强大的技术,用于解决类别不平衡问题。该技术采用集成方法,结合了阈值调整和多数投票机制。这种新方法能够有效预测少数类。我们使用138个药物发现数据集对M-Tune方法进行了严格测试。进一步地,我们使用十一种不同的特征对两种分类器的性能进行了严格评估,发现这些分类器在有效分类少数类方面受益于M-Tune。M-Tune方法的性能优于其他策略(包括GHOST方法和SMOTE),并且在识别少数类方面与RUS方法的表现相当。总之,我们展示了一种新的阈值处理方法,可以有效地应用于现实世界中的不平衡数据集,即类别分布极不平衡的药物发现数据集。这种方法有助于在一般的不平衡数据集中,特别是在药物发现数据集中,识别少数类。尽管相对于保守的阈值策略,M-Tune会增加误报率,但在优先考虑最大化活性化合物回收的应用中,它提供了实际的优势。

生物通微信公众号
微信
新浪微博


生物通 版权所有