M-Tune：通过调整决策阈值来处理机器学习中的不平衡数据问题

时间：2026年5月31日

来源：Molecular Diversity

编辑推荐：

摘要在使用不平衡数据训练机器学习分类器时，主要问题在于对多数类的过度预测以及预测性能不佳。这最终会导致更高的误分类率和对多数类的偏见。这是一个现实世界中的问题，尤其是在处理生物数据集时。有几种流行的方法，包括随机欠采样（RUS）、合成少数类过采样技术（SMOTE）和广义阈值调整（

摘要

在使用不平衡数据训练机器学习分类器时，主要问题在于对多数类的过度预测以及预测性能不佳。这最终会导致更高的误分类率和对多数类的偏见。这是一个现实世界中的问题，尤其是在处理生物数据集时。有几种流行的方法，包括随机欠采样（RUS）、合成少数类过采样技术（SMOTE）和广义阈值调整（GHOST）。然而，这些方法要么会限制样本的数量，要么会对多数类产生偏见。在这项研究中，我们开发了一种新颖的策略“M-Tune”，这是一种简单而强大的技术，用于解决类别不平衡问题。该技术采用集成方法，结合了阈值调整和多数投票机制。这种新方法能够有效预测少数类。我们使用138个药物发现数据集对M-Tune方法进行了严格测试。进一步地，我们使用十一种不同的特征对两种分类器的性能进行了严格评估，发现这些分类器在有效分类少数类方面受益于M-Tune。M-Tune方法的性能优于其他策略（包括GHOST方法和SMOTE），并且在识别少数类方面与RUS方法的表现相当。总之，我们展示了一种新的阈值处理方法，可以有效地应用于现实世界中的不平衡数据集，即类别分布极不平衡的药物发现数据集。这种方法有助于在一般的不平衡数据集中，特别是在药物发现数据集中，识别少数类。尽管相对于保守的阈值策略，M-Tune会增加误报率，但在优先考虑最大化活性化合物回收的应用中，它提供了实际的优势。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部