主动堆叠-深度学习结合策略性采样，用于小规模且不平衡的化学毒性预测

时间：2025年11月5日

来源：ACS Omega

编辑推荐：

甲状腺过氧化物酶（TPO）干扰化学品的毒性预测面临不平衡数据集和有限标注数据的挑战。本研究提出主动 stacking-深度学习框架，整合CNN、BiLSTM和注意力机制，通过k-采样平衡类分布并利用主动学习（AL）减少标注需求。在1:6严重不平衡数据下，模型达到MCC 0.51、AUROC 0.824和AUPRC 0.851，且仅需26.7%标注数据。分子对接验证了高毒性化合物（如train496）与TPO的强结合，显示模型可靠性。该方法显著降低实验成本，为化学毒理学提供高效预测工具。

在化学风险评估和毒性预测领域，面对数据集不平衡和有限标签数据的问题一直是研究中的重大挑战。传统的预测模型在这些情况下往往表现不佳，因为它们可能倾向于预测多数类样本，从而忽视了少数类样本的重要性。为了解决这一问题，研究人员不断探索新的方法和技术，其中，集成学习（stacking ensemble learning）和主动学习（active learning, AL）成为了两种关键策略。集成学习通过组合多个基础模型的预测结果，构建出一个更加准确和稳健的最终模型，而主动学习则通过选择最具信息量的样本进行训练，减少了对大规模数据集的依赖。本研究提出了一种创新的主动集成深度学习框架，将深度神经网络（DNNs）与策略性数据采样相结合，以提高化学风险评估模型的性能，特别是在处理不平衡数据集和有限标签数据的情况下。

### 集成学习与主动学习的协同作用

集成学习是一种通过结合多个模型的预测结果来提高整体性能的机器学习方法。这种方法通过利用不同模型的优势，减少单一模型的偏差，从而提升模型的泛化能力。在化学风险评估中，集成学习的使用能够有效应对数据分布不均的问题，因为它可以通过多个模型的协同作用，减少对单一类别样本的过度依赖。相比之下，主动学习是一种在数据稀缺或标签获取成本高昂的情况下，提高模型性能的有效方法。它通过选择对模型训练最有价值的样本进行标签，从而最大化每一步训练的效率。本研究中，将这两种方法结合起来，构建了一个主动集成深度学习框架，旨在提高毒性预测的准确性和数据效率。

### 深度神经网络的应用

为了进一步提升模型的预测能力，本研究引入了三种深度神经网络模型：卷积神经网络（CNN）、双向长短期记忆网络（BiLSTM）和注意力机制（attention mechanism）。这些模型在处理化学数据方面各有优势。CNN擅长于从分子结构中提取局部特征，通过卷积层和池化层，能够识别分子结构中的关键模式。BiLSTM则能够捕捉分子之间的时序关系，通过对数据进行双向处理，有助于理解分子结构与毒性之间的复杂联系。注意力机制则通过聚焦于最相关的特征，提高模型对关键信息的识别能力。这些模型的组合使得研究能够更好地理解分子结构与毒性之间的关系，特别是在处理数据不平衡问题时，通过提取丰富的分子特征，提升模型的泛化能力。

### 策略性数据采样

在处理不平衡数据集时，策略性数据采样是一种有效的技术。本研究采用了k-子集（k-subset）采样方法，将多数类样本（即非毒性化合物）划分为多个子集，从而在每个子集中引入一定的平衡性。这种方法不仅能够确保每个基础模型在训练时接触到足够数量的少数类样本，还能通过引入不同的子集，增强模型的泛化能力。在本研究中，通过将非毒性化合物划分为六个子集，并与所有毒性化合物进行组合，构建了六个平衡的数据集。这些数据集用于训练六个不同的堆叠模型，通过这些模型的预测结果进行最终的预测。

### 模型评估与性能指标

为了评估模型的性能，本研究使用了多个关键指标，包括Matthews相关系数（MCC）、接收者操作特征曲线下面积（AUROC）和精确-召回曲线下面积（AUPRC）。MCC是一个强大的指标，因为它能够综合考虑所有四个混淆矩阵元素（真阳性、真阴性、假阳性、假阴性），并适用于不平衡数据集。AUROC反映了模型在不同阈值下的真阳性率和假阳性率之间的平衡，而AUPRC则更关注于在少数类样本中的表现。本研究的结果表明，通过使用k-子集采样，结合集成学习和主动学习策略，模型在所有指标上均取得了显著提升。特别是，当使用主动学习框架时，模型在AUROC和AUPRC上的表现优于传统的全数据集成模型，尽管在MCC指标上略有下降。这种提升使得模型能够在减少标签数据使用的情况下，仍保持较高的预测性能。

### 活动学习策略的选择

在主动学习框架中，模型的性能取决于选择策略的有效性。本研究比较了三种常见的选择策略：不确定性（uncertainty）、边界（margin）和熵（entropy）。不确定性策略通过选择模型预测不确定的样本，以提高模型的预测能力。边界策略则通过选择模型预测结果最接近决策边界的样本，以优化模型的分类能力。熵策略则通过选择模型预测结果不确定性最高的样本，以最大化信息增益。结果显示，不确定性策略在所有测试比例下表现最为稳定，特别是在严重的类别不平衡情况下，能够保持较高的预测性能。相比之下，边界和熵策略在某些情况下表现略逊一筹，尤其是在类别比例为1:6时，不确定性策略的MCC值达到0.51，AUROC为0.824，AUPRC为0.851，这表明其在处理不平衡数据集方面具有显著优势。

### 计算资源与效率分析

在计算资源和效率方面，本研究的主动集成深度学习框架也展现出良好的表现。通过使用k-子集采样，模型能够在减少标签数据使用的情况下，仍然保持较高的预测性能。例如，使用26.7%的标签数据，模型的性能与使用全数据集的模型相比，仅下降了10.7%到16.8%。这种高效的数据使用策略不仅降低了标签获取的成本，还减少了模型训练所需的时间。此外，预测时间也有所缩短，表明该框架在处理大规模数据集时具有较高的计算效率。

### 化学空间的探索与模型的适应性

在处理不平衡数据集时，模型的适应性和泛化能力尤为重要。本研究通过使用t-SNE和核密度估计（KDE）等方法，对化学空间进行了可视化分析。结果显示，不确定性策略在选择新样本时，能够有效识别化学空间中的关键区域，从而提升模型的分类能力。同时，k-子集采样方法确保了模型在训练过程中能够接触到多样化的化学结构，从而避免了对单一类别样本的过度依赖。这种策略不仅提高了模型的预测性能，还增强了其在面对新样本时的适应能力。

### 分子对接的验证

为了进一步验证模型的预测能力，本研究还进行了分子对接分析。通过分子对接，模型能够识别化合物与目标蛋白（如甲状腺过氧化物酶TPO）之间的相互作用，从而验证其预测的可靠性。结果显示，模型预测的高毒化合物在分子对接中表现出更强的结合亲和力，这表明其在识别有毒化合物方面具有较高的准确性。此外，分子对接还揭示了这些化合物与TPO之间的关键相互作用，如氢键和非键相互作用，进一步支持了模型预测的合理性。

### 与传统方法的对比

本研究的主动集成深度学习框架与传统的全数据集成方法进行了对比。结果显示，尽管传统方法在MCC指标上略胜一筹，但本研究的方法在AUROC和AUPRC指标上表现更优。同时，本方法在减少标签数据使用方面也具有显著优势，能够使用约73.3%的标签数据达到与全数据模型相当的预测性能。这表明，本方法在资源有限的情况下，能够有效提升预测模型的性能，同时降低实验成本。

### 未来研究方向

尽管本研究在处理不平衡数据集和有限标签数据方面取得了显著进展，但仍有一些挑战需要进一步探索。例如，当类别不平衡程度超过1:6时，本方法可能不再适用，此时需要结合其他策略，如少数类优先查询或不确定性采样，以确保对少数类样本的充分表示。此外，模型在处理不同类别比例时的表现仍需进一步优化，特别是在高不平衡情况下，如何保持模型的稳定性和准确性是一个重要课题。未来的研究可以探索更多先进的算法和策略，以提高模型在极端不平衡情况下的表现。

### 结论

本研究通过结合集成学习、主动学习和策略性数据采样，提出了一种新的化学风险评估模型。该模型在处理不平衡数据集和有限标签数据方面表现出色，能够有效提升毒性预测的准确性和效率。特别是在处理TPO干扰化合物时，该方法不仅能够识别关键的分子结构特征，还能通过分子对接验证预测结果的可靠性。这些结果表明，主动集成深度学习框架在化学风险评估领域具有广阔的应用前景，能够为传统方法提供更高效和准确的替代方案。

引领行业 | 聚焦麦特绘谱代谢组学整体解决方案>>

揭秘单细胞测序-深入了解这项正在改变我们开展科学研究的技术>>

对同一细胞中的转录组和表观基因组进行同时分析（使用细胞核分离试剂盒简化样本制备工作流程）>>

「大小鼠繁育与健康管理」指导海报，点击即可免费领取电子版或实体海报>>

热点排行

生物通微信公众号

在线客服

微信

新浪微博

我要投稿

返回顶部