负向化学数据增强语言模型在反应预测中的突破性应用

时间:2025年6月15日
来源:SCIENCE ADVANCES

编辑推荐:

本研究针对化学实验中大量未成功数据未被充分利用的问题,创新性地提出利用负向化学反应数据(negative data)优化反应预测模型。通过强化学习(RL)策略训练Transformer模型,在低数据量(仅20个正向样本)和高通量实验(HTE)数据集中均实现性能提升,验证了负向数据在化学语言模型中的关键作用,为稀缺正向数据场景下的反应预测提供了新范式。

广告
   X   

在化学研究中,科学家们往往需要经历无数次失败才能获得成功。托马斯·爱迪生曾说过:"我没有失败一千次,电灯泡是一项有一千个步骤的发明。"这句话生动体现了失败在科学研究中的价值。然而,在化学领域,这些"失败"的实验数据——即负向化学数据(negative data)——长期以来并未得到充分利用。传统上,化学机器学习模型主要依赖专利中的成功反应数据进行训练,导致模型存在严重的数据偏差。更关键的是,在正向反应数据稀缺的情况下,模型的预测性能往往大幅下降。

针对这一挑战,发表在《SCIENCE ADVANCES》上的这项研究开创性地将负向化学数据引入反应预测模型的训练过程。研究人员采用强化学习(RL)框架,通过精心设计的奖励机制,使模型能够从失败的实验中学习,显著提升了在正向数据稀缺情况下的预测准确性。

研究采用了多项关键技术方法:基于Transformer架构的化学语言模型预训练、强化学习策略优化(包括奖励模型设计和策略梯度算法)、支持向量机(SVM)分类器构建用于区分正负样本,以及针对高通量实验(HTE)数据的特殊处理方法。实验数据来源于两个主要数据集:严格控制的RegioSQM20数据集和真实的高通量实验HiTEA数据集。

【RL反馈从负向数据提升低数据量下的正向反应预测】
在仅含22个正向样本的Klow
数据集上,强化学习方法显著优于传统微调(FT),准确率提升约4%。研究显示,当正向样本充足时(Khigh
),FT表现更优;但在数据稀缺时,RL通过奖励模型识别潜在正向反应的能力尤为关键。

【高度泛化的奖励函数增强RL反馈质量】
研究对比了两种嵌入表示:基础模型嵌入和分类调优嵌入。后者使正负样本在特征空间中分离更明显,为SVM奖励模型提供了更好的判别基础。以5-(2-溴苯基)异恶唑的溴化反应为例,分类调优模型将负向产物B-F与正向产物A的区分度提高了37%。

【数据变异性的影响】
通过5次不同数据分割实验,研究发现模型性能存在约2%的波动。其中seed 62的分割表现最差,分析表明这与奖励模型在该分割上的判别准确率下降(仅64.24%)直接相关,凸显了数据质量对RL稳定性的影响。

【HTE数据的适用性】
在真实的高通量实验数据集上,研究以1%产率为阈值定义正负样本。RL方法将模型在验证集上的准确率从0.610提升至0.644,最高达到0.668。这表明RL能有效抑制低产率反应的预测,同时促进高产率反应的识别。

研究结论指出,负向化学数据通过强化学习框架的整合,能够显著改善化学语言模型的预测性能,特别是在正向数据稀缺的情况下。这种方法不仅拓展了化学数据的利用维度,还为解决化学机器学习中的数据偏差问题提供了新思路。值得注意的是,研究也揭示了RL训练过程中的稳定性挑战,建议未来通过增加数据分割种子数和优化超参数选择策略来进一步提升模型鲁棒性。

这项工作的科学价值在于:首次系统论证了负向数据在化学反应预测中的增效机制;开发了适用于化学领域的RLHF(人类反馈强化学习)变体;为高通量实验数据的机器学习建模提供了实用框架。这些发现不仅对计算化学领域有重要意义,也为材料发现、药物合成等应用场景中的反应优化提供了新的方法论支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有