TasProp:面向小样本分子性质预测的任务特异性预训练策略与数据增强方法

时间:2026年1月30日
来源:Briefings in Bioinformatics

编辑推荐:

本文针对小样本分子性质预测中模型易过拟合、泛化能力差的问题,提出了一种名为TasProp的任务特异性预训练新策略。该研究通过JT-VAE框架构建分子潜空间,并引入任务特异性对比损失以增强同类分子表征的内聚性,同时提出基于潜空间扰动的新型数据增强方法以缓解标记数据稀缺。实验表明,TasProp在多个公开及自建数据集上超越现有先进方法,为小样本场景下的分子性质预测提供了有效解决方案。

广告
   X   

在药物发现领域,准确预测分子性质(如毒性、溶解性等)是筛选候选药物、优化分子结构的关键环节。近年来,深度学习技术虽在该领域取得显著进展,但模型复杂度的提升与高质量标记数据的稀缺形成了尖锐矛盾,导致模型严重过拟合,泛化能力受限。尤其像血脑屏障通透性(BBBP)和副作用资源(SIDER)等数据集仅包含约2000和1400个样本,难以支撑复杂模型的进一步优化。传统监督学习方法以及依赖大规模未标记数据预训练再微调的通用策略,往往因预训练过程缺乏任务针对性,而在面向特定性质预测任务时表现不佳。这一瓶颈促使研究人员思考:能否设计一种预训练策略,使其不仅能从海量未标记数据中学习通用分子特征,还能在预训练阶段就融入特定任务的知识,从而更高效地利用有限的标记数据?
为了回答上述问题,Wenbo Zhang、Yihui Wang等研究人员在《Briefings in Bioinformatics》上发表了他们的研究成果。他们提出了TasProp,一个专为小样本分子性质预测设计的任务特异性预训练框架。该研究的核心在于巧妙地将半监督学习与对比学习相结合。具体而言,TasProp首先利用JT-VAE(Junction Tree Variational Autoencoder)将标记和未标记的分子数据投影到一个统一的潜空间中。JT-VAE能同时捕捉分子的图结构(原子和键的连接)和基于 junction tree (JT) 的子结构拓扑信息,从而学习到更丰富的分子表示。在此基础上,研究者创新性地为标记数据引入了一个任务特异性的对比损失(task-specific contrastive loss)。该损失函数鼓励具有相同性质的分子在潜空间中的表示更加紧密(内聚),而不同性质的分子表示则尽可能分离,从而直接优化了与下游分类任务相关的表征判别性。此外,为了应对标记数据稀缺的挑战,论文还提出了一种新颖的数据增强方法:在JT-VAE学习到的连续潜空间中,对已有标记分子的潜表示施加微小扰动,然后解码生成新的分子。为确保生成分子的语义有效性,该方法还设置了一个基于潜空间距离的阈值进行有效性检验,只有与原始分子潜表示足够接近的新分子才会被赋予相同的伪标签并加入训练集。理论分析(定理1.1)从概率角度论证了该 augmentation 方法在保持性质一致性方面的可靠性。
研究人员在三个公开数据集(BBBP, Tox21/SR-ARE, SIDER/HD)和两个自建麻醉学相关数据集(Excitement, Anesthetic)上对TasProp进行了评估,并使用了ZINC数据集中的25万个未标记分子进行预训练。技术方法的关键点包括:1) 基于JT-VAE的潜空间构建,其编码器包含图编码器和树编码器,分别处理分子图和JT,解码器则分层重建分子;2) 任务特异性预训练目标函数,结合了重构损失、KL散度损失和任务特异性对比损失;3) 基于潜空间扰动的数据增强流程,包括编码、扰动、解码和有效性验证;4) 下游预测器微调,使用增强后的标记数据集训练一个多层感知机进行性质预测。
研究结果
数据增强效果分析
通过所提出的数据增强方法,成功地将原始标记数据集的规模扩大了约10%。通过对不同潜空间距离阈值δ的分析,发现当δ设置在3到5之间时,分子对保持相同性质的概率超过90%,在保证性质一致性和增强可行性之间取得了良好平衡。
整体性能比较
TasProp在大多数分子性质预测任务上超越了包括ECFP、NF、GCN、Weave、MPNN、DMPNN、Attentive FP、TrimNet以及自监督基线MPG、SEGA、PH在内的多种先进方法。例如,在BBBP数据集上,TasProp取得了0.9414的AUC-ROC值,优于DMPNN的0.9325;在Anesthetic数据集上达到0.9576,优于ECFP的0.9502。这表明TasProp的任务特异性预训练策略和数据增强方法能有效提升小数据场景下的预测性能。
消融实验
通过系统性地移除数据增强(aug)和任务特异性预训练(tsp)组件,验证了各自的重要性。移除tsp导致所有数据集的性能下降,证实了任务特异性对比学习对学习判别性表征的关键作用。移除aug也在部分数据集上导致性能退化,显示了数据增强对缓解数据稀缺的贡献。当两者均被移除时(TasProp w/o both),性能进一步下降,凸显了所提出组件的协同效应。
分子表征分析
通过t-SNE可视化潜空间表征和计算戴维森-堡丁指数(DBI, Davies-Bouldin Index)进行定量评估,发现TasProp在引入任务特异性预训练后,学习到的分子表征具有更好的内聚性和可分性,DBI值在多数数据集上低于对比方法(如MPG和TasProp w/o tsp),表明其簇内更紧凑、簇间更分离。
扰动阈值影响
实验分析了不同扰动阈值δ(2, 3, 4, 5, 6)对性能的影响。结果表明,δ=3在多数数据集上能取得最佳或接近最佳的性能。阈值过小(δ=2)会限制增强样本数量,阈值过大(δ=6)则可能引入标签噪声,δ=3实现了增强效率与标签可靠性的较好平衡。
研究结论与讨论
本研究提出的TasProp框架,通过任务特异性预训练和潜空间数据增强,有效解决了小样本分子性质预测的挑战。其核心贡献在于将任务知识提前注入预训练过程,使模型在接触有限标记数据前就已具备良好的性质判别能力。理论分析为数据增强的可靠性提供了支撑,广泛的实验验证了其在多个真实场景下的优越性。虽然潜空间连续性假设在分子结构高度相似但性质迥异的极端情况下可能存在局限,但这并不影响TasProp整体策略的有效性。该工作为小样本学习在计算化学和药物发现中的应用提供了新思路,其通用框架也有望推广至其他面临数据稀缺问题的领域。为了方便应用,研究者还开发了交互式网站(http://drug.neusym.cn/),支持用户在线预测分子性质,促进了研究成果的转化和共享。

生物通微信公众号
微信
新浪微博


生物通 版权所有