InertDB:基于生成式AI扩展的PubChem生物惰性小分子数据库构建及其在药物发现中的应用

时间:2025年4月11日
来源:Journal of Cheminformatics

编辑推荐:

本研究针对AI驱动药物发现中阴性数据稀缺和发表偏倚问题,开发了首个基于真实生物活性数据的惰性化合物数据库InertDB。研究人员通过自然语言处理(NLP)聚类分析从PubChem中筛选3,205个经多生物实验验证的惰性化合物(CICs),并利用循环神经网络(RNN)生成64,368个扩展化合物(GICs)。验证实验表明,该数据库显著提升表型活性预测模型的AUROC值,为虚拟筛选和机器学习模型开发提供了高质量阴性数据集。

广告
   X   

在人工智能(AI)革命席卷药物发现领域的今天,科学家们面临着一个尴尬的困境:虽然海量的生物活性数据为机器学习模型提供了丰富的"正面教材",但关于化合物"不作为"的证据——即阴性数据却严重匮乏。这种"报喜不报忧"的发表偏倚现象,使得AI模型如同只见过成功案例的职场新人,难以准确识别真正的无效化合物。更棘手的是,现有解决方案如随机采样或属性匹配诱饵生成,往往无法真实反映化合物的生物惰性特征。

来自首尔大学药学院的Seungchan An团队在《Journal of Cheminformatics》发表的研究中,构建了一个突破性的解决方案——InertDB数据库。这个数据库包含两部分核心内容:一是从PubChem中2.6亿个检测结果中严格筛选出的3,205个经多实验验证的惰性化合物(CICs);二是通过深度学习生成的64,368个扩展惰性化合物(GICs)。研究团队开发了基于自然语言处理的生物实验多样性指标Dassay,确保入选化合物经过多类型生物实验验证。令人惊讶的是,97.2%的CICs符合"五规则"(Rule of Five),远高于PubChem平均水平,且仅含1.2%的泛实验干扰化合物(PAINS),展现出优异的药物相似性。

关键技术包括:1)使用TinyBioBERT模型对160万生物实验名称进行NLP聚类;2)开发基于香农熵的生物实验多样性量化指标Dassay;3)采用三层长短期记忆网络(LSTM)架构的生成模型,通过50倍SMILES扩增生成新化合物;4)利用LIT-PCBA和MUV基准数据集进行模型验证。

研究结果显示:在生物实验筛选方面,团队建立的三维评估体系(实验名称聚类、实验类型、靶标ID)有效识别出经过广泛验证的惰性化合物。化学特征分析表明,CICs的分子量(MW)和拓扑极性表面积(TPSA)与已批准药物相当,但氢键供受体数量存在显著差异。生成模型评估中,三层RNN在50倍扩增时达到最佳平衡,生成的化合物与CICs在化学空间高度重叠。特别值得注意的是,高频生成化合物中70.6%存在于PubChem,且活性检测结果比例显著低于随机化合物。

验证研究取得突破性成果:使用CICs作为阴性数据的模型,在LIT-PCBA和MUV基准测试中的AUROC值显著优于使用PubChem随机化合物或DeepCoy生成诱饵的模型。结构相似性分析揭示,InertDB化合物与已验证惰性化合物的Tanimoto系数(Tc)相关性更强,这解释了其性能优势。

与著名的"暗化学物质"(DCM)数据集比较发现,虽然两者共享2.6%的化合物,但InertDB在苯环类和有机酸类化合物上更丰富,而DCM富含杂环结构,显示出良好的互补性。这一发现为组合使用两个数据集进行虚拟筛选提供了理论依据。

该研究的核心价值在于:首次系统性地解决了AI药物发现中阴性数据匮乏的瓶颈问题。InertDB不仅提供了经过严格实验验证的惰性化合物,还通过生成式AI拓展了化学空间,为机器学习模型提供了更全面的"反面教材"。特别在表型活性预测方面,该数据库展现出显著优势,有望成为虚拟筛选的新标准工具。研究者开源了所有数据和生成模型代码,这种开放共享的态度将进一步推动AI药物发现领域的发展。未来,随着更多实验数据的积累和生成算法的改进,InertDB有望成长为阴性数据领域的权威资源,为降低药物研发的假阳性率提供有力支撑。

相关新闻
生物通微信公众号
微信
新浪微博


生物通 版权所有