基于边界选择的负样本策略和多层图神经网络的HCAR1拮抗剂筛选

时间:2026年1月25日
来源:Computer Methods and Programs in Biomedicine

编辑推荐:

构建基于边界选择负采样的HCAR1目标活性平衡数据集,提出融合分子指纹、图结构和碎片特征的多层次图神经网络模型,成功筛选出五个候选化合物,其中一种在体外实验中表现出22.39 μM的IC50抑制活性,为肿瘤免疫治疗提供新靶点。

广告
   X   

范梦梦|何大阔|刘倩|刘青|王峰|李贺|王浩|单思琪|张敬豪|侯月
东北大学信息科学与工程学院,中国辽宁省沈阳市110819

摘要

背景与目标:

羟基羧酸受体1(HCAR1),也称为乳酸受体,由于其异常激活与肿瘤发生和癌症进展密切相关,因此成为癌症治疗的一个有吸引力的治疗靶点。因此,准确预测HCAR1拮抗剂对于肿瘤免疫治疗至关重要。然而,传统的药物筛选方法由于数据集不平衡和分子表示不完整,导致成本高昂且性能不佳,这加剧了临床可用HCAR1拮抗剂的稀缺性。

方法:

使用边界选择的负样本策略构建了一个平衡的HCAR1靶点活性数据集。随后,提出了一种多级图神经网络(Multi-GNN)用于HCAR1靶点活性预测,整合了多种分子表示方法,包括分子指纹、分子图和片段级特征。

结果:

实验结果表明,所提出的模型在比较评估中优于八种最先进的方法。此外,使用训练有素的Multi-GNN模型结合物理化学筛选和分子对接方法,筛选出了大约一千万种化合物,得到了五种候选化合物。最终的体外cAMP拮抗活性测定证实了一种有前景的HCAR1抑制剂,其抑制浓度(IC50)为22.39 μM。

结论:

本研究介绍了一种基于人工智能的HCAR1靶向药物发现新框架,并提出了潜在的先导化合物以供进一步开发。

引言

在正常生理条件下,成年人每天由各种组织(包括心脏、大脑、肌肉、肠道和皮肤)产生约1500毫米尔的乳酸[1]。乳酸作为能量代谢的中心中间体,同时也是一种关键的信号分子,调节多种生理和病理过程[2]。羟基羧酸受体1(HCAR1),也称为GPR81,属于G蛋白偶联受体家族,主要在脂肪组织和肌肉组织中表达。通过Gi蛋白介导的环腺苷单磷酸(cAMP)信号通路抑制,HCAR1在多种细胞类型中发挥广泛的调节作用,影响脂解、神经活动、炎症和神经血管化等过程[3]、[4]、[5]。然而,越来越多的证据表明,HCAR1信号通路的异常激活与代谢紊乱和肿瘤发生密切相关[6]、[7]。事实上,过度的HCAR1激活已被证明会促进免疫抑制细胞的招募,减弱抗肿瘤免疫反应,并加速包括结直肠癌在内的多种癌症的恶性进展[8]。此外,HCAR1驱动的代谢增强还会促进肿瘤引起的恶病质的发展[8]。综上所述,这些发现突显了HCAR1作为多种疾病(尤其是恶性肿瘤)的治疗靶点的潜力。然而,目前尚无批准的HCAR1靶向药物。
因此,加速高效且选择性的HCAR1靶向药物的发现对于肿瘤代谢和免疫治疗至关重要。传统的HCAR1活性筛选策略依赖于实验测定,这些测定需要昂贵的仪器设备,并且在体外和体内都耗时且劳动强度大。在这种情况下,将人工智能(AI)与现有的HCAR1活性数据集相结合,构建一个针对特定靶点的分类模型,是一种有前景的方法,用于高通量识别HCAR1拮抗剂。
在AI驱动的药物发现中,分子表示方法是分子性质预测模型性能的关键决定因素。传统的机器学习方法,包括随机森林(RF)、支持向量机(SVM)、极端梯度提升(XGBoost)、梯度提升决策树(GBDT)、逻辑回归(LR)、k最近邻(kNN)、朴素贝叶斯(NB)和多层感知器(MLP),主要依赖于分子描述符或指纹作为模型输入[9]。这些模型旨在捕捉定量结构-活性关系(QSARs),从而实现大型化合物库的虚拟筛选。然而,这些表示方法严重依赖于手动特征工程,通常信噪比较低,限制了基于传统机器学习的分子性质模型的预测性能。
近年来,深度学习作为一种分子性质预测的关键方法脱颖而出,因为它能够自动学习高质量的分子表示,捕捉输入和输出之间的复杂非线性关系[10]。值得注意的是,基于图的分子表示方法将原子和键建模为节点和边,使图神经网络(GNNs)能够直接从分子中学习结构特征。因此,已经开发了多种GNN架构,包括图卷积网络(GCN)[11]、[12]、图注意力网络(GAT)[13]、消息传递神经网络(MPNN)[14]、有向消息传递网络(DMPNN)[15]、Attentive FP [16]、FraGAT [17]及其相关变体。最近的研究表明,基于GNN的模型在大型数据集上往往表现更好,例如涉及COVID-19抑制剂和JAK抑制剂的数据集[18]、[19],而基于指纹或描述符的模型在数据量较少的情况下通常具有更好的鲁棒性,包括与小胶质细胞毒性、CYP450抑制和分子物理化学性质相关的任务[20]、[21]、[22]。同时,越来越多的证据表明,基于片段的分子表示可以捕捉具有化学意义的局部结构,特别是那些来自 retrosynthetically relevant 和 chemically synthesizable 片段化的结构,如BRICS [23]、[24]。总体而言,这些观察结果表明,分子指纹、分子图和分子片段在不同层次的分子表示中编码了互补的化学语义和结构信息[25]。
尽管在基于机器学习和深度学习的分子性质预测方面取得了进展,但在准确预测HCAR1靶点活性方面仍存在重大挑战。首要挑战是HCAR1数据集的数量和质量有限,尤其是负样本的稀缺,这极大地削弱了模型的性能和鲁棒性。另一个挑战是依赖单一分子表示会导致分子信息的不完整捕获。此外,实验验证的缺乏在一定程度上降低了研究人员对模型预测的信心。
为了解决上述挑战,使用边界选择的负样本策略构建了一个包含13,384个样本的平衡HCAR1靶点活性数据集。为了确保HCAR1活性分类器的可靠性,采用了随机和基于支架的分割策略来评估模型在不同化学空间中的鲁棒性。随后,提出了一种基于机器学习的多级图神经网络(Multi-GNN)用于HCAR1靶点活性预测。该框架整合了分子指纹、分子图和基于BRICS的分子片段表示。分子指纹特征(包括MACCS(Molecular ACCess System)、PubChem和Pharmacophore ErG(Pharmacophore Extended Reduced Graph),共计1489个维度,通过全连接(FC)层进行编码,以捕获分子基本结构、物理化学性质和药效团特征。同时,分子图和片段图通过图卷积网络(GCNs)处理,以学习原子和键级别的拓扑特征以及与化学合成相关的片段级别结构特征。比较实验表明,Multi-GNN在预测HCAR1靶点活性方面始终优于其他模型。该模型进一步应用于大约一千万种化合物的大规模虚拟筛选,在物理化学性质筛选、基于Multi-GNN的HCAR1活性预测和分子对接后,识别出五种候选化合物。随后的体外cAMP拮抗活性测定证实了一种有前景的候选化合物,其IC50值为22.39 μM。
总体而言,这些结果强调了边界选择负样本策略的有效性,并突出了分子指纹、分子图和片段表示的互补作用。重要的是,它们建立了一个集成的框架,用于建模、预测、筛选和实验验证特定靶点的药物候选物。

数据收集与预处理

为了构建可靠的HCAR1靶点活性数据集,首先对上海国际计算生物学挑战赛2025提供的HCAR1相关数据进行了标准化和去重处理,得到了6543个阳性样本。此外,还从ChEMBL [26]数据库收集了经过实验验证的HCAR1相关数据,并进行了相同的标准化和去重处理,得到了149个阳性样本(EC50 ≤ 10 μM)和6个阴性样本(EC50 ≤ 10 μM)。

数据集分析

在本研究中,使用两种负样本策略构建了一个包含13,384个样本的平衡HCAR1靶点活性数据集:无监督选择和边界选择采样。为了构建可靠的靶点活性预测模型,使用ECFP4指纹(nBits = 2048)表示分子结构,并采用t分布随机邻居嵌入(t-SNE)来可视化训练集和测试集在化学空间中的分布。

结论

本研究使用边界选择的负样本策略构建了一个包含13,384个样本的平衡HCAR1靶点活性数据集。采用随机和基于支架的数据分割策略来评估模型在不同化学空间分布中的鲁棒性。基于此数据集,我们开发了一种基于机器学习的多级图神经网络(Multi-GNN)用于HCAR1靶点活性预测。所提出的框架整合了分子指纹、分子图和基于BRICS的分子片段表示。

CRediT作者贡献声明

范梦梦:撰写——原始草稿、验证、监督、方法学、数据管理、概念化。何大阔:方法学、资金获取。刘倩:研究、形式分析。刘青:方法学、研究。王峰:方法学、研究。李贺:资源、资金获取、形式分析。王浩:撰写——审稿与编辑、软件。单思琪:撰写——审稿与编辑。张敬豪:撰写——原始草稿。侯月:监督、方法学。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(62173078)、辽宁省重点实验室建设项目(2022JH13/10200026)和111项目(B16009)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有