在正常生理条件下,成年人每天由各种组织(包括心脏、大脑、肌肉、肠道和皮肤)产生约1500毫米尔的乳酸[1]。乳酸作为能量代谢的中心中间体,同时也是一种关键的信号分子,调节多种生理和病理过程[2]。羟基羧酸受体1(HCAR1),也称为GPR81,属于G蛋白偶联受体家族,主要在脂肪组织和肌肉组织中表达。通过Gi蛋白介导的环腺苷单磷酸(cAMP)信号通路抑制,HCAR1在多种细胞类型中发挥广泛的调节作用,影响脂解、神经活动、炎症和神经血管化等过程[3]、[4]、[5]。然而,越来越多的证据表明,HCAR1信号通路的异常激活与代谢紊乱和肿瘤发生密切相关[6]、[7]。事实上,过度的HCAR1激活已被证明会促进免疫抑制细胞的招募,减弱抗肿瘤免疫反应,并加速包括结直肠癌在内的多种癌症的恶性进展[8]。此外,HCAR1驱动的代谢增强还会促进肿瘤引起的恶病质的发展[8]。综上所述,这些发现突显了HCAR1作为多种疾病(尤其是恶性肿瘤)的治疗靶点的潜力。然而,目前尚无批准的HCAR1靶向药物。
因此,加速高效且选择性的HCAR1靶向药物的发现对于肿瘤代谢和免疫治疗至关重要。传统的HCAR1活性筛选策略依赖于实验测定,这些测定需要昂贵的仪器设备,并且在体外和体内都耗时且劳动强度大。在这种情况下,将人工智能(AI)与现有的HCAR1活性数据集相结合,构建一个针对特定靶点的分类模型,是一种有前景的方法,用于高通量识别HCAR1拮抗剂。
在AI驱动的药物发现中,分子表示方法是分子性质预测模型性能的关键决定因素。传统的机器学习方法,包括随机森林(RF)、支持向量机(SVM)、极端梯度提升(XGBoost)、梯度提升决策树(GBDT)、逻辑回归(LR)、k最近邻(kNN)、朴素贝叶斯(NB)和多层感知器(MLP),主要依赖于分子描述符或指纹作为模型输入[9]。这些模型旨在捕捉定量结构-活性关系(QSARs),从而实现大型化合物库的虚拟筛选。然而,这些表示方法严重依赖于手动特征工程,通常信噪比较低,限制了基于传统机器学习的分子性质模型的预测性能。
近年来,深度学习作为一种分子性质预测的关键方法脱颖而出,因为它能够自动学习高质量的分子表示,捕捉输入和输出之间的复杂非线性关系[10]。值得注意的是,基于图的分子表示方法将原子和键建模为节点和边,使图神经网络(GNNs)能够直接从分子中学习结构特征。因此,已经开发了多种GNN架构,包括图卷积网络(GCN)[11]、[12]、图注意力网络(GAT)[13]、消息传递神经网络(MPNN)[14]、有向消息传递网络(DMPNN)[15]、Attentive FP [16]、FraGAT [17]及其相关变体。最近的研究表明,基于GNN的模型在大型数据集上往往表现更好,例如涉及COVID-19抑制剂和JAK抑制剂的数据集[18]、[19],而基于指纹或描述符的模型在数据量较少的情况下通常具有更好的鲁棒性,包括与小胶质细胞毒性、CYP450抑制和分子物理化学性质相关的任务[20]、[21]、[22]。同时,越来越多的证据表明,基于片段的分子表示可以捕捉具有化学意义的局部结构,特别是那些来自 retrosynthetically relevant 和 chemically synthesizable 片段化的结构,如BRICS [23]、[24]。总体而言,这些观察结果表明,分子指纹、分子图和分子片段在不同层次的分子表示中编码了互补的化学语义和结构信息[25]。
尽管在基于机器学习和深度学习的分子性质预测方面取得了进展,但在准确预测HCAR1靶点活性方面仍存在重大挑战。首要挑战是HCAR1数据集的数量和质量有限,尤其是负样本的稀缺,这极大地削弱了模型的性能和鲁棒性。另一个挑战是依赖单一分子表示会导致分子信息的不完整捕获。此外,实验验证的缺乏在一定程度上降低了研究人员对模型预测的信心。
为了解决上述挑战,使用边界选择的负样本策略构建了一个包含13,384个样本的平衡HCAR1靶点活性数据集。为了确保HCAR1活性分类器的可靠性,采用了随机和基于支架的分割策略来评估模型在不同化学空间中的鲁棒性。随后,提出了一种基于机器学习的多级图神经网络(Multi-GNN)用于HCAR1靶点活性预测。该框架整合了分子指纹、分子图和基于BRICS的分子片段表示。分子指纹特征(包括MACCS(Molecular ACCess System)、PubChem和Pharmacophore ErG(Pharmacophore Extended Reduced Graph),共计1489个维度,通过全连接(FC)层进行编码,以捕获分子基本结构、物理化学性质和药效团特征。同时,分子图和片段图通过图卷积网络(GCNs)处理,以学习原子和键级别的拓扑特征以及与化学合成相关的片段级别结构特征。比较实验表明,Multi-GNN在预测HCAR1靶点活性方面始终优于其他模型。该模型进一步应用于大约一千万种化合物的大规模虚拟筛选,在物理化学性质筛选、基于Multi-GNN的HCAR1活性预测和分子对接后,识别出五种候选化合物。随后的体外cAMP拮抗活性测定证实了一种有前景的候选化合物,其IC50值为22.39 μM。
总体而言,这些结果强调了边界选择负样本策略的有效性,并突出了分子指纹、分子图和片段表示的互补作用。重要的是,它们建立了一个集成的框架,用于建模、预测、筛选和实验验证特定靶点的药物候选物。