基于动作的混合知识图谱ConvAHKG:一种用于药物重定位的双通道卷积方法

时间:2026年2月7日
来源:Scientific Reports

编辑推荐:

本研究旨在解决药物开发周期长、成本高的问题。研究人员针对药物-疾病关联预测,构建了一种基于动作的混合知识图谱(AHKG),并引入了双通道一维卷积神经网络(IDC_Conv1D)进行分类。该方法显著提升了预测性能(AUC达0.9836),成功识别出非小细胞肺癌(NSCLC)的潜在治疗候选药物(如Trastuzumab),并通过分子对接验证了其结合潜力,为加速药物发现提供了高效的计算框架。

广告
   X   

在生物医学领域,寻找治疗疾病的新药犹如大海捞针,不仅耗资巨大,动辄数十亿美元,而且研发周期漫长,平均超过十年。然而,一个充满希望的捷径正吸引着越来越多的目光——药物重定位(Drug Repurposing)。这种方法的核心思想是“老药新用”,即挖掘已获批上市药物的新治疗用途。这不仅能大幅缩短研发时间、降低失败风险,还能让一些“过气”的药物重获新生,为患者带来新的希望。但挑战也随之而来:如何从海量、复杂且关联微妙的生物医学数据中,精准预测出哪种旧药可能对哪种新疾病有效?传统的实验筛选方法成本高昂、通量有限,而现有的计算模型在捕捉药物、蛋白质、疾病之间错综复杂的生物关系网络方面,仍存在精度不足、难以处理数据不平衡等问题。
为此,研究人员开展了一项名为“ConvAHKG”的研究,旨在构建一个更强大的计算框架来预测药物与疾病之间的潜在关联。这项研究最终得出结论,他们提出的基于动作的混合知识图谱(Action-based Hybrid Knowledge Graph, AHKG)结合新型双通道卷积神经网络的方法,能够显著提升预测准确性,并成功应用于非小细胞肺癌(Non-Small Cell Lung Cancer, NSCLC)的候选药物发现,为高效、精准的药物重定位提供了有力的计算工具。相关成果已发表在《Scientific Reports》期刊上。
为开展此项研究,作者主要运用了以下几项关键技术方法:首先,构建了一个整合药物、蛋白质、疾病及其相互关系的混合知识图谱(AHKG)作为数据基础。其次,利用Word2Vec模型对知识图谱中的节点(实体)进行向量化表示,以捕捉其语义特征。接着,创新性地设计了一种双通道一维卷积神经网络(IDC_Conv1D)架构,专门用于对药物-疾病关系对进行分类预测。此外,为了应对生物数据中常见的正负样本严重不平衡问题,研究采用了加权的二元交叉熵损失函数来优化模型训练。最后,通过分子对接(Molecular Docking)模拟对模型预测出的新型候选化合物进行理论验证,分析其与靶点蛋白的结合相互作用。研究所用的代码和数据均已公开。
研究结果
AHKG的构建与表征
研究人员首先构建了基于动作的混合知识图谱(AHKG),该图谱整合了药物、蛋白质、疾病等多种生物实体及其间丰富的相互作用关系(如“治疗”、“靶向”、“参与”等动作)。为了将图谱中的非结构化信息转化为计算机可处理的形式,他们采用Word2Vec模型为每个实体生成了分布式向量表示(Embedding)。这一步骤使得具有相似功能或语义的实体(例如,药理机制相近的药物)在向量空间中彼此靠近,从而为后续的深度关系推理奠定了高质量的数据基础。
IDC_Conv1D模型架构与性能
为了从实体向量中有效提取特征并预测药物-疾病关联,本研究提出了一种新颖的双通道一维卷积神经网络(IDC_Conv1D)。该架构设计有两个并行的卷积通道,能够分别从不同维度或视角处理输入的特征信息,从而更全面地捕捉数据中的复杂模式。针对药物重定位数据集中普遍存在的正例(已知有效关联)远少于负例的类别不平衡问题,模型训练中引入了加权的二元交叉熵损失函数,对少数类(正例)的误分类施加更高惩罚,迫使模型更关注于学习正确的关联。实验结果表明,ConvAHKG框架在预测药物-疾病关联任务上取得了卓越的性能,其曲线下面积(Area Under the Curve, AUC)达到0.9836,精确率-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)达到0.9686,显著优于其他先进的基线模型。
在非小细胞肺癌(NSCLC)中的案例应用
为验证ConvAHKG的实际应用价值,研究团队将其应用于非小细胞肺癌(NSCLC)的治疗药物发现。模型成功地从已知药物中筛选出多个具有潜在治疗NSCLC前景的候选药物。其中,曲妥珠单抗(Trastuzumab,一种已用于乳腺癌治疗的靶向药)被模型高度推荐。此外,模型还预测了一种尚未经实验验证的化合物可能对NSCLC有效。通过进一步的分子对接分析,研究人员在计算机模拟中证实了该预测化合物与NSCLC相关靶点蛋白之间存在强烈的结合相互作用,包括形成氢键和范德华力等,这从理论上支持了该化合物作为新型NSCLC治疗选项的潜力。
研究结论与讨论
本研究提出的ConvAHKG框架,通过融合基于动作的混合知识图谱和专门设计的双通道卷积神经网络,有效地解决了从异构生物大数据中精准预测药物-疾病关联的挑战。该方法不仅通过创新的模型架构提升了特征提取能力,还通过针对性的损失函数设计缓解了数据不平衡带来的负面影响,从而实现了state-of-the-art(最先进)的预测精度。尤为重要的是,框架在非小细胞肺癌这一具体疾病上的成功应用,预测并初步验证了新的治疗候选物,展示了其从计算预测到生物学解释的完整流程及其在加速药物重定位方面的实用性与可靠性。这项工作为人工智能驱动的新药发现提供了新的思路和强大的工具,未来可通过纳入更多维度的生物数据(如基因组学、临床数据)进一步扩展图谱,并探索其在其他复杂疾病中的应用,推动计算生物学向更精准、更高效的药物研发迈进。

生物通微信公众号
微信
新浪微博


生物通 版权所有