MORSE:通过跨层次和非对称生物模态的结构化语义提取实现分子表示学习

时间:2026年1月2日
来源:Pattern Recognition

编辑推荐:

多模态分子表征学习框架MORSE通过整合生物知识图谱的高阶语义路径和可靠性建模的跨模态融合机制,有效解决层次依赖建模、模态不对称和数据缺失问题。实验表明其相比22种基线方法在10个数据集上性能最优,如在Biogen3K回归任务中提升8.3%。

广告
   X   

张荣辉|李梦然|邢文斌|李波|张成阳|涂文轩|李永福|王如欣
中山大学深圳校区智能系统工程学院,中国广东省深圳市518107

摘要

分子表示学习在计算药物发现和系统生物学中至关重要。随着高通量生物检测技术的日益普及,多模态数据(例如分子结构、细胞表型和基因表达谱)对于捕捉不同生物尺度上的分子效应变得不可或缺。然而,现有方法往往忽略了分子特征与细胞反应之间的层次依赖性,这阻碍了对复杂生物扰动的建模。此外,非对称模态中的冗余或缺失信息可能会引入噪声并降低预测性能。在这项工作中,我们提出了MORSE(通过结构化语义提取进行分子表示),这是一个统一的多模态分子表示学习框架,它将结构化语义推理与模态可靠性建模相结合,以在非对称条件下保持高置信度和鲁棒性。MORSE由两个协调组件组成:首先,PathMiner在生物知识图上进行跨模态随机游走,提取高阶语义路径,每个路径用于构建超边,为推断非对称模态提供结构化先验;其次,VeilNet通过将多种模态整合到共享的语义空间中,利用掩码图自动编码器解决跨模态差异,并根据其可靠性动态调节每种模态的贡献。实验表明,与20多种基线方法相比,MORSE在10个数据集上的不同分子属性预测任务中均取得了最佳性能。例如,在Biogen3K数据集的基于回归的分子属性预测中,MORSE的性能提高了8.3%。

引言

分子表示学习在计算药物发现和分子设计中发挥着重要作用,支持预测分子生物活性、毒性和靶点相互作用等关键任务[1]。传统方法主要基于分子的单一模态表示,如化学指纹图谱或分子图[2]。随着图神经网络(GNNs)[3]的发展,人们越来越关注以数据驱动的方式对原子结构及其连接进行建模,从而能够捕捉局部和全局的结构语义。代表性方法如GROVER[4]、MolCLR[5]通过结合预训练、对比学习和结构感知增强策略,在数据有限的情况下显著提高了分子表示的泛化能力。
为了更好地捕捉多样的分子属性,最近的研究进一步探索了内部分子模态的整合,例如结合2D结构、3D构象和SMILES序列来提取跨模态结构语义。GEM[6]、Uni-Mol[7]和MolGT[8]等方法采用对比学习、几何建模或统一图编码器等策略来提取结构知识。这些方法增强了模型从几何信息、化学语义和空间行为中学习的能力,不同模态相互补充和强化,从而在结构层面上推进了多模态表示学习。
尽管在结构建模方面取得了显著进展,但这些方法主要局限于内部分子模态的融合。随着高通量实验技术的发展,越来越多的研究开始整合外部生物模态,如细胞形态谱[10]、[11]和基因表达特征[12]、[13]。这些外部模态携带丰富的功能性生物信号,它们的整合已被证明可以提高预测性能和泛化能力。代表性方法包括CLOOME[14]、BioBridge[15]、InfoCORE[16]和InfoAlign[17],它们使用对比或基于映射的策略将分子结构与生物读数对齐,在各种下游任务上取得了有希望的结果。如图1(a)所示,联合建模分子、细胞和基因显著提高了预测准确性,突显了多模态融合在分子学习中的潜力。
然而,现实世界中的多模态分子数据往往偏离这些多模态对齐方法所基于的假设,带来了三个主要挑战。首先,模态之间存在层次依赖性:分子扰动通过中间细胞反应影响基因表达,形成多跳生物途径。虽然CLOOME[14]和InfoCORE[16]等方法进行了实例级对齐,但它们没有明确建模这些跨尺度关系,因此忽略了捕捉分子-细胞-基因相互作用所必需的高阶语义。其次,由于实验协议和测量可用性的不同,模态不对称性普遍存在[18]。例如,一种化合物可能有测量的细胞谱但没有基因表达数据,或者反之亦然(图1(b))。依赖于完整模态对齐的方法在处理此类不完整样本时会降低性能。第三,当模态在噪声水平或生物相关性上存在差异时,多模态融合可能会传播不确定性。现有的基于对齐的模型通常假设所有模态的可靠性是均匀的,因此可能会高估噪声或不完整信号。例如,InfoAlign[17]尽管使用了跨模态图和信息瓶颈来增强对齐的鲁棒性,但它将噪声或不完整输入视为高质量输入,最终影响了性能。
为了解决这些挑战,我们提出了MORSE(通过结构化语义提取进行分子表示),这是一个在模态不对称和层次结构条件下统一的多模态分子表示学习框架。MORSE不是假设所有模态始终存在且信息量相等,而是从生物知识图中动态推断缺失信息,并根据其可靠性或置信度调整每种模态的影响。具体来说,MORSE包括两个协调组件:(1)PathMiner在异构生物知识图上进行跨模态随机游走,提取高阶语义路径,捕捉跨越多个生物尺度的分子-细胞-基因依赖性。然后这些路径被聚合成超边,在观察到的模态不完整时提供结构化先验伪模态信号(图1(c))。(2)VeilNet通过将观察到的模态与PathMiner推断出的伪模态相结合,编码统一的分子表示。它包含一个模态可靠性建模机制,动态调节每种模态的贡献,减轻噪声或不完整数据的影响。通过这种推理-融合的协同作用,MORSE同时捕捉了层次化的跨模态语义,并对模态不对称性保持鲁棒性,从而产生更具表现力和可靠性的分子表示。
总之,本文做出以下贡献:
  • 我们提出了MORSE,一个在模态不对称和层次结构条件下基于结构化语义的分子表示学习框架。
  • 我们引入了PathMiner,一个使用生物约束游走的超图引导的语义提取模块,能够生成具有置信度量化的多尺度伪模态。
  • 我们设计了VeilNet,一个具有置信度意识的编码器,动态调节多模态融合,通过加权监督整合观察到的和伪模态数据,同时保持高置信度的模态。
  • 在分子属性预测任务上的广泛实验表明,MORSE取得了强大的性能和鲁棒性。
  • 本文的其余部分组织如下:第2节回顾相关工作。第3节介绍初步背景。第4节详细说明提出的MORSE方法。第5节展示并分析实验结果。最后,第6节总结本文并讨论未来方向。

    部分摘录

    分子表示学习

    分子表示学习已经从早期依赖固定描述符(如ECFP和专家定义的特征[2])发展到更灵活的、基于GNNs的数据驱动方法[19]。例如,GROVER[4]通过建模原子相互作用并采用预训练策略(包括基序预测和对比学习)有效捕捉了分子图结构,从而提高了泛化能力。MolCLR[5]通过化学意义上的增强进一步提高了鲁棒性

    问题定义

    X={xi}i=1N是一组分子样本。每个样本xi包括两个内部分子视图:一个Morgan指纹图谱MiRdm,用于编码物理化学性质;以及一个分子图Gi,用于捕获结构拓扑。这些互补的表示共同构成了核心分子模态。
    此外,每个样本可能还包括两种辅助模态:一个细胞模态CiRdc,用于反映形态反应;以及一个基因模态GiRdg,用于表示基因表达。由于

    方法论

    MORSE从根本上重新思考了多模态分子表示学习,解决了三个限制:(1)无法处理模态间的层次生物依赖性;(2)缺乏处理不完整多模态数据的原则性方法;(3)缺乏针对噪声生物测量的可靠性感知融合机制。如图2所示,MORSE引入了两个关键协调组件:PathMiner和VeilNet。

    实验与分析

    本节回答以下研究问题:
    RQ1:MORSE在分子属性回归任务上的表现如何?
    RQ2:MORSE在分子属性分类任务上的表现如何?
    RQ3:MORSE对其他分子数据集的泛化能力如何?
    RQ4:MORSE的关键组件对性能提升有何贡献?
    RQ5:MORSE对关键超参数的敏感性如何?
    RQ6:MORSE在单个分子层面的预测是否一致和鲁棒?

    结论

    我们提出了MORSE,这是一个在具有模态不对称性和层次生物依赖性的现实世界环境中进行多模态分子表示学习的统一框架。MORSE结合了两个关键组件:PathMiner,一个基于图的模块,通过跨模态随机游走捕获高阶语义路径以推断缺失的模态;以及VeilNet,一个具有置信度意识的编码器,动态融合观察到的和伪模态输入,同时强调高置信度信号

    CRediT作者贡献声明

    张荣辉:撰写——原始草稿、验证、方法论、调查。李梦然:撰写——原始草稿、可视化、验证、软件、方法论。邢文斌:撰写——原始草稿、可视化、验证。李波:可视化、验证、调查。张成阳:验证、调查、数据管理。涂文轩:可视化、验证。李永福:监督、调查。王如欣:撰写——审阅与编辑、监督、方法论、资金支持

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本文部分得到了中国国家重点研发计划(项目编号2022YFA1008300)、国家自然科学基金(项目编号12471308)、深圳市科技计划(项目编号JCYJ20240813151129038)以及深圳市优秀青年学者计划(项目编号RCYX20231211090247060)的支持。

    生物通微信公众号
    微信
    新浪微博


    生物通 版权所有