分子表示学习在计算药物发现和分子设计中发挥着重要作用,支持预测分子生物活性、毒性和靶点相互作用等关键任务[1]。传统方法主要基于分子的单一模态表示,如化学指纹图谱或分子图[2]。随着图神经网络(GNNs)[3]的发展,人们越来越关注以数据驱动的方式对原子结构及其连接进行建模,从而能够捕捉局部和全局的结构语义。代表性方法如GROVER[4]、MolCLR[5]通过结合预训练、对比学习和结构感知增强策略,在数据有限的情况下显著提高了分子表示的泛化能力。
为了更好地捕捉多样的分子属性,最近的研究进一步探索了内部分子模态的整合,例如结合2D结构、3D构象和SMILES序列来提取跨模态结构语义。GEM[6]、Uni-Mol[7]和MolGT[8]等方法采用对比学习、几何建模或统一图编码器等策略来提取结构知识。这些方法增强了模型从几何信息、化学语义和空间行为中学习的能力,不同模态相互补充和强化,从而在结构层面上推进了多模态表示学习。
尽管在结构建模方面取得了显著进展,但这些方法主要局限于内部分子模态的融合。随着高通量实验技术的发展,越来越多的研究开始整合外部生物模态,如细胞形态谱[10]、[11]和基因表达特征[12]、[13]。这些外部模态携带丰富的功能性生物信号,它们的整合已被证明可以提高预测性能和泛化能力。代表性方法包括CLOOME[14]、BioBridge[15]、InfoCORE[16]和InfoAlign[17],它们使用对比或基于映射的策略将分子结构与生物读数对齐,在各种下游任务上取得了有希望的结果。如图1(a)所示,联合建模分子、细胞和基因显著提高了预测准确性,突显了多模态融合在分子学习中的潜力。
然而,现实世界中的多模态分子数据往往偏离这些多模态对齐方法所基于的假设,带来了三个主要挑战。首先,模态之间存在层次依赖性:分子扰动通过中间细胞反应影响基因表达,形成多跳生物途径。虽然CLOOME[14]和InfoCORE[16]等方法进行了实例级对齐,但它们没有明确建模这些跨尺度关系,因此忽略了捕捉分子-细胞-基因相互作用所必需的高阶语义。其次,由于实验协议和测量可用性的不同,模态不对称性普遍存在[18]。例如,一种化合物可能有测量的细胞谱但没有基因表达数据,或者反之亦然(图1(b))。依赖于完整模态对齐的方法在处理此类不完整样本时会降低性能。第三,当模态在噪声水平或生物相关性上存在差异时,多模态融合可能会传播不确定性。现有的基于对齐的模型通常假设所有模态的可靠性是均匀的,因此可能会高估噪声或不完整信号。例如,InfoAlign[17]尽管使用了跨模态图和信息瓶颈来增强对齐的鲁棒性,但它将噪声或不完整输入视为高质量输入,最终影响了性能。
为了解决这些挑战,我们提出了MORSE(通过结构化语义提取进行分子表示),这是一个在模态不对称和层次结构条件下统一的多模态分子表示学习框架。MORSE不是假设所有模态始终存在且信息量相等,而是从生物知识图中动态推断缺失信息,并根据其可靠性或置信度调整每种模态的影响。具体来说,MORSE包括两个协调组件:(1)PathMiner在异构生物知识图上进行跨模态随机游走,提取高阶语义路径,捕捉跨越多个生物尺度的分子-细胞-基因依赖性。然后这些路径被聚合成超边,在观察到的模态不完整时提供结构化先验伪模态信号(图1(c))。(2)VeilNet通过将观察到的模态与PathMiner推断出的伪模态相结合,编码统一的分子表示。它包含一个模态可靠性建模机制,动态调节每种模态的贡献,减轻噪声或不完整数据的影响。通过这种推理-融合的协同作用,MORSE同时捕捉了层次化的跨模态语义,并对模态不对称性保持鲁棒性,从而产生更具表现力和可靠性的分子表示。
总之,本文做出以下贡献:
•我们提出了MORSE,一个在模态不对称和层次结构条件下基于结构化语义的分子表示学习框架。
•我们引入了PathMiner,一个使用生物约束游走的超图引导的语义提取模块,能够生成具有置信度量化的多尺度伪模态。
•我们设计了VeilNet,一个具有置信度意识的编码器,动态调节多模态融合,通过加权监督整合观察到的和伪模态数据,同时保持高置信度的模态。
•在分子属性预测任务上的广泛实验表明,MORSE取得了强大的性能和鲁棒性。
本文的其余部分组织如下:第2节回顾相关工作。第3节介绍初步背景。第4节详细说明提出的MORSE方法。第5节展示并分析实验结果。最后,第6节总结本文并讨论未来方向。