为了攻克上述难题,研究团队并未选择简单粗暴地填补缺失数据,而是另辟蹊径,设计了一种名为M2UMol(Multi-to-uni modal knowledge transfer for Molecular representation learning)的预训练框架。该研究的核心思路是“知识转移”,而非“数据补全”。具体而言,M2UMol不再强制要求所有模态同时在场,而是允许在预训练阶段输入不完整的模态组合。它通过一个精巧的设计,分别将2D模态编码器与每一种其他模态(如3D、指纹等)的表示进行匹配学习,就像一个2D“学生”分别向多位各有所长的“多模态老师”请教。同时,框架引入了一个模态分类器,协同参与预训练过程,帮助模型更好地理解和区分不同模态的知识来源。通过这种“分而治之”的联合学习策略,M2UMol优雅地将来自多个模态的、关于分子结构-性质关系的深层知识,融合并“蒸馏”进了单一的2D模态编码器中。这意味着,经过预训练后,这个2D编码器已经内化了多模态的知识精华。因此,在那些仅提供2D分子图作为输入的下游任务中,M2UMol能够凭借这个强大的编码器,精准地模拟出分子本该具有的多模态信息,从而做出更准确的预测。这种方法巧妙地绕开了对完整模态数据的依赖,极大地提升了模型的实用性和泛化能力。
综合实验表明,M2UMol在广泛的分子预测任务中实现了优越的性能,同时保持了更高的预训练与推理效率。更重要的是,它打通了从数据受限的预训练到资源有限的下游应用之间的桥梁,使得高性能的分子AI模型能够更普惠地服务于药物研发的早期阶段。研究团队开源了代码、预训练模型及集成化软件包,这一举措有望加速该技术在计算机辅助药物设计(Computer-Aided Drug Design, CADD)、化学生物学等相关领域的采纳与应用。这项工作强调了在人工智能驱动科学发现中,设计适应现实数据约束的模型架构与学习范式,与技术本身的前沿性同等重要,为后续研究指明了向实用化、鲁棒化方向发展的道路。