Emu3:基于下一令牌预测的统一多模态学习新范式,实现感知与生成的协同突破

时间:2026年1月31日
来源:Nature

编辑推荐:

本研究针对多模态学习长期依赖扩散模型或组合架构的局限,提出了Emu3模型框架。通过将文本、图像和视频统一离散化为令牌序列,并仅采用下一令牌预测目标进行训练,Emu3在图像生成(T2I)、视频生成(T2V)和视觉语言理解(I2T)任务上均达到与任务专用模型相当的性能。该研究证明了单一预测框架可替代复杂架构,为可扩展的统一多模态智能系统开发奠定了基础。

广告
   X   

在人工智能领域,如何让机器像人类一样自然地理解和生成文本、图像、视频等多种模态的信息,一直是一个核心挑战。尽管基于下一令牌预测(next-token prediction)的方法在大型语言模型(如GPT-3)上取得了巨大成功,催生了像ChatGPT这样的突破性应用,但在处理图像、视频等多模态数据时,技术路线却长期处于“分治”状态。图像和视频的生成通常由复杂的扩散模型(如Stable Diffusion, Sora)主导,而视觉语言理解任务则多采用组合式架构,例如将CLIP视觉编码器与大型语言模型(LLM)拼接。这种“各自为政”的局面导致了模型设计复杂、难以统一扩展和部署的问题。一个根本性的科学问题悬而未决:能否像训练语言模型一样,仅用简单的“下一令牌预测”这一目标,来统一训练一个同时擅长理解和生成多种模态数据的模型?
发表在《自然》杂志上的这项研究给出了肯定的答案。研究人员引入了Emu3模型家族,它首次证明,仅通过下一令牌预测,就能在多模态学习上达到与成熟的、任务专用的方法相媲美的性能。Emu3的核心思想是将文本、图像、视频乃至机器人操作指令都转化为离散的令牌序列,然后使用一个统一的、仅含解码器的Transformer模型,以预测序列中下一个令牌为目标进行端到端训练。这种方法彻底摒弃了扩散过程或复杂的组合式架构,将多模态学习简化为统一的令牌预测问题。
为了开展这项研究,研究人员构建了一套紧密集成的技术框架。首先,他们训练了一个统一的视觉分词器(Vision tokenizer),能够将图像和视频剪辑编码成紧凑的离散令牌流。该分词器基于SBER-MoVQGAN架构改进,在空间和时间维度上进行压缩。模型主体采用了解码器-only的Transformer架构,扩展了LLM的嵌入层以容纳视觉令牌。训练过程分为大规模多模态预训练和高质量后训练两个阶段,并采用了平衡的交叉熵损失和针对人类偏好的直接偏好优化(DPO)等技术。推理阶段则基于高效的FlagScale系统,支持用于自回归多模态生成的分类器无关引导(CFG)。
研究结果部分展示了Emu3在多方面的强劲性能。
主要结果
研究发现,统一的多模态下一令牌训练遵循稳定且可预测的缩放动力学。T2I、I2T和T2V任务在模型大小(N)和训练数据量(D)方面都表现出清晰的幂律关系。具体而言,验证损失L(N, D)可以建模为L(N,D)=E+A/Nα+B/Dβ。所有任务共享数据缩放指数β=0.55,T2I和I2T共享模型缩放指数α=0.25,而T2V显示出更陡峭的缩放指数α=0.35。基于较小模型拟合的缩放定律能够准确预测更大模型(如70亿参数)的性能,这表明该范式具有高度的可预测性。
在具体任务上,Emu3在文本到图像(T2I)生成方面,在MSCOCO-30K、GenEval、T2I-CompBench和DPG-Bench等多个基准测试中,其性能与最先进的扩散模型相当。在文本到视频(T2V)生成方面,Emu3能够以纯因果方式自回归预测视频序列中的下一个令牌来生成视频,在VBench评估工具包的各项指标上与其他视频扩散模型相比具有高度竞争力。此外,Emu3还支持视频扩展,能够根据给定的上下文视频预测后续内容。在视觉语言理解方面,Emu3作为一种纯粹的无需编码器的方法,在多个公共视觉语言基准测试中达到了与依赖CLIP编码器的组合式方法相当的性能。
消融研究
为了验证统一视频分词器的有效性,研究将其与独立的图像分词器进行了比较。在相同的输入分辨率下,视频分词器使用四倍少的令牌数量,实现了可比的重建质量。当图像分词器被下采样以匹配总令牌数时,其重建质量显著下降。架构对比实验表明,在模型和训练样本规模相近、且均不依赖预训练LLM初始化的情况下,解码器-only的下一令牌预测模型与编码器+LLM的组合范式在图像理解任务上表现相当,这挑战了后者在多模态理解上天生优越的普遍看法。训练策略的消融实验发现,较小的丢弃率(dropout)对于稳定收敛至关重要,而无丢弃率训练会导致模型崩溃。仔细权衡视觉和文本令牌的损失权重可以防止任务偏差。
广泛的应用
研究还将该框架扩展到机器人操作领域,通过将视觉、语言和动作表示为交错离散令牌,在CALVIN模拟基准测试中,Emu3在长视野操作任务上达到了与RT-1、RoboVLM等专用方法相媲美的性能。此外,Emu3还能进行交错图像-文本生成,即在一个输出序列中交替生成说明性文本和对应图像。研究还探索了不同的令牌预测顺序(如对角线、块光栅、螺旋向内),发现从大规模光栅扫描训练中学到的先验可以有效地迁移到新的令牌顺序,展示了该方法的鲁棒性和通用适应性。
研究结论与讨论部分强调,Emu3证明了下一令牌预测本身足以实现大规模的多模态学习统一。通过将复杂的多模态数据简化为统一的令牌序列进行预测,该框架在感知和生成任务上均达到了与成熟的任务专用模型相竞争的水平,同时消除了对扩散或组合架构的需求。所揭示的跨模态一致缩放定律,进一步证实了下一令牌预测可以作为多模态序列建模的通用基础。尽管当前方法在效率、分词器设计和数据质量方面存在局限,但统一的下一个令牌建模为开发集成感知、语言和行动的世界模型指明了一条充满希望的道路。这类系统能够将语言推理建立在视觉和具身经验之上,从而实现更通用的理解、创造和控制能力。这项工作为迈向可扩展、统一的多模态智能奠定了关键一步。

生物通微信公众号
微信
新浪微博


生物通 版权所有