Emu3 笔记¶
元信息¶
- Topic: unified-models
- Status: revised
- Last updated: 2026-04-06
- Source type: paper
- Primary references:
- Emu3: Next-Token Prediction is All You Need
- Emu3 official repository
一句话总结¶
Emu3 是统一模型里最纯粹的 autoregressive 路线之一:它坚持把文本、图像、视频都压到同一种离散 token 接口里,再用同一个 decoder-only transformer 做 next-token prediction,从而把理解、图像生成、视频生成和交错续写全部还原成一个统一的序列学习问题。
背景 / 问题设定¶
Emu3 面向的是 unified multimodal model 设计中的一个根本分歧:
- 一类方法认为,不同模态应保留不同生成动力学,例如文本用 AR、图像用 diffusion、视频再加专门时序模块。
- 另一类方法认为,只要把不同模态变成同一种 token 接口,自回归序列建模本身就足以覆盖理解和生成。
Emu3 明确站在第二类立场,并且比很多工作走得更彻底。它要验证的不是“多模态大模型能不能工作”,而是更强、更挑衅的问题:
- next-token prediction 是否可以成为文本、图像、视频的统一训练原则?
- 一旦视觉表示也离散化为 token,模态专属目标还有多大必要?
- 如果图像和视频都被视为序列,那么理解、创作和长文档级交错生成是否都能统一到同一种接口中?
因此 Emu3 的研究重点其实不是一个 fancy 模块,而是一个非常强的建模判断:
这个判断如果成立,意味着 unified model 的主要难点就从“如何为不同模态设计不同 head / objective”转移到了:
- 视觉 tokenizer 是否足够强;
- 序列接口是否足够稳定;
- 长混合序列上的 AR 建模是否足够可扩展。
记号¶
设:
- 文本 token 序列为 \(t = (t_1,\dots,t_m)\)
- 图像或视频输入为 \(x\)
- 视觉 tokenizer 为 \(\tau_{\text{vis}}\)
- 图像或视频经离散化后得到的视觉 token 序列为 \(v = (v_1,\dots,v_n)\)
- 混合多模态序列为 \(s = (s_1,\dots,s_T)\)
- 统一自回归模型为 \(f_\theta\)
- 统一训练损失为 \(\mathcal{L}_{\text{AR}}\)
Emu3 的关键映射关系可以抽象写成
随后统一模型在 \(s\) 上做标准因果建模:
核心思想¶
1. 一切都变成 token¶
Emu3 的统一方式非常直接,甚至有些“强硬”:
- 文本本来就是 token;
- 图像被视觉 tokenizer 压成离散视觉 token;
- 视频被视为更长、更具结构化的视觉 token 序列;
- 最终所有内容都进入同一个序列世界。
也就是说,Emu3 不是“共享一个主干,但保留不同模态的表示和目标”,而是试图在接口层就把模态差异尽量抹平。
2. 一切都做 next-token prediction¶
和 Show-o、Transfusion、LLaDA-o、MMaDA 这类“共享主干但保留不同动力学”的路线不同,Emu3 刻意追求目标函数极简主义。无论是:
- image understanding,
- text-to-image,
- text-to-video,
- interleaved continuation,
最终都被写成同一种形式:
因此 Emu3 的统一不只是共享 backbone,而是连 training objective 也尽量统一。
3. 接口统一优先于模态专门化¶
Emu3 的方法判断是:只要统一 token 接口足够彻底,同一个 transformer 就会自然吸收跨模态条件关系,而不必显式保留图像 diffusion、视频 flow、或其他模态专属输出动力学。
换句话说,它优先相信的是
而不是
一个简单示意图¶
text ------------------------------------+
|
image/video --> visual tokenizer --------+--> unified token sequence --> AR transformer --> next token
详细推导¶
推导 1:所有任务都可以统一为条件序列建模¶
Emu3 的第一原则是:一旦多模态输入输出都被转换成序列 \(s\),那么训练目标就退化成标准语言模型目标
对应负对数似然为
这个式子看起来太普通,几乎不像“多模态方法公式”,但它恰恰体现了 Emu3 的核心激进之处:它拒绝为多模态任务再写一套额外的统一数学形式。
关键在于不同任务如何被编译成 \(s\)。
若是多模态理解,例如 image-conditioned QA,可以组织成
其中 \(v\) 是图像 token,\(q\) 是问题文本,\(a\) 是答案文本。此时训练模型拟合的是
若是 text-to-image,则可组织成
于是模型拟合
若是 text-to-video,也不过是把 \(v\) 换成更长的视频 token 序列。因此 Emu3 的一个核心观察可以写成:
推导 2:视觉 tokenizer 是把视觉问题转写成语言模型问题的关键映射¶
Emu3 成立的前提不是 transformer magically 理解像素,而是视觉 tokenizer \(\tau_{\text{vis}}\) 足够强,能把图像或视频映射成高质量离散序列:
这里的关键不是“离散化”三个字本身,而是离散化必须满足两类约束。
第一,表示保真约束:token 序列 \(v\) 不能丢失太多可重建细节,否则视觉生成上限会被 tokenizer 直接卡死。
第二,序列可建模约束:得到的 token 序列不能过于混乱,否则 AR 模型很难学到稳定的条件分布。
理想情况下,我们希望存在某个离散表示 \(v\),使得原始视觉样本分布 \(p(x)\) 可以通过离散 token 分布 \(p(v)\) 近似表达,再由解码器 \(\tau_{\text{vis}}^{-1}\) 近似恢复。这可以抽象地写成
一旦这个近似足够好,Emu3 的整个方法就可以被理解成:
也就是说,视觉 tokenizer 实际上承担了“把视觉建模问题改写成语言建模问题”的职责。Emu3 越成功,越说明 tokenizer 才是这条路线真正的隐形主干。
推导 3:视频只是更长、更结构化的视觉 token 序列¶
Emu3 非常重要的一点,是它不只统一 text 和 image,还把 video 一起纳入 next-token prediction 路线。
若视频由 \(F\) 帧组成,每帧离散化后得到一段 token,那么整个视频可以写成一个更长的序列
于是 text-to-video 目标并不需要新公式,只是变成
其中 \(N = \sum_f n_f\)。
这个公式有两个重要含义。
第一,Emu3 认为视频和图像的差异首先是“序列长度和结构复杂度”的差异,而不是“必须换一种生成动力学”的差异。
第二,时序一致性在 Emu3 中不是通过额外的 temporal diffusion 或 flow objective 显式保证的,而是通过单一 AR 模型对长 token 前缀的条件建模隐式学习出来的。
因此它对视频的态度其实很清楚:
这是一种极强的建模假设,也是 Emu3 最有代表性的地方。
推导 4:统一损失的简洁性把所有困难前移到了表示与序列长度¶
Emu3 的总损失可以写得非常干净:
但这个简洁性并不意味着问题变简单了,它只是把难点转移了。
如果我们把总误差粗略分解成
那么 Emu3 基本上是主动接受:
- 不再在 loss 里处理模态差异;
- 而是把压力集中到视觉离散化质量和超长 AR 建模能力上。
因此它的统一路线其实是一种“问题重分配”:
这也是为什么 Emu3 的成败很大程度取决于视觉 tokenizer、序列长度控制、以及推理阶段的采样效率。
架构理解¶
1. 为什么 Emu3 不是简单的“多模态 LLM”¶
如果只是把视觉特征作为条件塞给 LLM,再让 LLM 输出文本,那是典型 MLLM。Emu3 更激进,因为它还要求:
- 图像输出也由同一个 AR 主干生成;
- 视频输出也由同一个 AR 主干生成;
- 并且这些输出都通过统一 token 序列完成。
因此 Emu3 的 unified ambition 不只是“看图说话”,而是“把视觉生成也视作语言模型问题”。
2. 为什么这条路线天然支持 interleaved generation¶
一旦图像、视频、文本都被编码成同一种序列对象,那么长文档级交错生成就自然变成
这样的续写问题。
也就是说,interleaved generation 在 Emu3 里不是额外外挂能力,而是统一序列建模自然带出来的结果。只要训练数据里存在这类样本,模型就能直接把它们纳入标准 AR 学习。
3. 为什么说视觉 tokenizer 是“隐形主干”¶
表面上 Emu3 最显眼的是单一 AR transformer,但实际上,若 tokenizer 不够好,会出现三类问题:
- 视觉细节丢失,生成上限变低;
- token 序列统计结构差,训练更难;
- 图像和视频长度膨胀,推理代价失控。
所以 Emu3 的一个重要现实是:
这也是为什么 Emu3 看似在强调“next-token prediction is all you need”,实际上却高度依赖一个足够强的视觉前端。
训练流程¶
Emu3 的训练目标很统一,但 recipe 仍然不简单。根据论文和公开材料,它的训练重点更像是围绕统一 token 接口组织多源数据。
阶段 1:建立文本与视觉 token 的共同词表生态¶
模型首先要学会处理新加入的视觉 token,理解这些 token 在统一序列中的统计角色。这一步并不只是“识别新词”,更是在建立:
- 文本 token 和视觉 token 的共存分布;
- 图文边界符与模板标记的作用;
- 视觉 token 之间的基本局部依赖。
阶段 2:用图文和视频数据强化条件生成¶
当模型已经接受“视觉也是 token 序列”后,再用 image-text、video-text、以及理解数据强化条件分布学习,让它真正掌握:
- \(p(\text{text} \mid \text{image/video})\)
- \(p(\text{image} \mid \text{text})\)
- \(p(\text{video} \mid \text{text})\)
这些关系。
阶段 3:用交错长序列对齐 unified behavior¶
最后再用 interleaved multimodal 数据把不同能力缝到同一长上下文里,让模型学会在一个序列中完成:
- 读图回答,
- 文生图,
- 文生视频,
- 图文视频混合续写。
这一步对 Emu3 特别重要,因为它的方法价值不只在单任务,而在“统一接口是否真的能支撑复杂混合交互”。
直觉 / 理解¶
我对 Emu3 的理解是:它相当于给 unified model 领域做了一次最彻底的 AR 极限测试。
很多方法会说“统一当然重要,但图像、视频还是应该保留自己的动力学”。Emu3 的回答是:先别急着保留,把视觉都写成 token,再看看单一 NTP 到底能走多远。
这条路线的美感很强,因为它在概念上极其整齐:
- 一个 tokenizer 体系,
- 一个序列接口,
- 一个 transformer 主干,
- 一个 next-token objective。
但它的代价也同样集中:如果视觉 token 不够高效,或者序列太长,那么这种整齐会直接变成训练与采样负担。
与相邻方法的关系¶
对比 Chameleon¶
Chameleon 也是典型的 token-unified AR 路线,Emu3 与它最像。两者都高度信任“视觉也只是 token”这一观点。Emu3 的进一步推进在于把视频也更明确地纳入同一叙事。
对比 Show-o¶
Show-o 选择共享 transformer 主干,但图像生成仍然使用离散去噪式 mask prediction。Emu3 则连这一步也不保留,要求图像生成也服从 AR next-token prediction,因此统一程度更高,但也更依赖 token 序列质量与采样效率。
对比 Transfusion / Orthus¶
Transfusion、Orthus 都体现“共享主干 + 模态专属输出动力学”的思路。Emu3 正好站在对面:它尽量不保留专属输出动力学,而是把所有困难都塞回统一 AR 接口中。
对比 MMaDA / LLaDA-o¶
MMaDA、LLaDA-o 倾向于把统一建立在 diffusion family 上。Emu3 则代表另一种完全不同的信念:统一不一定要围绕 diffusion,也可以围绕序列建模本身建立。
重要细节¶
- Architecture: 视觉 tokenizer + unified token sequence + 单一 decoder-only AR transformer
- Objective: 文本、图像、视频统一的 next-token prediction
- Modalities: text、image、video,以及它们的交错长序列
- Capability framing: understanding、text-to-image、text-to-video、interleaved multimodal continuation
- Strengths: 结构和目标极度统一;接口非常整齐;天然适合统一长上下文建模
- Limitations: 严重依赖视觉离散化质量;图像和视频 AR 采样代价高;很多统一代价被转移到 tokenizer 与长序列建模
我的笔记 / 开放问题¶
我的笔记¶
我觉得 Emu3 最有价值的地方,是它把 unified model 的“统一程度”推进到了一个几乎没有借口的程度。很多方法都说自己统一,但往往统一的是 backbone,不是 objective;统一的是理解,不是生成;统一的是图像,不是视频。Emu3 则几乎把这些退路都堵上了。
但也正因为如此,它暴露的问题特别真实:如果纯 AR 统一路线最终受限,很可能不是因为 unified idea 错了,而是因为视觉 tokenizer 和长序列采样在工程上太昂贵。换句话说,Emu3 像是一个很干净的对照实验,帮助我们看清 unified AR 路线真正的瓶颈在哪里。
开放问题¶
- 视觉 tokenizer 的提升,究竟会先改善生成保真,还是先改善统一训练稳定性?
- 当图像和视频分辨率继续提高时,AR 采样成本会不会成为纯 AR unified model 的根本硬上限?
- 视频时序一致性是否真的能仅靠长序列 AR 隐式学好,还是迟早需要显式 temporal inductive bias?
- 若未来出现更高效的视觉 token 压缩,Emu3 这条“纯 AR 统一路线”是否会重新变得更有竞争力?
相关笔记¶
参考资料¶
- Wang et al., "Emu3: Next-Token Prediction is All You Need", arXiv, 2024. https://arxiv.org/abs/2409.18869
- Official repository. https://github.com/baaivision/Emu3
- Hugging Face paper page. https://huggingface.co/papers/2409.18869