Emu3 笔记¶

元信息¶

Topic: unified-models
Status: revised
Last updated: 2026-04-06
Source type: paper
Primary references:
Emu3: Next-Token Prediction is All You Need
Emu3 official repository

一句话总结¶

Emu3 是统一模型里最纯粹的 autoregressive 路线之一：它坚持把文本、图像、视频都压到同一种离散 token 接口里，再用同一个 decoder-only transformer 做 next-token prediction，从而把理解、图像生成、视频生成和交错续写全部还原成一个统一的序列学习问题。

背景 / 问题设定¶

Emu3 面向的是 unified multimodal model 设计中的一个根本分歧：

一类方法认为，不同模态应保留不同生成动力学，例如文本用 AR、图像用 diffusion、视频再加专门时序模块。
另一类方法认为，只要把不同模态变成同一种 token 接口，自回归序列建模本身就足以覆盖理解和生成。

Emu3 明确站在第二类立场，并且比很多工作走得更彻底。它要验证的不是“多模态大模型能不能工作”，而是更强、更挑衅的问题：

next-token prediction 是否可以成为文本、图像、视频的统一训练原则？
一旦视觉表示也离散化为 token，模态专属目标还有多大必要？
如果图像和视频都被视为序列，那么理解、创作和长文档级交错生成是否都能统一到同一种接口中？

因此 Emu3 的研究重点其实不是一个 fancy 模块，而是一个非常强的建模判断：

\[ \text{next-token prediction is all you need}. \]

这个判断如果成立，意味着 unified model 的主要难点就从“如何为不同模态设计不同 head / objective”转移到了：

视觉 tokenizer 是否足够强；
序列接口是否足够稳定；
长混合序列上的 AR 建模是否足够可扩展。

记号¶

设：

文本 token 序列为 \(t = (t_1,\dots,t_m)\)
图像或视频输入为 \(x\)
视觉 tokenizer 为 \(\tau_{\text{vis}}\)
图像或视频经离散化后得到的视觉 token 序列为 \(v = (v_1,\dots,v_n)\)
混合多模态序列为 \(s = (s_1,\dots,s_T)\)
统一自回归模型为 \(f_\theta\)
统一训练损失为 \(\mathcal{L}_{\text{AR}}\)

Emu3 的关键映射关系可以抽象写成

\[ v = \tau_{\text{vis}}(x), \qquad s = \operatorname{concat}(\text{text tokens}, \text{visual tokens}, \text{special tokens}). \]

随后统一模型在 \(s\) 上做标准因果建模：

\[ p_\theta(s) = \prod_{i=1}^{T} p_\theta(s_i \mid s_{<i}). \]

核心思想¶

1. 一切都变成 token¶

Emu3 的统一方式非常直接，甚至有些“强硬”：

文本本来就是 token；
图像被视觉 tokenizer 压成离散视觉 token；
视频被视为更长、更具结构化的视觉 token 序列；
最终所有内容都进入同一个序列世界。

也就是说，Emu3 不是“共享一个主干，但保留不同模态的表示和目标”，而是试图在接口层就把模态差异尽量抹平。

2. 一切都做 next-token prediction¶

和 Show-o、Transfusion、LLaDA-o、MMaDA 这类“共享主干但保留不同动力学”的路线不同，Emu3 刻意追求目标函数极简主义。无论是：

image understanding，
text-to-image，
text-to-video，
interleaved continuation，

最终都被写成同一种形式：

\[ \mathcal{L}_{\text{AR}} = - \sum_{i=1}^{T} \log p_\theta(s_i \mid s_{<i}). \]

因此 Emu3 的统一不只是共享 backbone，而是连 training objective 也尽量统一。

3. 接口统一优先于模态专门化¶

Emu3 的方法判断是：只要统一 token 接口足够彻底，同一个 transformer 就会自然吸收跨模态条件关系，而不必显式保留图像 diffusion、视频 flow、或其他模态专属输出动力学。

换句话说，它优先相信的是

\[ \text{interface unification} \rightarrow \text{capability unification}, \]

而不是

\[ \text{capability unification} \rightarrow \text{keep modality-specific objectives}. \]

一个简单示意图¶

text ------------------------------------+
                                         |
image/video --> visual tokenizer --------+--> unified token sequence --> AR transformer --> next token

详细推导¶

推导 1：所有任务都可以统一为条件序列建模¶

Emu3 的第一原则是：一旦多模态输入输出都被转换成序列 \(s\)，那么训练目标就退化成标准语言模型目标

\[ p_\theta(s) = \prod_{i=1}^{T} p_\theta(s_i \mid s_{<i}). \]

对应负对数似然为

\[ \mathcal{L}_{\text{AR}} = - \sum_{i=1}^{T} \log p_\theta(s_i \mid s_{<i}). \]

这个式子看起来太普通，几乎不像“多模态方法公式”，但它恰恰体现了 Emu3 的核心激进之处：它拒绝为多模态任务再写一套额外的统一数学形式。

关键在于不同任务如何被编译成 \(s\)。

若是多模态理解，例如 image-conditioned QA，可以组织成

\[ s = [v,\, q,\, a], \]

其中 \(v\) 是图像 token，\(q\) 是问题文本，\(a\) 是答案文本。此时训练模型拟合的是

\[ p_\theta(a \mid v, q) = \prod_{j=1}^{|a|} p_\theta(a_j \mid v, q, a_{<j}). \]

若是 text-to-image，则可组织成

\[ s = [t,\, v], \]

于是模型拟合

\[ p_\theta(v \mid t) = \prod_{j=1}^{n} p_\theta(v_j \mid t, v_{<j}). \]

若是 text-to-video，也不过是把 \(v\) 换成更长的视频 token 序列。因此 Emu3 的一个核心观察可以写成：

\[ \text{understanding, image generation, video generation} \subset \text{conditional continuation}. \]

推导 2：视觉 tokenizer 是把视觉问题转写成语言模型问题的关键映射¶

Emu3 成立的前提不是 transformer magically 理解像素，而是视觉 tokenizer \(\tau_{\text{vis}}\) 足够强，能把图像或视频映射成高质量离散序列：

\[ v = \tau_{\text{vis}}(x). \]

这里的关键不是“离散化”三个字本身，而是离散化必须满足两类约束。

第一，表示保真约束：token 序列 \(v\) 不能丢失太多可重建细节，否则视觉生成上限会被 tokenizer 直接卡死。

第二，序列可建模约束：得到的 token 序列不能过于混乱，否则 AR 模型很难学到稳定的条件分布。

理想情况下，我们希望存在某个离散表示 \(v\)，使得原始视觉样本分布 \(p(x)\) 可以通过离散 token 分布 \(p(v)\) 近似表达，再由解码器 \(\tau_{\text{vis}}^{-1}\) 近似恢复。这可以抽象地写成

\[ x \xrightarrow{\tau_{\text{vis}}} v \xrightarrow{\tau_{\text{vis}}^{-1}} \hat{x}, \qquad \hat{x} \approx x. \]

一旦这个近似足够好，Emu3 的整个方法就可以被理解成：

\[ \text{model } p(v \mid \text{context}) \text{ instead of } p(x \mid \text{context}). \]

也就是说，视觉 tokenizer 实际上承担了“把视觉建模问题改写成语言建模问题”的职责。Emu3 越成功，越说明 tokenizer 才是这条路线真正的隐形主干。

推导 3：视频只是更长、更结构化的视觉 token 序列¶

Emu3 非常重要的一点，是它不只统一 text 和 image，还把 video 一起纳入 next-token prediction 路线。

若视频由 \(F\) 帧组成，每帧离散化后得到一段 token，那么整个视频可以写成一个更长的序列

\[ v^{\text{video}} = \bigl( v^{(1)}_1,\dots,v^{(1)}_{n_1}, v^{(2)}_1,\dots,v^{(2)}_{n_2}, \dots, v^{(F)}_1,\dots,v^{(F)}_{n_F} \bigr). \]

于是 text-to-video 目标并不需要新公式，只是变成

\[ p_\theta(v^{\text{video}} \mid t) = \prod_{j=1}^{N} p_\theta(v^{\text{video}}_j \mid t, v^{\text{video}}_{<j}), \]

其中 \(N = \sum_f n_f\)。

这个公式有两个重要含义。

第一，Emu3 认为视频和图像的差异首先是“序列长度和结构复杂度”的差异，而不是“必须换一种生成动力学”的差异。

第二，时序一致性在 Emu3 中不是通过额外的 temporal diffusion 或 flow objective 显式保证的，而是通过单一 AR 模型对长 token 前缀的条件建模隐式学习出来的。

因此它对视频的态度其实很清楚：

\[ \text{video} \approx \text{long structured visual text}. \]

这是一种极强的建模假设，也是 Emu3 最有代表性的地方。

推导 4：统一损失的简洁性把所有困难前移到了表示与序列长度¶

Emu3 的总损失可以写得非常干净：

\[ \mathcal{L}_{\text{AR}} = - \sum_{i=1}^{T} \log p_\theta(s_i \mid s_{<i}), \]

但这个简洁性并不意味着问题变简单了，它只是把难点转移了。

如果我们把总误差粗略分解成

\[ \text{total difficulty} \approx \text{tokenization difficulty} + \text{long-context modeling difficulty} + \text{sampling difficulty}, \]

那么 Emu3 基本上是主动接受：

不再在 loss 里处理模态差异；
而是把压力集中到视觉离散化质量和超长 AR 建模能力上。

因此它的统一路线其实是一种“问题重分配”：

\[ \text{less objective complexity} \Rightarrow \text{more pressure on tokenizer and sequence modeling}. \]

这也是为什么 Emu3 的成败很大程度取决于视觉 tokenizer、序列长度控制、以及推理阶段的采样效率。

架构理解¶

1. 为什么 Emu3 不是简单的“多模态 LLM”¶

如果只是把视觉特征作为条件塞给 LLM，再让 LLM 输出文本，那是典型 MLLM。Emu3 更激进，因为它还要求：

图像输出也由同一个 AR 主干生成；
视频输出也由同一个 AR 主干生成；
并且这些输出都通过统一 token 序列完成。

因此 Emu3 的 unified ambition 不只是“看图说话”，而是“把视觉生成也视作语言模型问题”。

2. 为什么这条路线天然支持 interleaved generation¶

一旦图像、视频、文本都被编码成同一种序列对象，那么长文档级交错生成就自然变成

\[ [text][image][text][video][text]\dots \]

这样的续写问题。

也就是说，interleaved generation 在 Emu3 里不是额外外挂能力，而是统一序列建模自然带出来的结果。只要训练数据里存在这类样本，模型就能直接把它们纳入标准 AR 学习。

3. 为什么说视觉 tokenizer 是“隐形主干”¶

表面上 Emu3 最显眼的是单一 AR transformer，但实际上，若 tokenizer 不够好，会出现三类问题：

视觉细节丢失，生成上限变低；
token 序列统计结构差，训练更难；
图像和视频长度膨胀，推理代价失控。

所以 Emu3 的一个重要现实是：

\[ \text{unified AR model quality} \le \text{visual tokenizer quality ceiling}. \]

这也是为什么 Emu3 看似在强调“next-token prediction is all you need”，实际上却高度依赖一个足够强的视觉前端。

训练流程¶

Emu3 的训练目标很统一，但 recipe 仍然不简单。根据论文和公开材料，它的训练重点更像是围绕统一 token 接口组织多源数据。

阶段 1：建立文本与视觉 token 的共同词表生态¶

模型首先要学会处理新加入的视觉 token，理解这些 token 在统一序列中的统计角色。这一步并不只是“识别新词”，更是在建立：

文本 token 和视觉 token 的共存分布；
图文边界符与模板标记的作用；
视觉 token 之间的基本局部依赖。

阶段 2：用图文和视频数据强化条件生成¶

当模型已经接受“视觉也是 token 序列”后，再用 image-text、video-text、以及理解数据强化条件分布学习，让它真正掌握：

\(p(\text{text} \mid \text{image/video})\)
\(p(\text{image} \mid \text{text})\)
\(p(\text{video} \mid \text{text})\)

这些关系。

阶段 3：用交错长序列对齐 unified behavior¶

最后再用 interleaved multimodal 数据把不同能力缝到同一长上下文里，让模型学会在一个序列中完成：

读图回答，
文生图，
文生视频，
图文视频混合续写。

这一步对 Emu3 特别重要，因为它的方法价值不只在单任务，而在“统一接口是否真的能支撑复杂混合交互”。

直觉 / 理解¶

我对 Emu3 的理解是：它相当于给 unified model 领域做了一次最彻底的 AR 极限测试。

很多方法会说“统一当然重要，但图像、视频还是应该保留自己的动力学”。Emu3 的回答是：先别急着保留，把视觉都写成 token，再看看单一 NTP 到底能走多远。

这条路线的美感很强，因为它在概念上极其整齐：

一个 tokenizer 体系，
一个序列接口，
一个 transformer 主干，
一个 next-token objective。

但它的代价也同样集中：如果视觉 token 不够高效，或者序列太长，那么这种整齐会直接变成训练与采样负担。

与相邻方法的关系¶

对比 Chameleon¶

Chameleon 也是典型的 token-unified AR 路线，Emu3 与它最像。两者都高度信任“视觉也只是 token”这一观点。Emu3 的进一步推进在于把视频也更明确地纳入同一叙事。

对比 Show-o¶

Show-o 选择共享 transformer 主干，但图像生成仍然使用离散去噪式 mask prediction。Emu3 则连这一步也不保留，要求图像生成也服从 AR next-token prediction，因此统一程度更高，但也更依赖 token 序列质量与采样效率。

对比 Transfusion / Orthus¶

Transfusion、Orthus 都体现“共享主干 + 模态专属输出动力学”的思路。Emu3 正好站在对面：它尽量不保留专属输出动力学，而是把所有困难都塞回统一 AR 接口中。

对比 MMaDA / LLaDA-o¶

MMaDA、LLaDA-o 倾向于把统一建立在 diffusion family 上。Emu3 则代表另一种完全不同的信念：统一不一定要围绕 diffusion，也可以围绕序列建模本身建立。

重要细节¶

Architecture: 视觉 tokenizer + unified token sequence + 单一 decoder-only AR transformer
Objective: 文本、图像、视频统一的 next-token prediction
Modalities: text、image、video，以及它们的交错长序列
Capability framing: understanding、text-to-image、text-to-video、interleaved multimodal continuation
Strengths: 结构和目标极度统一；接口非常整齐；天然适合统一长上下文建模
Limitations: 严重依赖视觉离散化质量；图像和视频 AR 采样代价高；很多统一代价被转移到 tokenizer 与长序列建模

我的笔记 / 开放问题¶

我的笔记¶

我觉得 Emu3 最有价值的地方，是它把 unified model 的“统一程度”推进到了一个几乎没有借口的程度。很多方法都说自己统一，但往往统一的是 backbone，不是 objective；统一的是理解，不是生成；统一的是图像，不是视频。Emu3 则几乎把这些退路都堵上了。

但也正因为如此，它暴露的问题特别真实：如果纯 AR 统一路线最终受限，很可能不是因为 unified idea 错了，而是因为视觉 tokenizer 和长序列采样在工程上太昂贵。换句话说，Emu3 像是一个很干净的对照实验，帮助我们看清 unified AR 路线真正的瓶颈在哪里。

开放问题¶

视觉 tokenizer 的提升，究竟会先改善生成保真，还是先改善统一训练稳定性？
当图像和视频分辨率继续提高时，AR 采样成本会不会成为纯 AR unified model 的根本硬上限？
视频时序一致性是否真的能仅靠长序列 AR 隐式学好，还是迟早需要显式 temporal inductive bias？
若未来出现更高效的视觉 token 压缩，Emu3 这条“纯 AR 统一路线”是否会重新变得更有竞争力？

参考资料¶

Wang et al., "Emu3: Next-Token Prediction is All You Need", arXiv, 2024. https://arxiv.org/abs/2409.18869
Official repository. https://github.com/baaivision/Emu3
Hugging Face paper page. https://huggingface.co/papers/2409.18869