Transfusion 笔记¶
元信息¶
- Topic: unified-models
- Status: revised
- Last updated: 2026-04-06
- Source type: paper
- Primary references:
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
一句话总结¶
Transfusion 的核心洞见是:统一模型不必把所有模态都压成同一种变量形式,文本仍然适合 next-token prediction,图像仍然更适合 diffusion;真正值得统一的,是跨模态上下文建模的 transformer 主干,以及让离散文本 token 与连续视觉 token 在同一个语义空间里交互的条件机制。
背景 / 问题设定¶
Transfusion 面向的是 unified model 里的两种极端路线:
- 全部离散化、全部自回归。这样做最统一,但图像生成往往失去 diffusion 类方法在视觉保真上的强归纳偏置。
- 语言模型和图像扩散模型彼此独立,只在接口层简单拼接。这样图像生成强,但统一上下文建模能力又很弱。
论文的判断是:这两种极端都抓住了一半真相,却都不够完整。
- 纯 AR 路线抓住了“共享上下文接口”的优势;
- diffusion 路线抓住了“图像生成动力学与语言不同”的现实。
于是更核心的问题变成:
- 能否共享一个 transformer 主干?
- 同时又让文本和图像保留各自最自然的输出动力学?
- 如果文本是离散 token、图像是连续 patch 或 latent,模型是否还能原生统一?
Transfusion 给出的回答非常有代表性:统一不一定意味着所有模态服从同一个变量空间,而可以意味着
这也是它在 unified model 谱系中的独特位置。它不像 Emu3/Chameleon 那样试图统一到 token 世界,也不像传统系统那样完全拆开理解和生成,而是在中间找到了一个很强的结构平衡点。
记号¶
设:
- 文本 token 序列为 \(x = (x_1,\dots,x_m)\)
- 图像连续 patch / latent 序列为 \(y = (y_1,\dots,y_n)\)
- 扩散中的噪声时刻为 \(t \in [0,1]\)
- 加噪后的图像表示为 \(y_t\)
- 共享 transformer 主干为 \(f_\theta\)
- 文本语言模型头为 \(h_{\text{LM}}\)
- 图像 diffusion 头为 \(h_{\text{Diff}}\)
- 文本目标为 \(\mathcal{L}_{\text{LM}}\)
- 图像 diffusion 目标为 \(\mathcal{L}_{\text{Diff}}\)
Transfusion 的高层结构可以抽象写成
其中 \(z\) 表示混合后的多模态上下文序列。根据当前目标 token 的模态类型,输出再分别走
核心思想¶
1. 同一主干处理离散与连续模态¶
Transfusion 的统一点不在“单一 token space”,而在“单一 transformer 主干”。文本和图像都通过共享主干组织条件关系:
- 文本以离散 token 进入;
- 图像以连续 patch / latent 进入;
- 主干在同一上下文窗口中同时处理它们。
因此它统一的是上下文语义空间,而不是输入变量形式。
2. 文本走 AR,图像走 diffusion¶
这是方法最核心的选择。Transfusion 明确承认不同模态的最佳生成偏置不同:
- 文本天然适合 next-token prediction;
- 图像更适合 diffusion 或 flow 类连续去噪动力学。
因此它不追求“一个目标统治一切”,而是追求“一个主干承接一切条件关系”。
3. 统一主干,模态专属 I/O 并不削弱统一¶
论文里一个很关键的观念是:模态专属输入层和输出层不等于“不统一”。它们负责的是模态接口适配,而不是跨模态认知本体。
也就是说,Transfusion 重新定义了 unified model:
而更接近于
一个简单示意图¶
text tokens ------------------> text embedding ----------------+
|
image patches / latents ------> continuous image adapter -----+--> shared transformer
|
+--> LM head --------> next text token
|
+--> diffusion head -> image denoising / velocity / noise prediction
详细推导¶
推导 1:文本侧仍然是标准条件语言模型¶
若目标是根据多模态上下文生成文本,设共享主干看到的条件上下文为 \(c\),那么文本分布仍然按标准自回归方式分解:
对应负对数似然损失为
这里真正重要的点不在公式本身,而在于 Transfusion 没有因为“统一”就去破坏文本最成熟的建模形式。它保留了语言模型最核心的因果 next-token 接口,因此:
这样一来,统一模型的难点就被集中到“如何让主干同时服务图像 diffusion”,而不是重写文本建模。
推导 2:图像侧通过扩散路径建模连续变量¶
与纯 AR 路线不同,Transfusion 不把图像硬离散成 token 后逐个预测,而是保留连续视觉表示 \(y\),并在扩散路径上学习去噪或速度预测。
用标准扩散 / flow-matching 风格记号,可以先写出一条噪声路径。若 \(y_0\) 为噪声、\(y_1\) 为真实图像表示,则可抽象地写成
或者在线性 flow matching 视角下写成
Transfusion 的关键不在于必须选哪一种具体噪声参数化,而在于:图像头预测的是连续空间中的去噪信号,而不是离散类别。
若以最常见的噪声预测形式表示,目标可写成
其中 \(c\) 由共享主干提供条件上下文。
这说明 Transfusion 真正共享的不是输出变量,而是图像 diffusion 所依赖的条件表示。
推导 3:联合目标体现的是“共享条件建模,不共享输出分布”¶
把两边放在一起,Transfusion 的总目标就是
表面上看这只是 loss 加权求和,但它实际上表达了一个更深的分解:
也就是说,Transfusion 不试图拟合一个完全统一的输出分布,而是拟合:
- 文本侧的离散条件分布,
- 图像侧的连续去噪条件分布,
并让这两类分布共享同一个条件语义核心。
这和 Chameleon / Emu3 的关键差异就在这里。后者更接近
而 Transfusion 更接近
推导 4:为什么共享主干可能成立¶
Transfusion 的关键假设是:虽然文本和图像输出动力学不同,但它们共享大量条件依赖结构。设上下文为 \(c\),则文本和图像分别依赖
如果 \(c\) 只是在“模态适配层”之后才分别形成,那么跨模态共享会很弱;但若 \(c\) 来自一个共享主干
那么语言理解、图文对齐、语义条件组织等能力就可以在这个共享空间里共同学习。
换句话说,Transfusion 把问题拆成两部分:
和
它认为第一部分值得共享,第二部分不必强行共享。这就是它之所以成立的核心逻辑。
架构理解¶
1. 为什么它不是简单“两模型拼接”¶
如果只是“一个 LLM + 一个 diffusion model”,再在外层做接口编排,那不算 Transfusion 的核心思想。Transfusion 强调的是:
- 文本和图像都进入同一个主干参与条件建模;
- 共享主干直接承担跨模态上下文组织;
- diffusion 头不是外部黑盒,而是共享语义主干的输出分支。
因此它更像一个真正统一的多模态网络,而不是系统编排。
2. 为什么说它统一的是上下文,而不是变量¶
很多 unified model 讨论容易把“统一”理解成:
- 同一种 tokenizer,
- 同一种 token,
- 同一种 objective。
Transfusion 的重要贡献,是把统一的焦点移到更本质的地方:
- 真正需要共享的是跨模态上下文推理;
- 不同模态最终输出是否同构,未必是最重要的问题。
这让它成为 unified model 讨论中一个非常关键的“重新定义者”。
3. 推理时其实是在切换两种动力学¶
Transfusion 的推理并不是单一序列生成循环,而是会根据当前目标模态切换行为:
- 输出文本时,按语言模型方式自回归采样;
- 输出图像时,按 diffusion 过程迭代去噪。
因此它的统一更多是“共享脑干,切换手脚”,而不是“所有动作都由同一条神经回路完成”。
训练流程¶
根据论文和公开材料,Transfusion 的训练重点不在于复杂网络分支,而在于如何让共享主干同时吸收语言建模信号与图像 diffusion 信号。
阶段 1:保住纯文本能力¶
和很多 unified model 一样,Transfusion 需要大量纯文本训练来维持语言模型能力,否则 diffusion 支路很可能把主干往视觉条件网络方向拉偏。
阶段 2:加入图文与图像生成数据¶
随后引入图文和图像生成相关数据,使共享主干逐步学会:
- 文本条件如何组织图像语义;
- 图像条件如何辅助文本输出;
- 连续视觉去噪所需的条件上下文如何在主干中形成。
阶段 3:在规模上验证混合路线是否稳定¶
Transfusion 特别强调 scaling behavior,这说明它真正关心的不只是“小规模能跑”,而是:
- 参数规模增大后混合目标是否还能稳定;
- 主干是否会被两类梯度撕扯;
- hybrid unified route 是否在大规模下比极端路线更合理。
这也是它区别于很多“结构上很漂亮但规模证据不足”的方法的地方。
直觉 / 理解¶
我对 Transfusion 的理解是:它像 unified model 领域里的一个“结构现实主义者”。纯 AR 路线很整齐,但图像生成往往不够自然;纯 diffusion 或外挂生成路线图像很好,但统一性不够。Transfusion 的态度是,没必要把这两种优点二选一。
它最有价值的地方,是把 unified model 的核心从“所有模态都做同一件事”改成了“所有模态在同一个认知核心里交互,但保留各自最自然的实现动力学”。这让 unified model 的讨论一下子从“形式整齐”推进到了“功能上真正该共享什么”。
与相邻方法的关系¶
对比 Emu3 / Chameleon¶
Emu3、Chameleon 更相信只要 token 接口统一,自回归目标就可以覆盖一切。Transfusion 正好站在反面:它认为图像生成不必为了统一而放弃 diffusion family 的归纳偏置,因此统一应止步于主干而不是输出动力学。
对比 Orthus¶
Orthus 也体现“共享主干 + 模态专属输出”的思想,但它仍保留很强的 AR 路线背景,更像是在 AR 统一范式内部做修补。Transfusion 的 diffusion 立场更明确,也更系统化。
对比 Show-o / Show-o2¶
Show-o 系列是在统一主干里组合文本 AR 和视觉离散去噪 / flow matching。Transfusion 与它们相似之处在于都承认模态专属动力学的重要性;不同在于 Transfusion 更直接地从“文本离散、图像连续”的变量差异出发组织整个方法。
对比 TUNA¶
TUNA 进一步把焦点前移到 unified visual representation,本质上是在问:若视觉表征空间本身不统一,主干共享是否足够?Transfusion 则更关注:在已有视觉连续表示前提下,如何让共享主干与 diffusion 最自然地协作。
重要细节¶
- Architecture: 共享 transformer 主干 + 模态专属输入层 / 输出层
- Objective: 文本 next-token prediction + 图像 diffusion / continuous denoising objective
- Representation: 文本离散 token 与图像连续 patch / latent 共存于同一上下文主干
- Data: 纯文本、图文混合、图像生成相关训练数据
- Evaluation: text-only、cross-modal benchmarks、image generation、scaling behavior
- Strengths: 不强迫统一变量形式;统一逻辑清晰;对 hybrid route 的规模行为有明确关注
- Limitations: 训练和推理比纯 AR 更复杂;视觉分支仍保留 diffusion 采样成本;共享主干可能面临更复杂的梯度权衡
我的笔记 / 开放问题¶
我的笔记¶
我觉得 Transfusion 最重要的贡献,是把 unified model 的讨论从“同构崇拜”里拉出来。它提醒我们,统一不一定意味着所有模态都要变成一种 token、一种 loss、一种生成循环;真正值得统一的,也许是推理和条件组织的核心,而不是输出变量形式本身。
这使它在方法史上特别重要,因为很多后续 hybrid unified model 都在不同程度上继承了这种思路:共享主干,但不强迫图像像语言一样工作。
开放问题¶
- 在更大规模下,共享主干到底会更偏向语言建模,还是会被视觉 diffusion 信号显著改变?
- 文本和图像梯度在同一主干中的冲突,是否需要更细粒度的 routing 或 loss balancing?
- 若视觉表征空间进一步改进,Transfusion 这种 hybrid route 的收益会继续扩大,还是会被更原生 unified representation 方法替代?
- 当视频也被纳入时,这种“共享主干 + 模态专属动力学”的框架是否还能保持同样的简洁性?
相关笔记¶
参考资料¶
- Zhou et al., "Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model", arXiv, 2024. https://arxiv.org/abs/2408.11039
- Hugging Face paper page. https://huggingface.co/papers/2408.11039