Skip to content

MMaDA 笔记

元信息

  • Topic: unified-models
  • Status: revised
  • Last updated: 2026-04-06
  • Source type: paper
  • Primary references:
  • MMaDA: Multimodal Large Diffusion Language Models
  • MMaDA official repository

一句话总结

MMaDA 的重要性在于,它尝试把统一模型的中心动力学从 autoregressive 迁移到 diffusion,并进一步把这种统一从预训练延伸到 mixed long CoT 微调与 UniGRPO 强化学习阶段;也就是说,它不是“给 diffusion 接一个多模态壳”,而是试图把 diffusion 提升成完整的 multimodal foundation model 范式。

背景 / 问题设定

到 2025 年前后,统一模型虽然已经很活跃,但主叙事仍然普遍围绕 LLM 组织:

  • 文本侧默认 AR;
  • 视觉侧通常是附属分支、辅助头或外挂生成器;
  • 即使在 unified model 里,真正的“认知中心”往往还是语言模型。

MMaDA 提出一个更激进的问题:

  • diffusion 能否不只是图像生成器,而是更一般的统一 foundation model 形式?
  • 如果统一真的围绕 diffusion 展开,文本理解、多模态理解、图像生成是否还能共享同一个主干?
  • 若中心动力学从 next-token prediction 改成统一扩散过程,那么微调、长链推理和强化学习又该怎么配套?

因此它关心的不是“把 diffusion 接到 LLM 上”,而是:

\[ \text{can diffusion itself become the core language of a unified model?} \]

这和 Transfusion、Show-o2 这类混合路线不同。后者通常仍保留一个强语言模型核心,再为视觉接上 diffusion / flow 头;MMaDA 则更进一步,试图把统一的中心从 AR-LM 彻底迁移到 diffusion backbone。

记号

设:

  • 多模态状态序列或统一状态表示为 \(x\)
  • 扩散时间步为 \(t \in [0,1]\) 或离散时间索引 \(t \in \{1,\dots,T\}\)
  • 干净样本为 \(x_1\)
  • 噪声样本为 \(x_0\)
  • 加噪后的中间状态为 \(x_t\)
  • 统一 diffusion backbone 为 \(f_\theta\)
  • 统一 diffusion 目标为 \(\mathcal{L}_{\text{diff}}\)
  • 长链推理微调目标为 \(\mathcal{L}_{\text{CoT}}\)
  • 强化学习阶段目标为 \(\mathcal{L}_{\text{RL}}\)

MMaDA 的核心高层关系可以抽象为

\[ x_t = \alpha_t x_1 + \sigma_t x_0, \]

以及

\[ f_\theta(x_t, t, c), \]

其中 \(c\) 表示任务条件、文本上下文、视觉上下文或混合多模态提示。

核心思想

1. 用 diffusion 统一 foundation model

MMaDA 不把 diffusion 仅仅看成图像生成子模块,而是把它提升为统一模型的基本概率建模形式。

这意味着在它的视角里,真正应当统一的不是“下一个 token”,而是跨模态状态从噪声到数据的演化过程。

2. 模态无关而不是模态拼接

论文强调 modality-agnostic design,意思不是模态消失了,而是模型试图让文本、多模态理解和图像生成尽量共享同一种训练叙事,而不是:

  • 先有 LLM,
  • 再补一个视觉模块,
  • 再补一个图像生成器,
  • 最后再在系统层面拼起来。

MMaDA 试图避免这种“功能叠加式统一”,转而用统一 diffusion backbone 贯穿不同模态。

3. 统一预训练与后训练

MMaDA 很重要的一点,是它不只提出一个预训练骨架,还把 mixed long CoT fine-tuning 和 UniGRPO 强化学习纳入同一研究路径。

也就是说,它的 ambition 不是“证明 diffusion backbone 也能跑预训练”,而是:

\[ \text{pretraining} \rightarrow \text{reasoning fine-tuning} \rightarrow \text{RL alignment} \]

都围绕 diffusion foundation model 重新组织。

一个简单示意图

text / multimodal prompt
        |
        v
unified noisy multimodal state
        |
        v
shared diffusion backbone
        |
        +--> understanding / reasoning denoising trajectory
        |
        +--> image generation trajectory

详细推导

推导 1:MMaDA 把统一目标从 next-token prediction 改成统一扩散过程

AR 统一模型通常写成

\[ p_\theta(s) = \prod_{i=1}^{N} p_\theta(s_i \mid s_{<i}), \]

而 MMaDA 想做的不是拟合这个因果分解,而是拟合统一状态从噪声走向数据的扩散 / 去噪过程。

设真实多模态状态为 \(x_1\),噪声样本为 \(x_0\),则一个标准连续路径可写成

\[ x_t = \alpha_t x_1 + \sigma_t x_0. \]

若采用更接近 flow matching 的线性记号,也可写成

\[ x_t = (1-t)x_0 + t x_1. \]

模型不再预测“下一个 token 是什么”,而是预测:

  • 噪声 \(\epsilon\)
  • score,
  • 或 velocity / denoised state,

本质上是在学习一个统一状态动力学。

因此 MMaDA 的一个核心思想可以抽象成:

\[ \text{unified modeling} \neq \text{unified token sequence}, \]

而更接近于

\[ \text{unified stochastic dynamics over multimodal states}. \]

推导 2:统一 diffusion 损失体现 modality-agnostic 建模

若以最常见的噪声预测方式表述,MMaDA 的基础目标可以写成

\[ \mathcal{L}_{\text{diff}} = \mathbb{E}_{x_1, x_0, t} \left[ \left\| \epsilon_\theta(x_t, t, c) - x_0 \right\|_2^2 \right]. \]

这里关键不在于这条公式本身新不新,而在于 \(x_1\) 不再只代表图像,而可以代表:

  • 文本状态,
  • 多模态理解状态,
  • 图像生成状态,
  • 混合模态推理状态。

因此所谓 modality-agnostic,不是说不同模态完全没有差异,而是说它们尽量被投到同一种扩散训练叙事里:

\[ \text{text}, \text{vision}, \text{reasoning} \rightarrow \text{one diffusion objective family}. \]

这和 Transfusion / Orthus 的关键区别在于:后者仍保留“文本 AR,图像 diffusion”的双动力学;MMaDA 更想要一套统一动力学覆盖不同能力。

推导 3:Mixed Long CoT 微调意味着 diffusion backbone 也要承载推理轨迹

MMaDA 很重要的一点,是它不满足于“能做生成”,而要让 diffusion foundation model 也能做长链 reasoning。于是第二阶段目标可以抽象写成

\[ \mathcal{L}_{\text{stage2}} = \mathcal{L}_{\text{diff}} + \lambda \mathcal{L}_{\text{CoT}}. \]

这里的关键不是把 CoT 当作普通监督信号相加,而是把 reasoning 也放进 diffusion 范式中重新理解:

\[ \text{reasoning} \approx \text{structured denoising / refinement trajectory}. \]

换句话说,MMaDA 不是简单把“推理”外挂到 diffusion 模型后面,而是尝试让 diffusion backbone 本身学会生成更长、更稳定、更可控的推理轨迹。

这也是它和很多 diffusion-only 视觉模型非常不同的地方:它不是只追求画图,而是要把 reasoning 纳入同一个 backbone 的能力范围。

推导 4:UniGRPO 说明作者想补齐 diffusion unified model 的后训练闭环

第三阶段的关键在于 RL。若统一 diffusion 模型也要像 LLM 一样具备可对齐、可偏好优化的能力,那么后训练目标就不能停在监督微调。

抽象地写,第三阶段可表示为

\[ \mathcal{L}_{\text{stage3}} = \mathcal{L}_{\text{RL}}. \]

更具体地说,UniGRPO 的意义不是某个单独公式本身,而是它传递了一个更强的系统判断:

\[ \text{a diffusion unified model also needs its own RL recipe}. \]

这非常重要,因为它意味着 MMaDA 不是只在讨论一个新 backbone,而是在尝试补齐 diffusion unified model 的完整训练栈:

  • 预训练怎么做;
  • reasoning 微调怎么做;
  • alignment / RL 怎么做。

这使它更像一个范式提案,而不只是一个架构 patch。

架构理解

1. 为什么它不是“图像 diffusion + 文本补丁”

如果只是一个图像 diffusion 模型,额外接一点文本功能,那不算 MMaDA 的核心。MMaDA 真正强调的是:

  • diffusion backbone 本身要承载文本与多模态能力;
  • 统一主干不是 AR-LM;
  • 文本和图像都要纳入同一扩散训练叙事。

因此它不是“给 diffusion 模型加语言接口”,而是“把 diffusion 提升为 language-model-scale 的统一 backbone”。

2. 为什么它在 unified model 谱系里很激进

MMaDA 的激进之处在于,它挑战的不是某个局部设计,而是整个范式中心:

  • 为什么 unified model 的中心必须是 AR-LM?
  • 为什么 reasoning 和 RL 只能围绕 token-based policy 来组织?

它其实是在问:如果把 foundation model 的核心对象从 token chain 换成 diffusion dynamics,会发生什么。

3. 为什么它特别重视完整训练栈

很多方法会提出一个新 backbone,但并没有说明这个 backbone 如何承担后训练、长链推理、偏好优化。MMaDA 特别强调 mixed long CoT 与 UniGRPO,说明作者知道:

\[ \text{a foundation model is not complete without a post-training story}. \]

这也是它相对不少“只停留在预训练”的 diffusion unified work 更完整的地方。

训练流程

MMaDA 的训练适合按阶段理解,而不是只盯某个单一 loss。

阶段 1:Unified Diffusion Pretraining

第一阶段在统一 diffusion 目标下学习文本、多模态理解和图像生成基础能力:

\[ \mathcal{L}_{\text{stage1}} = \mathcal{L}_{\text{diff}}. \]

这一阶段的重点,是先证明一个共享 diffusion backbone 可以承载多模态基础建模。

阶段 2:Mixed Long CoT Fine-Tuning

第二阶段引入更偏 reasoning 的长链数据,让 diffusion 基座不仅能生成,也能形成更稳定的推理表达:

\[ \mathcal{L}_{\text{stage2}} = \mathcal{L}_{\text{diff}} + \lambda \mathcal{L}_{\text{CoT}}. \]

这一阶段的重点,是把“能生成”推进到“能推理”。

阶段 3:UniGRPO Reinforcement Learning

第三阶段用统一 RL 算法对 diffusion foundation model 做后训练:

\[ \mathcal{L}_{\text{stage3}} = \mathcal{L}_{\text{RL}}. \]

这一步的目标不是再提一点指标,而是补齐 diffusion unified model 的 alignment 能力。

直觉 / 理解

我对 MMaDA 的理解是:它像 unified model 领域里一次很明确的“范式挑战”。很多 unified model 讨论,默认前提都是“语言模型当然该是中心,视觉只是如何接进去的问题”。MMaDA 则反过来问:为什么中心不能是 diffusion?

它最有价值的地方,不是某一项单点性能,而是逼着我们重新思考 unified model 的基础对象到底应该是什么:

  • 是 token chain,
  • 是共享主干加模态专属动力学,
  • 还是更一般的概率状态演化?

MMaDA 给出的答案明显偏向第三种。

与相邻方法的关系

对比 Emu3 / Chameleon

Emu3、Chameleon 认为统一应围绕 token-based AR 展开。MMaDA 几乎站在对立面:它认为统一也可以围绕 diffusion dynamics 建立,因此二者代表 unified model 里最鲜明的两种哲学。

对比 Transfusion / Orthus

Transfusion、Orthus 都属于“共享主干 + 模态专属动力学”的混合路线。MMaDA 更进一步,它想把统一动力学本身也尽量迁移到 diffusion,而不是停在 hybrid compromise。

对比 Show-o2

Show-o2 已经把视觉侧推向 latent flow matching,并尝试扩展到 text-image-video。MMaDA 与它相似之处在于都不再认为 AR 是唯一中心;不同在于 MMaDA 更强调“扩散范式本身也应覆盖后训练和 RL 栈”。

对比 LLaDA-o

LLaDA-o 与 MMaDA 最像,二者都属于 diffusion-centered / omni-diffusion unified modeling 家族。MMaDA 相对更强调完整训练栈和后训练闭环,而不只是统一生成骨架。

重要细节

  • Architecture: 统一 diffusion foundation model
  • Objective: diffusion 预训练 + mixed long CoT fine-tuning + UniGRPO 后训练
  • Design: modality-agnostic unified diffusion backbone
  • Data: 文本推理、多模态理解、图像生成与 CoT 数据
  • Evaluation: textual reasoning、multimodal understanding、text-to-image generation
  • Strengths: 重新定义统一中心动力学;很重视后训练完整性;不是只讲预训练架构
  • Limitations: diffusion unified model 生态仍新;文本侧效率和交互性仍待进一步验证;与 AR-LM 生态相比工具链还不成熟

我的笔记 / 开放问题

我的笔记

我觉得 MMaDA 的意义很像一次“把问题重新提一遍”。很多方法都在讨论怎么把视觉接入语言模型,但 MMaDA 更像在问:统一模型为什么非得以语言模型为中心?如果这个问题成立,那它对 unified model 方向的影响会很深,因为它挑战的是整个研究默认前提。

这也意味着,MMaDA 的价值未必只体现在今天的指标上,而更体现在它是否能催生一整套 diffusion foundation model 的工程生态。

开放问题

  • diffusion 作为统一 backbone,在长文本、高频交互和工具使用等方向上,是否真能建立与 AR-LM 同等成熟的生态?
  • mixed long CoT 在 diffusion 范式下究竟学到的是“推理”,还是更强的结构化去噪?
  • UniGRPO 这类 RL 方法在 diffusion foundation model 上会不会遇到与 token policy 完全不同的稳定性问题?
  • 若未来 omni-diffusion 方法继续发展,MMaDA 这种路线会不会真正把 unified model 的中心从 LLM 挪走?

相关笔记

参考资料

  • Yang et al., "MMaDA: Multimodal Large Diffusion Language Models", arXiv, 2025. https://arxiv.org/abs/2505.15809
  • Official repository. https://github.com/Gen-Verse/MMaDA
  • Hugging Face paper page. https://huggingface.co/papers/2505.15809