LLaDA-o 笔记¶
元信息¶
- Topic: unified-models
- Status: revised
- Last updated: 2026-04-06
- Source type: paper
- Primary references:
- LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
- LLaDA-o official repository
一句话总结¶
LLaDA-o 的核心不只是“又一个 diffusion 统一模型”,而是把统一对象明确拆成离散 masked diffusion 和连续 diffusion 两种子机制,再通过共享高效 attention backbone 和数据驱动的长度自适应策略,把它们组织成一个更可用的 omni diffusion model。
背景 / 问题设定¶
如果接受“统一模型也可以围绕 diffusion 建立”,接下来马上会遇到两个很实际的问题:
- 文本理解和视觉生成显然不适合同一种 diffusion 形式。
- 多模态输出长度差异极大,若没有长度适配机制,统一推理会非常低效。
MMaDA 已经提出一个更宏观的范式问题:diffusion 能否成为 unified foundation model 的中心。但 LLaDA-o 更进一步,它在问:
- 就算 diffusion 可以做统一,内部是否仍需要进一步结构拆分?
- 文本和视觉是否应该共享同一种 diffusion 子机制?
- 如果统一模型面对的任务长度分布非常不同,推理长度和计算预算是否也应该随任务而变?
因此 LLaDA-o 不是简单重复 MMaDA,而是在给 omni-diffusion 方法增加更细的内部结构和更现实的效率机制。它真正瞄准的,是:
记号¶
设:
- 文本序列为 \(x\)
- 图像连续变量或 latent 为 \(y\)
- 共享注意力主干为 \(f_\theta\)
- 离散 masked diffusion 目标为 \(\mathcal{L}_{\text{disc}}\)
- 连续 diffusion 目标为 \(\mathcal{L}_{\text{cont}}\)
- 长度适配相关目标为 \(\mathcal{L}_{\text{len}}\)
- 解码长度或推理预算控制变量为 \(L\)
LLaDA-o 的核心结构可以抽象写成:
并通过共享 backbone 汇合为
同时,长度适配机制可抽象理解为一个任务条件下的预算映射:
核心思想¶
1. Mixture of Diffusion¶
LLaDA-o 不要求所有模态走完全相同的 diffusion 过程,而是把统一建立在一个 Mixture of Diffusion(MoD)框架上:
- 文本理解更适合离散 masked diffusion;
- 视觉生成更适合连续 diffusion。
因此它的统一不是“所有模态同一动力学”,而是“不同 diffusion 子机制在同一个 backbone 中协作”。
2. 共享主干而非共享所有细节¶
不同 diffusion 分支通过共享高效 attention backbone 耦合,因此统一仍然发生在上下文交互层,而不是变量形式层。
这意味着 LLaDA-o 的统一观更接近:
3. Length Adaptation 是核心工程机制¶
LLaDA-o 很重要的一点是,它把长度自适配从工程细节提升为方法设计的一部分。这说明作者意识到 unified model 的实际难点常常不是“能不能统一”,而是:
一个简单示意图¶
text / reasoning input ----------> discrete diffusion branch ----+
|
image / visual target ----------> continuous diffusion branch ---+--> shared attention backbone --> outputs
|
+--> length-adaptive decoding control
详细推导¶
推导 1:LLaDA-o 的统一不是单一 diffusion,而是 diffusion family 内部的结构化分解¶
如果一个 omni-diffusion 模型试图让所有模态都服从完全相同的 diffusion 形式,那么很快会遇到问题:
- 文本更接近离散符号对象;
- 图像更接近连续状态对象。
因此 LLaDA-o 不再要求
而是改成
具体地,对文本 / reasoning 分支,可用离散 masked diffusion 视角描述。设文本序列为 \(x\),mask 后状态为 \(\tilde{x}\),则目标是恢复被 mask 的位置:
这里 \(M\) 是 mask 集合,\(c\) 是任务条件与共享上下文。
对视觉分支,则保留连续 diffusion 目标。设真实视觉状态为 \(y_1\)、噪声为 \(y_0\)、加噪状态为 \(y_t\),则典型连续目标可以写成
因此 LLaDA-o 的统一,本质上不是单一公式统一,而是 diffusion family 内部的结构化分解。
推导 2:联合目标体现“分支异构,主干共享”¶
LLaDA-o 的训练可以抽象写成
这个式子真正重要的,不是“loss 加权求和”本身,而是参数依赖结构:
这里共享的是 attention backbone \(f_\theta\),而不是所有 diffusion 细节都共享。这说明 LLaDA-o 对 unified model 的定义更加细化:
这和 Emu3 那种“统一到单一 NTP 目标”的路线形成鲜明对比,也和 MMaDA 那种更宏观的“统一 diffusion 范式”相比,多了一层内部机制分工。
推导 3:长度适配可以看成任务条件下的最优推理预算学习¶
LLaDA-o 最值得记住的一个工程点,是长度适配。设某个任务的最优推理长度为 \(L^\star\),则作者试图学习一个预算控制机制
这件事的重要性在于:
- 文本理解任务可能不需要很长扩散链;
- 图像生成任务可能需要更长、更细的迭代;
- 若统一模型对所有任务都固定用同样长度,算力会被严重浪费。
因此 LLaDA-o 的长度自适配,本质上是在学习
这也说明 unified model 的真正难点之一,不只是共享主干,而是共享后如何按任务分配计算资源。
推导 4:为什么说 LLaDA-o 比 MMaDA 更偏“工程可用性”¶
MMaDA 更像一个范式挑战:diffusion 能否成为统一 backbone?LLaDA-o 则更往前一步,开始回答:
- 如果 diffusion 真能统一,那文本和视觉内部要不要分 branch?
- 解码长度怎么配?
- 推理成本怎么控?
换句话说,LLaDA-o 的贡献不是把 unified diffusion 的抽象理念再重复一遍,而是在告诉我们:
这也是为什么它比单纯讲 backbone 更接近一个“可用系统”的设计。
架构理解¶
1. 为什么它不是简单“MMaDA 的缩写版”¶
LLaDA-o 和 MMaDA 同属 diffusion-centered unified model 阵营,但两者关注点不一样:
- MMaDA 更强调范式迁移与完整训练栈;
- LLaDA-o 更强调 diffusion family 内部该如何分工,以及长度效率如何解决。
因此它不是简单换个名字再做一遍 diffusion unified model,而是在 omni-diffusion 内部继续细化结构。
2. 为什么 Mixture of Diffusion 很关键¶
如果文本和视觉都硬塞进同一种 diffusion 形式,很可能出现“两边都不舒服”的情况。LLaDA-o 通过 Mixture of Diffusion 承认:
- 统一不一定意味着同构;
- 更合理的 unified model 往往是“共享主干、分支异构”。
这和 Transfusion / Orthus 的思想有相通之处,但 LLaDA-o 把这种异构保留在 diffusion family 内部,而不是走 AR + diffusion 的混合二元结构。
3. 为什么长度适配不是纯工程技巧¶
很多论文会把长度控制当成小优化,但 LLaDA-o 把它放到方法主线上,说明作者意识到:
对于 unified model 尤其如此,因为多任务、多模态的长度分布天然非常不均匀。
训练流程¶
LLaDA-o 的训练更适合理解成一个混合 diffusion recipe,而不是一个单一公式。
阶段 1:离散理解任务训练 masked diffusion 分支¶
文本理解、推理相关任务用于训练离散 masked diffusion 分支,让模型在离散符号空间里学会恢复、补全与理解。
阶段 2:连续图像任务训练 continuous diffusion 分支¶
图像生成相关任务用于训练连续 diffusion 分支,让模型在视觉连续状态空间里保留高保真生成能力。
阶段 3:混合多模态数据训练共享 backbone 与长度适配¶
最后再用混合多模态数据把共享 backbone 的跨模态条件能力和长度适配策略一起练起来,使模型不仅“能统一”,而且“统一后推理成本还可控”。
直觉 / 理解¶
我对 LLaDA-o 的理解是:它像 omni-diffusion unified model 从“范式宣言”迈向“工程系统”的一步。MMaDA 会让人重新思考 unified model 为什么必须围绕 AR-LM;LLaDA-o 则更像在说,既然你已经接受 diffusion-centered 这条路线,那么接下来你就必须认真处理:
- 模态异构,
- 长度异构,
- 推理预算异构。
也就是说,它不只在谈“是否统一”,而是在谈“统一之后如何高效地活下去”。
与相邻方法的关系¶
对比 MMaDA¶
MMaDA 更强调“diffusion 能否成为 unified backbone”以及完整后训练栈。LLaDA-o 更强调 omni-diffusion 内部的机制拆分与长度效率,因此两者很像同一阵营里的上下游工作。
对比 Transfusion / Orthus¶
Transfusion、Orthus 通过共享主干加模态专属动力学来缓解异构。LLaDA-o 的相似点是也承认异构不可避免;不同在于,它把这种异构保留在 diffusion family 内部,而不是走 AR + diffusion 混合结构。
对比 Show-o2¶
Show-o2 通过 language head + flow head 统一文本、图像和视频,更像“共享主干,输出动力学分化”。LLaDA-o 则更接近“统一 diffusion 主干,内部再做离散 / 连续 diffusion 分工”。
对比 Emu3¶
Emu3 把统一压缩到单一 next-token prediction;LLaDA-o 则几乎站在相反方向,认为 unified model 内部完全可以保留不同 diffusion 子机制,只要共享 backbone 和计算组织足够好。
重要细节¶
- Architecture: Mixture of Diffusion + shared efficient attention backbone + length adaptation
- Objective: 文本离散 masked diffusion + 图像连续 diffusion + 长度适配训练
- Design: discrete/continuous diffusion heterogeneity under one shared backbone
- Data: 多模态理解、图像生成和长度分布多样的混合任务数据
- Evaluation: multimodal understanding、text-to-image generation、efficiency-oriented omni benchmarks
- Strengths: 对 omni-diffusion 内部结构刻画更细;效率意识很强;比只讲 backbone 更接近可用系统
- Limitations: diffusion 路线整体仍较新;文本侧工具链和用户体验尚不如 AR 模型成熟;长度适配的通用性仍待更多验证
我的笔记 / 开放问题¶
我的笔记¶
我觉得 LLaDA-o 的价值,在于它把“统一”从抽象概念推进到了“不同 diffusion 子机制如何共存、计算如何分配”的层面。很多 unified model 论文容易停在“我们也统一了”,但 LLaDA-o 更像在问:统一之后,不同任务长度差异这么大,你怎么让系统不浪费算力?
这使它很像 omni-diffusion 方法走向工程可用化的一步,而不是单纯再做一个更大的统一 backbone。
开放问题¶
- 这种长度自适应是否会成为 unified model 的通用组件,而不只属于 diffusion 阵营?
- discrete masked diffusion 在文本理解上的上限,能否真正逼近成熟 AR-LM?
- 如果视频也被纳入,长度适配会不会从“有用技巧”变成“绝对必要的核心组件”?
- omni-diffusion 路线最终会不会因为效率问题,反而重新收敛到某种 hybrid 结构?
相关笔记¶
参考资料¶
- You et al., "LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model", arXiv, 2026. https://arxiv.org/abs/2603.01068
- Official repository. https://github.com/ML-GSAI/LLaDA-o
- Hugging Face paper page. https://huggingface.co/papers/2603.01068