统一模型¶
这一部分关注试图在同一个系统中统一多模态、任务类型或交互形式的架构与训练策略。
范围¶
- 共享 token / latent 空间
- 多模态序列建模
- 统一预训练目标
- 理解与生成联合建模
笔记¶
- 统一多模态模型总览:梳理统一多模态系统中常见设计模式的起步页。
- DreamLLM 笔记:理解 DreamLLM 如何把多模态理解与创作协同作为统一目标来设计。
- Emu3 笔记:分析 Emu3 如何把文本、图像、视频统一到纯 next-token prediction 路线中。
- Janus 笔记:分析 Janus 如何通过解耦视觉编码来统一理解和生成。
- Transfusion 笔记:分析 Transfusion 如何在一个主干里组合语言建模和图像 diffusion。
- Orthus 笔记:分析 Orthus 如何在自回归主干下结合语言 head 与 diffusion head。
- Chameleon 笔记:分析 Chameleon 的 mixed-modal early-fusion token 路线。
- MMaDA 笔记:分析 MMaDA 如何把统一模型推进到 diffusion foundation model 路线。
- LLaDA-o 笔记:分析 LLaDA-o 的 Mixture of Diffusion 与长度自适应设计。
- Uni-RS 笔记:分析面向遥感领域的空间忠实统一理解与生成模型。
- Show-o 笔记:详细分析 Show-o 如何在一个 transformer 里结合语言自回归建模与离散扩散式图像生成。
- Show-o2 笔记:详细分析 Show-o2 如何用 3D causal VAE latent 与 flow matching 进一步统一文本、图像与视频。
- TUNA 笔记:详细分析 TUNA 如何通过 VAE latent 与 representation encoder 级联,构造统一连续视觉表示。
- InternVL-U 笔记:详细分析 InternVL-U 如何以统一上下文建模结合 MMDiT generation head,同时覆盖理解、推理、生成与编辑。
后续可补充的笔记¶
- token 统一策略
- 模态适配器与路由机制
- 跨任务训练配比
- all-in-one 系统中的评测权衡