统一模型¶

这一部分关注试图在同一个系统中统一多模态、任务类型或交互形式的架构与训练策略。

范围¶

统一多模态模型总览：梳理统一多模态系统中常见设计模式的起步页。
DreamLLM 笔记：理解 DreamLLM 如何把多模态理解与创作协同作为统一目标来设计。
Emu3 笔记：分析 Emu3 如何把文本、图像、视频统一到纯 next-token prediction 路线中。
Janus 笔记：分析 Janus 如何通过解耦视觉编码来统一理解和生成。
Transfusion 笔记：分析 Transfusion 如何在一个主干里组合语言建模和图像 diffusion。
Orthus 笔记：分析 Orthus 如何在自回归主干下结合语言 head 与 diffusion head。
Chameleon 笔记：分析 Chameleon 的 mixed-modal early-fusion token 路线。
MMaDA 笔记：分析 MMaDA 如何把统一模型推进到 diffusion foundation model 路线。
LLaDA-o 笔记：分析 LLaDA-o 的 Mixture of Diffusion 与长度自适应设计。
Uni-RS 笔记：分析面向遥感领域的空间忠实统一理解与生成模型。
Show-o 笔记：详细分析 Show-o 如何在一个 transformer 里结合语言自回归建模与离散扩散式图像生成。
Show-o2 笔记：详细分析 Show-o2 如何用 3D causal VAE latent 与 flow matching 进一步统一文本、图像与视频。
TUNA 笔记：详细分析 TUNA 如何通过 VAE latent 与 representation encoder 级联，构造统一连续视觉表示。
InternVL-U 笔记：详细分析 InternVL-U 如何以统一上下文建模结合 MMDiT generation head，同时覆盖理解、推理、生成与编辑。