统一多模态模型总览¶

元信息¶

Topic: unified-models
Status: seed
Last updated: 2026-03-29
Source type: concept
Primary references:
Survey papers and model families spanning joint multimodal representation and generation

统一多模态模型试图把多样的输入输出放进更共享的建模框架中，从而减少“每个任务一套系统”的碎片化问题。

统一建模有机会减少重复组件、增强跨任务迁移，并把多模态推理重新表述成更一般的序列建模问题。

很多统一系统会把不同模态映射到兼容的 token 或 latent 空间中，从而让一个主干网络共同处理。

如果多种任务能被改写成同一类损失，例如自回归预测或掩码重建，那么训练接口就可以统一。

当目标是获得广泛能力时，prompt 设计、instruction tuning 和统一的输入输出格式往往和架构本身一样重要。

这一页适合作为总览入口，后续随着仓库扩展，再不断拆成更细的模型或方法笔记。