Skip to content

VLM 阅读地图

元信息

  • Topic: vlm
  • Status: seed
  • Last updated: 2026-03-29
  • Source type: concept
  • Primary references:
  • Foundational VLM pretraining and instruction-tuning papers

一句话总结

视觉语言模型可以从三个角度来组织理解:视觉与文本如何对齐、信息在什么位置融合,以及训练依赖了什么监督信号。

为什么重要

VLM 文献增长很快,用清晰的分类框架来读论文,更容易比较设计选择,同时不丢掉整体脉络。

核心思想

对齐策略

有些系统依赖对比式对齐,有些采用生成式训练,也有些主要借助 instruction-following 监督。

融合位置

不同模型会在早期融合、后期融合,或者通过轻量 connector 接入预训练语言模型。

能力划分

阅读新的 VLM 论文时,把偏感知的任务和偏推理的任务分开看,往往会更清楚。

重要细节

  • Architecture: 视觉编码器配合文本编码器或 LLM 主干
  • Objective: 对比学习、captioning、next-token prediction 或 instruction tuning
  • Data: 图文对、问答数据、OCR 密集语料与合成指令数据
  • Evaluation: captioning、VQA、grounding、文档任务与 agent 式推理
  • Strengths: 监督丰富,接口实用,多模态交互自然
  • Limitations: grounding 脆弱、容易 hallucination、对 benchmark 选择敏感

我的笔记

这一页适合作为后续扩展 CLIP 类、Flamingo 类和 LLM-connector 类 VLM 笔记的枢纽页。

开放问题

  • 现在还有哪些 benchmark 真正在衡量多模态推理,而不是语言先验?
  • 最近的进展中,数据整理的贡献和架构创新的贡献各占多少?

相关笔记

参考资料

  • 随着这一部分扩展,可以在这里逐步补充具体论文笔记。