视觉语言模型¶ 这一部分记录连接视觉理解、语言建模、指令跟随、grounding 与多模态评测的模型笔记。 范围¶ 图文预训练 指令微调多模态助手 grounding 与感知 多模态基准评测 笔记¶ VLM 阅读地图:用于组织 VLM 论文与概念的起步页。 后续可补充的笔记¶ 对比式与生成式预训练的差异 从视觉编码器接入 LLM 的 connector 模块 OCR、grounding 与图表理解 多模态幻觉与评测