Skip to content

视觉语言模型

这一部分记录连接视觉理解、语言建模、指令跟随、grounding 与多模态评测的模型笔记。

范围

  • 图文预训练
  • 指令微调多模态助手
  • grounding 与感知
  • 多模态基准评测

笔记

后续可补充的笔记

  • 对比式与生成式预训练的差异
  • 从视觉编码器接入 LLM 的 connector 模块
  • OCR、grounding 与图表理解
  • 多模态幻觉与评测