跳到内容
Chris 的博客

多模态模型:让 AI 看懂图片

从纯文本到图文混合,多模态大模型能干什么、怎么用。

AI 1 分钟阅读

多模态大模型(VLM)能同时理解文字 + 图像(有的还有音频、视频)。你发张图,它能看懂。

  • 看图说话:描述图片内容、提取图中文字(OCR)
  • 截图问答:发个报错截图问”这是什么问题”
  • 图表理解:读懂折线图/表格并分析
  • UI 理解:看懂网页/App 界面(Agent 操作 GUI 的基础)

把图片(URL 或 base64)和文字一起放进消息里:

{
"role": "user",
"content": [
{"type": "text", "text": "这张图里有什么问题?"},
{"type": "image", "source": "data:image/png;base64,..."}
]
}

我维护这个博客时,经常直接截个网页图发给 AI:“左上角图标换成小狗""这个 footer 改一下”——它能精确定位我说的是哪块。多模态把”描述需求”的成本降到了极低。

图片也消耗 token(通常按分辨率折算),高清大图很费;能压缩就压缩。