多模态模型:让 AI 看懂图片

看图说话: 描述图片内容、提取图中文字(OCR)
截图问答: 发个报错截图问”这是什么问题”
图表理解: 读懂折线图/表格并分析
UI 理解: 看懂网页/App 界面(Agent 操作 GUI 的基础)

从纯文本到图文混合,多模态大模型能干什么、怎么用。

June 15, 2026 AI 1 分钟阅读

多模态大模型(VLM)能同时理解文字 + 图像(有的还有音频、视频)。你发张图,它能看懂。

把图片(URL 或 base64)和文字一起放进消息里:

{
  "role": "user",
  "content": [
    {"type": "text", "text": "这张图里有什么问题?"},
    {"type": "image", "source": "data:image/png;base64,..."}
  ]
}

我维护这个博客时,经常直接截个网页图发给 AI:“左上角图标换成小狗""这个 footer 改一下”——它能精确定位我说的是哪块。多模态把”描述需求”的成本降到了极低。

图片也消耗 token(通常按分辨率折算),高清大图很费;能压缩就压缩。

能干什么