多模态模型:让 AI 看懂图片
从纯文本到图文混合,多模态大模型能干什么、怎么用。
多模态大模型(VLM)能同时理解文字 + 图像(有的还有音频、视频)。你发张图,它能看懂。
- 看图说话:描述图片内容、提取图中文字(OCR)
- 截图问答:发个报错截图问”这是什么问题”
- 图表理解:读懂折线图/表格并分析
- UI 理解:看懂网页/App 界面(Agent 操作 GUI 的基础)
把图片(URL 或 base64)和文字一起放进消息里:
{ "role": "user", "content": [ {"type": "text", "text": "这张图里有什么问题?"}, {"type": "image", "source": "data:image/png;base64,..."} ]}我维护这个博客时,经常直接截个网页图发给 AI:“左上角图标换成小狗""这个 footer 改一下”——它能精确定位我说的是哪块。多模态把”描述需求”的成本降到了极低。
图片也消耗 token(通常按分辨率折算),高清大图很费;能压缩就压缩。