本地跑大模型:Ollama 上手

一行命令在自己机器上跑开源大模型,数据不出本地。

June 19, 2026 AI 1 分钟阅读

想白嫖、想隐私、想离线——把开源模型跑在自己机器上。Ollama 是目前最省事的方式。

# 1. 安装
curl -fsSL https://ollama.com/install.sh | sh
# 2. 拉一个模型并对话
ollama run qwen2.5:7b
# 3. 当 API 用(兼容 OpenAI 格式)
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "用一句话解释 RAG"
}'

显存/内存	能跑
8GB	7B 量化版(Q4)
16GB	14B 量化 / 7B 全精度
24GB+	32B 量化

没有 GPU 也能用 CPU 跑,就是慢。7B 的 Q4 量化版在 16G 内存的机器上 CPU 也能勉强对话。

本地知识库(配 RAG)、批量处理隐私数据、离线写作助手。要追求极致质量还是云端大模型(如 Claude)更强,本地胜在私有和免费。

三步起跑

选多大的模型

适合干嘛