本地跑大模型:Ollama 上手
一行命令在自己机器上跑开源大模型,数据不出本地。
想白嫖、想隐私、想离线——把开源模型跑在自己机器上。Ollama 是目前最省事的方式。
# 1. 安装curl -fsSL https://ollama.com/install.sh | sh# 2. 拉一个模型并对话ollama run qwen2.5:7b# 3. 当 API 用(兼容 OpenAI 格式)curl http://localhost:11434/api/generate -d '{ "model": "qwen2.5:7b", "prompt": "用一句话解释 RAG"}'| 显存/内存 | 能跑 |
|---|---|
| 8GB | 7B 量化版(Q4) |
| 16GB | 14B 量化 / 7B 全精度 |
| 24GB+ | 32B 量化 |
没有 GPU 也能用 CPU 跑,就是慢。7B 的 Q4 量化版在 16G 内存的机器上 CPU 也能勉强对话。
本地知识库(配 RAG)、批量处理隐私数据、离线写作助手。要追求极致质量还是云端大模型(如 Claude)更强,本地胜在私有和免费。