RAG 入门:给大模型接上你的知识库

离线: 把文档切块、用 embedding 模型转成向量，存入向量数据库。
在线: 把问题也转成向量，检索出最相似的几块原文，连同问题一起喂给 LLM。

检索增强生成的原理、流程，以及它为什么能治幻觉。

June 21, 2026 AI 1 分钟阅读

LLM 的知识停在训练截止日，且会编。**RAG(检索增强生成)**让它在回答前先去你的资料里”查一查”。

文档 → 切块(chunk) → 向量化(embedding) → 存进向量库
                                              │
用户提问 → 向量化 → 检索最相关的几块 → 塞进 prompt → LLM 生成答案

切块大小、检索数量(top-k)、embedding 模型质量、以及”重排序(rerank)“——这几个决定了 RAG 好不好用。下一步可以看向量数据库选型。

工作流程