跳到内容
Chris 的博客

RAG 入门:给大模型接上你的知识库

检索增强生成的原理、流程,以及它为什么能治幻觉。

AI 1 分钟阅读

LLM 的知识停在训练截止日,且会编。**RAG(检索增强生成)**让它在回答前先去你的资料里”查一查”。

文档 → 切块(chunk) → 向量化(embedding) → 存进向量库
用户提问 → 向量化 → 检索最相关的几块 → 塞进 prompt → LLM 生成答案
  1. 离线:把文档切块、用 embedding 模型转成向量,存入向量数据库。
  2. 在线:把问题也转成向量,检索出最相似的几块原文,连同问题一起喂给 LLM。

  • 治幻觉:答案有据可依(还能附引用)。
  • 知识可更新:加文档即可,不用重新训练。
  • 私有数据:你的内部文档不进模型训练,只在检索时用。

切块大小、检索数量(top-k)、embedding 模型质量、以及”重排序(rerank)“——这几个决定了 RAG 好不好用。下一步可以看向量数据库选型