大语言模型是怎么工作的

从 Token、注意力机制到下一个词预测，用最少的数学讲清 LLM 的核心。

June 23, 2026 AI 1 分钟阅读

大语言模型(LLM)本质上做一件事:根据前面的内容，预测下一个 token。把这件事做到极致，就涌现出了对话、写代码、推理的能力。

预训练阶段，模型在海量文本上反复做”完形填空”，把语言规律、世界知识、推理模式都压进了几十亿到上万亿的参数里。之后再用指令微调和 RLHF 让它学会”听话、有用、安全”。

LLM 不是数据库，它不”查”答案，而是”生成”最可能的答案——所以会有幻觉(一本正经地编)。这也是为什么要给它接 RAG 来注入可靠事实。

三个关键概念