大语言模型是怎么工作的
从 Token、注意力机制到下一个词预测,用最少的数学讲清 LLM 的核心。
大语言模型(LLM)本质上做一件事:根据前面的内容,预测下一个 token。把这件事做到极致,就涌现出了对话、写代码、推理的能力。
- Token:文本被切成的最小单位(一个词、半个词或一个汉字)。模型不认识”字”,只认识 token 的编号。
- 注意力机制(Attention):每生成一个 token,模型都会”回看”前文所有 token,并按相关性加权。这是 Transformer 的核心。
- 自回归生成:生成是一个一个 token 蹦出来的,每个新 token 都基于已生成的全部内容。
预训练阶段,模型在海量文本上反复做”完形填空”,把语言规律、世界知识、推理模式都压进了几十亿到上万亿的参数里。之后再用指令微调和 RLHF 让它学会”听话、有用、安全”。
LLM 不是数据库,它不”查”答案,而是”生成”最可能的答案——所以会有幻觉(一本正经地编)。这也是为什么要给它接 RAG 来注入可靠事实。