上下文窗口与 Token:你需要知道的
为什么长文档会被截断、为什么 API 按 token 计费、上下文塞满会怎样。
和 LLM 打交道,token 和上下文窗口是绕不开的两个概念。
模型按 token 计量,不是按字。粗略换算:
- 英文 ≈ 1 token / 0.75 词
- 中文 ≈ 1 token / 1~2 字
API 计费按 输入 token + 输出 token,所以长 prompt 和长回答都花钱。
模型一次能”看到”的 token 上限(输入+输出之和)。现在常见 128K,部分到 1M。超出会:
- 报错,或
- 旧内容被截断/遗忘
- 别把整本文档塞进去——用 RAG 只检索相关片段,省钱又准。
- 长对话会越来越贵:每轮都带着全部历史,token 线性增长。必要时做摘要压缩。
- “大海捞针”问题:上下文太长时,中间部分的信息容易被忽略。关键信息放开头或结尾。
记住:上下文不是越多越好,相关、精炼比堆量更有效。