跳到内容
Chris 的博客

上下文窗口与 Token:你需要知道的

为什么长文档会被截断、为什么 API 按 token 计费、上下文塞满会怎样。

AI 1 分钟阅读

和 LLM 打交道,token 和上下文窗口是绕不开的两个概念。

模型按 token 计量,不是按字。粗略换算:

  • 英文 ≈ 1 token / 0.75 词
  • 中文 ≈ 1 token / 1~2 字

API 计费按 输入 token + 输出 token,所以长 prompt 和长回答都花钱。

模型一次能”看到”的 token 上限(输入+输出之和)。现在常见 128K,部分到 1M。超出会:

  • 报错,或
  • 旧内容被截断/遗忘

  1. 别把整本文档塞进去——用 RAG 只检索相关片段,省钱又准。
  2. 长对话会越来越贵:每轮都带着全部历史,token 线性增长。必要时做摘要压缩。
  3. “大海捞针”问题:上下文太长时,中间部分的信息容易被忽略。关键信息放开头或结尾。

记住:上下文不是越多越好,相关、精炼比堆量更有效。