多轮对话为什么越来越贵？Token 计费原理

LLM 按输入 Token 数计费。每一轮对话，都要把所有历史记录重新发给模型——历史越长，Token 越多，费用越高。

当前是第几轮对话第 1 轮

—

本轮输入 Token

—

本轮费用

—

累计总费用

逐轮费用明细

轮次	新增 Token	本轮输入	费用

为什么最后几轮这么贵？
第 10 轮的输入 = System Prompt + 前 9 轮的所有问答 + 本轮问题。每轮都在给模型"重新背诵一遍整个对话历史"。

每轮输入构成可视化（绿色 = 当前轮，灰色 = 历史）

📈 成本随轮次线性增长。 下一步：KV Cache 如何通过"缓存"把重复计算费用降低 70% 以上。