模块八 · 成本优化 · 第 1 页
多轮对话为什么越来越贵
拖动滑块模拟费用累积 →

LLM 按输入 Token 数计费。每一轮对话,都要把所有历史记录重新发给模型——历史越长,Token 越多,费用越高。

当前是第几轮对话 第 1 轮
本轮输入 Token
本轮费用
累计总费用
逐轮费用明细
轮次新增 Token本轮输入费用
为什么最后几轮这么贵?
第 10 轮的输入 = System Prompt + 前 9 轮的所有问答 + 本轮问题。每轮都在给模型"重新背诵一遍整个对话历史"。
每轮输入构成可视化(绿色 = 当前轮,灰色 = 历史)
📈 成本随轮次线性增长。 下一步:KV Cache 如何通过"缓存"把重复计算费用降低 70% 以上。