模块八 · 成本优化 · 第 1 页
多轮对话为什么
越来越贵
?
拖动滑块模拟费用累积 →
LLM 按
输入 Token 数
计费。每一轮对话,都要把所有历史记录重新发给模型——历史越长,Token 越多,费用越高。
当前是第几轮对话
第 1 轮
—
本轮输入 Token
—
本轮费用
—
累计总费用
逐轮费用明细
轮次
新增 Token
本轮输入
费用
为什么最后几轮这么贵?
第 10 轮的输入 = System Prompt + 前 9 轮的所有问答 + 本轮问题。每轮都在给模型"重新背诵一遍整个对话历史"。
每轮输入构成可视化(绿色 = 当前轮,灰色 = 历史)
📈
成本随轮次线性增长。
下一步:KV Cache 如何通过"缓存"把重复计算费用降低 70% 以上。