每轮对话,模型都要对所有历史 Token 做 Attention 计算。KV Cache 把已算过的 K/V 矩阵缓存下来,下轮只计算新增 Token。
类比:
无缓存 = 每次上课都从头默写所有课本
有缓存 = 课本拍好存档,今天只看今天的新笔记
无 KV Cache
每轮:System Prompt + 全部历史 全量重算
第 N 轮成本 = 第 1 到 N 轮所有 Token 之和
有 KV Cache
历史 Token 的 K/V 已缓存,只算本轮新 Token
第 N 轮成本 ≈ 本轮新增那几个 Token
System Prompt 越长,KV Cache 越值钱。
5000 Token 的系统提示词,1000 轮对话后,KV Cache 节省约 80% 总成本。保持 System Prompt 不变 = 缓存命中。
⚠️ 隐藏大坑:分布式推理服务器
云端 LLM 通常跑在多台推理服务器上。你的请求可能每次被路由到不同节点——那台节点没有你的前文缓存,隐式缓存永远 MISS。
→ 下一页:显式缓存(必看)
一行代码保证命中 · Claude / Qwen / OpenAI 代码示例 · 命中率模拟对比
⌘→
点击"下一轮"开始演示 · 每格 = 固定 token 量,SYS 始终不变
切换"无缓存 / 有缓存"对比两种模式效果
结论:对话轮次越多,KV Cache 节省越大。保持 System Prompt 不变是最简单、最有效的优化手段。