KV Cache：用空间换时间，顺便省下真金白银

每轮对话，模型都要对所有历史 Token 做 Attention 计算。KV Cache 把已算过的 K/V 矩阵缓存下来，下轮只计算新增 Token。

类比：
无缓存 = 每次上课都从头默写所有课本
有缓存 = 课本拍好存档，今天只看今天的新笔记

无 KV Cache

每轮：System Prompt + 全部历史 全量重算

第 N 轮成本 = 第 1 到 N 轮所有 Token 之和

有 KV Cache

历史 Token 的 K/V 已缓存，只算本轮新 Token

第 N 轮成本 ≈ 本轮新增那几个 Token

System Prompt 越长，KV Cache 越值钱。
5000 Token 的系统提示词，1000 轮对话后，KV Cache 节省约 80% 总成本。保持 System Prompt 不变 = 缓存命中。

⚠️ 隐藏大坑：分布式推理服务器
云端 LLM 通常跑在多台推理服务器上。你的请求可能每次被路由到不同节点——那台节点没有你的前文缓存，隐式缓存永远 MISS。

→ 下一页：显式缓存（必看）

一行代码保证命中 · Claude / Qwen / OpenAI 代码示例 · 命中率模拟对比

⌘→

模式：

System Prompt

重复计算

缓存命中

新增计算

点击"下一轮"开始演示 · 每格 = 固定 token 量，SYS 始终不变

已演示轮次

无缓存累计算量

有缓存累计算量

—

节省比例

切换"无缓存 / 有缓存"对比两种模式效果

结论：对话轮次越多，KV Cache 节省越大。保持 System Prompt 不变是最简单、最有效的优化手段。