云端 LLM 跑在多台 GPU 节点上,每次请求随机路由。节点 A 有你的缓存,节点 B/C 没有——命中纯靠运气,实际命中率 <30%。
在 API 请求里加一行 cache_control,平台保证把请求路由到有缓存的节点。不依赖随机路由,命中率接近 100%。
cache_control
无需改代码不保证命中折扣:标准价 20%分布式下 MISS 率高
加一行 cache_control平台保证路由命中折扣:标准价 10%省 90% 输入成本