模块八 · 成本优化 · 第 5 页
综合成本优化:
从系统角度省钱
点击策略 → 左侧实时看成本下降
单一优化效果有限。分层组合策略可将 AI 成本降低
70–90%
。
每天 10 万次对话 · 点击右侧策略叠加优化效果
优化前
重复历史 35%
不必要RAG 25%
旗舰模型 20%
必要计算 20%
100%
当前
重复历史
不必要RAG
旗舰模型
必要 20%
已节省
100%
KV Cache −35%
模型路由 −12%
RAG过滤 −18%
历史压缩 −8%
语义缓存 −7%
0%
已叠加节省
五层优化策略(依次点击,叠加效果)
优先级 1
KV Cache + 固定 System Prompt
最简单、效果最大。历史命中缓存,重算归零
节省 30–50%
优先级 2
意图识别 → 模型路由
80% 简单问题用小模型,复杂的才上旗舰
节省 40–60%
优先级 3
RAG 触发过滤
加"是否需要 RAG"判断,跳过不必要的向量检索
节省 20–40%
优先级 4
对话历史压缩(摘要策略)
超过 N 轮后,用 ~200 Token 替换 ~2000 Token 历史
长对话节省 60–80%
优先级 5
语义缓存(Semantic Cache)
语义相似问题复用同一回答,FAQ 不调用 LLM
FAQ 节省 70–90%
← 点击左侧任意策略,查看实施流程
成本优化 = 架构设计,不是事后补救。
在系统设计之初就考虑这 5 层,比上线后再优化容易 10 倍。