模型路由
简单任务用轻量模型(分类、抽取);复杂推理才用旗舰模型
省 60-80%
语法层
YAML 替代 JSON(省 15-30%),CSV 替代数组(省 40%+),删 Markdown 装饰
省 15-40%
语义层
动态 Few-Shot 向量匹配(省 87%),LLMLingua-2 压缩长文档(省 60%),关键信息放开头/结尾
省 60-87%
输出层
负向约束(精准截止废话),Diff 润色(只输出改动),Stop Sequence(及时截止)
省 20-50%
KV Cache
固定 System Prompt 前缀 → 缓存命中率高;避免动态时间戳(每次不同 = 永远 MISS)
省 30-60%