第二篇章汇总（下）：成本优化体系 + AI PM 认知升级

第二篇章 · 总结回顾 · 下半页

成本优化 · AI PM 带走的完整工程视角

2 / 2 全程完结

💰

三、成本优化五层体系

综合使用可降低 70-90% Token 成本

模型路由简单任务用轻量模型（分类、抽取）；复杂推理才用旗舰模型省 60-80%

语法层 YAML 替代 JSON（省 15-30%），CSV 替代数组（省 40%+），删 Markdown 装饰省 15-40%

语义层动态 Few-Shot 向量匹配（省 87%），LLMLingua-2 压缩长文档（省 60%），关键信息放开头/结尾省 60-87%

输出层负向约束（精准截止废话），Diff 润色（只输出改动），Stop Sequence（及时截止）省 20-50%

KV Cache 固定 System Prompt 前缀 → 缓存命中率高；避免动态时间戳（每次不同 = 永远 MISS）省 30-60%

❌ 动态时间戳

每次前缀不同

System Prompt 含 "现在是 {time}"，每次请求前缀变化 → KV Cache 永远 MISS

✅ 静态前缀

前缀不变，缓存稳定

时间放 user message 而非 system；System Prompt 保持固定 → 持续 HIT

🎯

四、AI PM 综合认知

从基础到工程，带走完整视角

🖼️

图片 Token 成本

分辨率 ≠ 质量。粗分类 512px 足够，OCR 用 1K-2K，高精检测才用 4K。按任务匹配可降低 60-90% 图片成本。

🛡️

Prompt 安全

4 类攻击：越权注入 / 角色逃逸 / Few-Shot 污染 / 符号注入。4 层防御：输入过滤 + 权限分层 + 输出验证 + 审计日志。

📊

多轮对话成本

每轮都把完整历史带入 → 成本指数增长。必须主动做上下文压缩，设计历史管理策略。

🔄

流式返回

Markdown 和 XML 流式友好；JSON/YAML 需等全文才能解析。格式选择影响用户体验和工程复杂度。

两篇章的终极结论

AI 工程化的本质是精心设计每一条 Message。从上下文管理到成本优化，全都是在设计那个发给模型的 Message List。

你已掌握的能力

理解 LLM 原理识别并缓解幻觉设计 Prompt 评估输出格式规划 Agent 架构系统性降低成本防御 Prompt 攻击