第二篇章 · 总结回顾 · 下半页
成本优化 · AI PM 带走的完整工程视角
2 / 2 全程完结
💰
三、成本优化五层体系
综合使用可降低 70-90% Token 成本
模型路由 简单任务用轻量模型(分类、抽取);复杂推理才用旗舰模型 省 60-80%
语法层 YAML 替代 JSON(省 15-30%),CSV 替代数组(省 40%+),删 Markdown 装饰 省 15-40%
语义层 动态 Few-Shot 向量匹配(省 87%),LLMLingua-2 压缩长文档(省 60%),关键信息放开头/结尾 省 60-87%
输出层 负向约束(精准截止废话),Diff 润色(只输出改动),Stop Sequence(及时截止) 省 20-50%
KV Cache 固定 System Prompt 前缀 → 缓存命中率高;避免动态时间戳(每次不同 = 永远 MISS) 省 30-60%
❌ 动态时间戳
每次前缀不同
System Prompt 含 "现在是 {time}",每次请求前缀变化 → KV Cache 永远 MISS
✅ 静态前缀
前缀不变,缓存稳定
时间放 user message 而非 system;System Prompt 保持固定 → 持续 HIT
🎯
四、AI PM 综合认知
从基础到工程,带走完整视角
🖼️
图片 Token 成本
分辨率 ≠ 质量。粗分类 512px 足够,OCR 用 1K-2K,高精检测才用 4K。按任务匹配可降低 60-90% 图片成本。
🛡️
Prompt 安全
4 类攻击:越权注入 / 角色逃逸 / Few-Shot 污染 / 符号注入。4 层防御:输入过滤 + 权限分层 + 输出验证 + 审计日志。
📊
多轮对话成本
每轮都把完整历史带入 → 成本指数增长。必须主动做上下文压缩,设计历史管理策略。
🔄
流式返回
Markdown 和 XML 流式友好;JSON/YAML 需等全文才能解析。格式选择影响用户体验和工程复杂度。
两篇章的终极结论
AI 工程化的本质是精心设计每一条 Message。从上下文管理到成本优化,全都是在设计那个发给模型的 Message List。
你已掌握的能力
理解 LLM 原理 识别并缓解幻觉 设计 Prompt 评估输出格式 规划 Agent 架构 系统性降低成本 防御 Prompt 攻击