PM 需要设计的三个环节
环节 1 · 上线前
评测基线:建立幻觉测试集
用一批"已知正确答案"的问题测试模型,量化幻觉率,设定准入门槛。
环节 2 · 上线后
分级审核:高风险内容人工把关
按风险等级自动路由:低风险直接发出,高风险先人工审核再发送。
环节 3 · 持续优化
错误反馈闭环:用线上数据迭代
把审核中发现的幻觉案例收集为 Bad Case,反哺模型优化和 Prompt 调整。
PM 核心认知
幻觉率 ≠ 0——所有 LLM 都有幻觉,PM 的目标是把它控制在业务可接受的阈值内,而不是追求消灭。
高风险 = 人工兜底——医疗、法律、金融场景,AI 只做初稿,最终确认必须有人签字。
指标要写进 PRD——"幻觉率 < 3%"要像"加载时间 < 2s"一样,成为可量化的验收标准。