用户写下心事(称为"ribbon"),AI 把它改写成有诗意的文字,可选择匿名发布到广场与他人共鸣。
拒绝时绝不暴露检测逻辑,统一用平台语境措辞回应攻击者:
命中即拦截,不进 LLM
LLM 自身识别注入意图
扫描输出中的系统提示词片段
不同场景会触发不同防护层,右侧展示每层的处理逻辑和最终返回给用户的内容。
无论哪层拦截,用户看到的都是平台语境的自然语句,绝不暴露检测逻辑: