拼出一段「假的聊天记录」:
用户发了什么,然后助理那一栏故意留空
OpenAI 发现了什么
大模型的本质是补全,
那如果我伪造一段
聊天记录让它补全呢?
那如果我伪造一段
聊天记录让它补全呢?
你不是只会一个一个字往后吐吗?
那我就构造一个格式——「这是一段没写完的聊天记录,你来续写助理的部分。」
那我就构造一个格式——「这是一段没写完的聊天记录,你来续写助理的部分。」
第一步
第二步
把整段文字喂给 Base 模型——
它只会做一件事:从结尾处开始补全
它只会做一件事:从结尾处开始补全
第三步
用户再说一句话,就把「上一轮回答 + 新问题」
重新拼成更长的待补全文本,继续送给模型
重新拼成更长的待补全文本,继续送给模型
诶,你别说,大模型补得有模有样!!!
第一轮:模型看到什么?补了什么?
用户:紫霞仙子是谁?
助理:
助理:
↓ 模型从「助理:」后面开始补全
助理补出来:
第二轮:用户再说一句,把第一轮答案拼进去继续送
助理补出来: