训练结束后
得到的就是一个
无情的 Token 推 Token
机器
无情的 Token 推 Token
机器
它只知道一件事:
给定前面所有的 Token,预测下一个最可能的 Token。
给定前面所有的 Token,预测下一个最可能的 Token。
前文 Token
→
概率分布
→
采样
→
新 Token
→
循环
Token 推演演示
上下文(前文 Token)
紫霞
→
捧着
→
月光
→
宝盒
→
,
→
轻声
→
问
→
:
→
哥哥
这就是 Base 模型的全部:不断把最高概率词追加到序列末尾,直到生成终止符。
它没有意图、没有记忆、没有常识判断——只有概率,只有 Token。
但这个简单的循环,是一切大模型能力的底层引擎。