Base 模型:一台无情的 Token 推 Token 机器

训练结束后得到的原始模型,它只做一件事

训练结束后
得到的就是一个
无情的 Token 推 Token
机器
它只知道一件事:
给定前面所有的 Token,预测下一个最可能的 Token。
前文 Token 概率分布 采样 新 Token 循环
Token 推演演示
上下文(前文 Token)
紫霞 捧着 月光 宝盒 轻声 哥哥
模型正在预测下一个 Token…

这就是 Base 模型的全部:不断把最高概率词追加到序列末尾,直到生成终止符。
它没有意图、没有记忆、没有常识判断——只有概率,只有 Token。
但这个简单的循环,是一切大模型能力的底层引擎。