基础原理

Base 模型：Token 推 Token 机器

训练结束后得到的原始模型，它只做一件事。

训练结束后

得到的就是一个无情的 Token 推 Token 机器

它只知道一件事：
给定前面所有的 Token，预测下一个最可能的 Token。

前文 Token → 概率分布 → 采样 → 新 Token → 循环

它不会

理解问题 · 思考答案 · 查阅知识
它只看概率，只吐 Token。

这就意味着

给它「紫霞捧着月光宝盒，轻声问：哥哥」，
它会接着推出概率最高的下一个词——
但它并不知道自己在写什么。

Token 推演演示

上下文（前文 Token）

紫霞 → 捧着 → 月光 → 宝盒 → ， → 轻声 → 问 → ： → 哥哥

模型正在预测下一个 Token…

这就是 Base 模型的全部：不断把最高概率词追加到序列末尾，直到生成终止符。
它没有意图、没有记忆、没有常识判断——只有概率，只有 Token。
但这个简单的循环，是一切大模型能力的底层引擎。