训练本质
LLM = 超大型"概率预测机器"
训练 = 在海量文本上反复预测下一个 Token,参数记住的是统计规律,不是"理解"。推理时参数冻结,只做条件概率计算。
P( 下一个 Token | 所有已知 Token )
Token & 上下文窗口
Token ≠ 字 · Context Window 是"桌面"
中文每字约 1-2 Token,英文每词约 1 Token。Context Window 决定模型能"看到"多少——超出就截断,永久消失。
当前主流窗口:Qwen 3.6(1M)、Kimi K2.5(200K)、Claude 4.6(200K)、GPT-5.4(128K)
演进路径
Base → SFT → Chat 三阶段
Base Model(续写文字)→ SFT 指令微调(学会对话格式)→ Chat API(模拟多轮对话)。
你每次调用 API,本质是在构造一个精心设计的 Message List,让模型"续写"出你想要的内容。
[system] + [user/assistant …] + [user_now]