第一篇章 · 总结回顾 · 上半页
大模型基础 · 它是什么,为何会"幻觉"
1 / 2 第一篇章完结
🧠
一、大模型是什么
三个必须掌握的底层认知
训练本质
LLM = 超大型"概率预测机器"
训练 = 在海量文本上反复预测下一个 Token,参数记住的是统计规律,不是"理解"。推理时参数冻结,只做条件概率计算。
P( 下一个 Token | 所有已知 Token )
Token & 上下文窗口
Token ≠ 字 · Context Window 是"桌面"
中文每字约 1-2 Token,英文每词约 1 Token。Context Window 决定模型能"看到"多少——超出就截断,永久消失。

当前主流窗口:Qwen 3.6(1M)、Kimi K2.5(200K)、Claude 4.6(200K)、GPT-5.4(128K)
演进路径
Base → SFT → Chat 三阶段
Base Model(续写文字)→ SFT 指令微调(学会对话格式)→ Chat API(模拟多轮对话)。

你每次调用 API,本质是在构造一个精心设计的 Message List,让模型"续写"出你想要的内容。
[system] + [user/assistant …] + [user_now]
👻
二、幻觉:LLM 的先天局限
不可消除,只能缓解
事实性幻觉
捏造不存在的事实、数据、引用
来源幻觉
引用了不存在的论文/链接/作者
推理幻觉
前提正确但推理步骤出错
代码幻觉
调用不存在的 API / 函数
根因一
参数知识有误
训练数据里本来就有错误信息;知识截止日期后的内容一无所知。
根因二
上下文理解偏差
Prompt 不清晰,模型"猜"意图;上下文矛盾时选择"最可能"而非"最准确"的续写。
关键认知
→ 幻觉不可完全消除,因为它是"概率预测"的必然产物
→ PreTraining 后参数冻结,无法自动更新知识,这是幻觉的根本原因
→ 正确做法:用工程手段缓解,而非指望模型"更聪明"后消失