第一篇章汇总（上）：大模型基础知识总结

第一篇章 · 总结回顾 · 上半页

大模型基础 · 它是什么，为何会"幻觉"

1 / 2 第一篇章完结

🧠

一、大模型是什么

三个必须掌握的底层认知

训练本质

LLM = 超大型"概率预测机器"

训练 = 在海量文本上反复预测下一个 Token，参数记住的是统计规律，不是"理解"。推理时参数冻结，只做条件概率计算。

P( 下一个 Token | 所有已知 Token )

Token & 上下文窗口

Token ≠ 字 · Context Window 是"桌面"

中文每字约 1-2 Token，英文每词约 1 Token。Context Window 决定模型能"看到"多少——超出就截断，永久消失。

当前主流窗口：Qwen 3.6（1M）、Kimi K2.5（200K）、Claude 4.6（200K）、GPT-5.4（128K）

演进路径

Base → SFT → Chat 三阶段

Base Model（续写文字）→ SFT 指令微调（学会对话格式）→ Chat API（模拟多轮对话）。

你每次调用 API，本质是在构造一个精心设计的 Message List，让模型"续写"出你想要的内容。

[system] + [user/assistant …] + [user_now]

👻

二、幻觉：LLM 的先天局限

不可消除，只能缓解

事实性幻觉

捏造不存在的事实、数据、引用

来源幻觉

引用了不存在的论文/链接/作者

推理幻觉

前提正确但推理步骤出错

代码幻觉

调用不存在的 API / 函数

根因一

参数知识有误

训练数据里本来就有错误信息；知识截止日期后的内容一无所知。

根因二

上下文理解偏差

Prompt 不清晰，模型"猜"意图；上下文矛盾时选择"最可能"而非"最准确"的续写。

关键认知

→ 幻觉不可完全消除，因为它是"概率预测"的必然产物

→ PreTraining 后参数冻结，无法自动更新知识，这是幻觉的根本原因

→ 正确做法：用工程手段缓解，而非指望模型"更聪明"后消失