GPT 的跃进：为什么 Scaling Law 改变了一切

大模型发展史

在 GPT 之前，
大家都在做任务专用模型——
GPT 的出现，是一次跃进

CNN、RNN、BERT，都是先确定任务再训练模型。
GPT 反过来了：先用海量语料做预训练，再适配任务。

之前

CNN / RNN / BERT

→

跃进

GPT（PreTraining）

PreTraining 的本质

          用互联网上几乎所有的文字做 Token 预测训练——

          模型被迫学会了语法、常识、事实、逻辑、风格……

          这一切都只是预测下一个词的副产品。

为什么这是跃进？

          之前：每个任务从零训练，换任务就换模型

          GPT：预训练一次，能力迁移到任意任务

          这就是 Foundation Model（基础模型）的核心思路

窗口大小 3

CNN 的局限：只能看窗口内的词，窗口外的关系完全看不到。
「哥哥」和句首「紫霞」的关系？CNN 无法在一步内捕捉。

各词残留记忆强度（当 RNN 处理到当前词时）

← 越早的词，记忆越弱；当前处理词 = 100%

RNN 的局限：隐状态每步被新词覆盖，越早的词记忆越模糊。处理长文本时「梯度消失」——开头的信息到结尾几乎消失殆尽。

点击任意词 → 热图亮度 = 注意力权重，黄=左边绿=右边紫=自身

← 点击上方任意词，查看双向注意力热图

左边的词（BERT 能看）右边的词（BERT 能看）自身

BERT 的局限：双向注意力理解能力强，但预训练目标是「填空」——不擅长生成，不能直接用来续写文本。

GPT 单向因果生成 · 只看左边，逐步续写

下一词概率

点击「开始生成」

GPT 的跃进：因果预训练目标就是「预测下一词」，和生成天然一致——不需要特殊任务数据，规模越大涌现的能力越惊人。

GPT 的跃进：PreTraining 为什么改变了一切