GPT 的跃进:PreTraining 为什么改变了一切

从 CNN/RNN/BERT 到 GPT,大模型史上最重要的一步

大模型发展史
在 GPT 之前,
大家都在做任务专用模型——
GPT 的出现,是一次跃进
CNN、RNN、BERT,都是先确定任务再训练模型。
GPT 反过来了:先用海量语料做预训练,再适配任务。
之前
CNN / RNN / BERT
跃进
GPT(PreTraining)
PreTraining 的本质
用互联网上几乎所有的文字做 Token 预测训练——
模型被迫学会了语法、常识、事实、逻辑、风格……
这一切都只是预测下一个词的副产品
为什么这是跃进?
之前:每个任务从零训练,换任务就换模型
GPT:预训练一次,能力迁移到任意任务
这就是 Foundation Model(基础模型)的核心思路
窗口大小 3
CNN 的局限:只能看窗口内的词,窗口外的关系完全看不到。
「哥哥」和句首「紫霞」的关系?CNN 无法在一步内捕捉。
各词残留记忆强度(当 RNN 处理到当前词时)
← 越早的词,记忆越弱;当前处理词 = 100%
RNN 的局限:隐状态每步被新词覆盖,越早的词记忆越模糊。处理长文本时「梯度消失」——开头的信息到结尾几乎消失殆尽。
点击任意词 → 热图亮度 = 注意力权重,黄=左边 绿=右边 紫=自身
← 点击上方任意词,查看双向注意力热图
左边的词(BERT 能看) 右边的词(BERT 能看) 自身
BERT 的局限:双向注意力理解能力强,但预训练目标是「填空」——不擅长生成,不能直接用来续写文本。
GPT 单向因果生成 · 只看左边,逐步续写
下一词概率
点击「开始生成」
GPT 的跃进:因果预训练目标就是「预测下一词」,和生成天然一致——不需要特殊任务数据,规模越大涌现的能力越惊人。