AI 的"食物":训练数据

想让 AI 学会说话,先要喂给它数以万亿计的文字——它读了人类写过的绝大多数内容

~1B
Tokens(词元)· 小模型训练数据量级
读了多少,就能说多少。
训练数据的质量和多样性,决定了模型"世界观"的上限。
拖动滑条 · 感受不同参数量模型的能力差异
270M 幻觉
270M0.6B1.8B30B70B120B235B1T5T+
270M
Gemma-4-e2b
Google · 本地推理
幻觉
问:李知恩是谁?请介绍一下她的生平和代表作品。