PinnedPinnedPrivate
jalammar.github.ioGPT-3的核心机制,是在巨大文本语料上学习“给定前文后下一个token最可能是什么”。训练阶段会把约三千亿个token切成大量样本,让模型反复预测下一个词,计算错误,再更新参数;完成后,模型把学到的模式储存在一千七百五十亿个参数中。运行时,它接收提示词,在最多2048个token的上下文窗口内处理信息,经过96层Transformer解码器的矩阵计算,一次生成一个token,并把新生成的内容继续喂回模型。所谓少样本提示,是把任务说明和几个输入输出示例放进同一个上下文,让模型临时模仿这种格式,而不一定改变权重。它的能力来自规模、数据和Transformer结构的结合,并非真正读取事实库;微调则是在特定任务上继续更新权重,使同一架构更稳定地执行目标行为。 https://jalammar.github.io/how-gpt3-works-visualizations-animations/