GPT 3的工作原理-可视化和动画

GPT-3的核心机制，是在巨大文本语料上学习“给定前文后下一个token最可能是什么”。训练阶段会把约三千亿个token切成大量样本，让模型反复预测下一个词，计算错误，再更新参数；完成后，模型把学到的模式储存在一千七百五十亿个参数中。运行时，它接收提示词，在最多2048个token的上下文窗口内处理信息，经过96层Transformer解码器的矩阵计算，一次生成一个token，并把新生成的内容继续喂回模型。所谓少样本提示，是把任务说明和几个输入输出示例放进同一个上下文，让模型临时模仿这种格式，而不一定改变权重。它的能力来自规模、数据和Transformer结构的结合，并非真正读取事实库；微调则是在特定任务上继续更新权重，使同一架构更稳定地执行目标行为。 https://jalammar.github.io/how-gpt3-works-visualizations-animations/