前沿模型培训报告 - LessWrong

Acknowledgements 致谢我要感谢以下人士的反馈、建议和讨论：詹姆斯-布拉德伯里，谷歌 DeepMind 软件工程师本杰明-埃德尔曼，哈佛大学博士候选人 Horace He，。Contra FLOPs 反向 FLOP 认为衡量 ML 计算能力的最常用指标--浮点运算--是有缺陷的，因为不同类型浮点数的增加使得标准化变得困难，而且处理能力的成本只占 ML 成本的一小部分。ML Parallelism ML 并行性对 ML 并行性技术进行概述，说明 "ML 并行性令人尴尬 "这一常见概念是如何被简单化的，以及在大规模情况下是如何被打破的--在大规模情况下，任何简单的模型并行化方法都会开始遇到瓶颈，因为无论涉及多少设备，单个设备的能力都会成为瓶颈。A few major takeaways: 几个主要收获新的最先进（前沿）模型的成本可能在 10 亿美元左右，最近的前沿模型 GPT-4 的成本约为 5 亿美元。