PinnedPinnedPrivate
lesswrong.com

前沿模型培训报告 - LessWrong

Acknowledgements 致谢 我要感谢以下人士的反馈、建议和讨论: 詹姆斯-布拉德伯里,谷歌 DeepMind 软件工程师 本杰明-埃德尔曼,哈佛大学博士候选人 Horace He,。Contra FLOPs 反向 FLOP 认为衡量 ML 计算能力的最常用指标--浮点运算--是有缺陷的,因为不同类型浮点数的增加使得标准化变得困难,而且处理能力的成本只占 ML 成本的一小部分。ML Parallelism ML 并行性 对 ML 并行性技术进行概述,说明 "ML 并行性令人尴尬 "这一常见概念是如何被简单化的,以及在大规模情况下是如何被打破的--在大规模情况下,任何简单的模型并行化方法都会开始遇到瓶颈,因为无论涉及多少设备,单个设备的能力都会成为瓶颈。A few major takeaways: 几个主要收获 新的最先进(前沿)模型的成本可能在 10 亿美元左右,最近的前沿模型 GPT-4 的成本约为 5 亿美元。