PinnedPinnedPrivate

前沿模型培训报告 - LessWrong

Acknowledgements 致谢我要感谢以下人士的反馈、建议和讨论：詹姆斯-布拉德伯里，谷歌 DeepMind 软件工程师本杰明-埃德尔曼，哈佛大学博士候选人 Horace He，。Contra FLOPs 反向 FLOP 认为衡量 ML 计算能力的最常用指标--浮点运算--是有缺陷的，因为不同类型浮点数的增加使得标准化变得困难，而且处理能力的成本只占 ML 成本的一小部分。ML Parallelism ML 并行性对 ML 并行性技术进行概述，说明 "ML 并行性令人尴尬 "这一常见概念是如何被简单化的，以及在大规模情况下是如何被打破的--在大规模情况下，任何简单的模型并行化方法都会开始遇到瓶颈，因为无论涉及多少设备，单个设备的能力都会成为瓶颈。A few major takeaways: 几个主要收获新的最先进（前沿）模型的成本可能在 10 亿美元左右，最近的前沿模型 GPT-4 的成本约为 5 亿美元。

PinnedPinnedPrivate

whjlnspmd6.feishu.cn

大模型赛道的技术和应用分析

文章分析大模型赛道的技术与应用机会，讨论开源模型、训练与推理成本、数据质量、MoE、微调和应用落地。核心判断是，基础模型能力和行业经验正在快速扩散，创业团队不能只依赖模型包装或简单胶水层，而要在数据、评测、场景理解和可验证的商业价值上形成差异。具体模型格局具有时效性，应结合原文更新时间理解。

AI 的硬件问题

前沿模型培训报告 - LessWrong

大模型赛道的技术和应用分析