PinnedPinnedPrivate
yaofu.notion.site2024 年 4 月 22 日发布 由于大多数简易网络文本(Common Crawl、Github、Arxiv ......等)已被使用殆尽,文本数据的扩展可能已达到上限。就像 AlphaGo Zero 在围棋上取得超人表现一样,自我对弈和与环境互动可能是超人生成模型的一个方向。规模游戏的第一章侧重于文本数据的规模化,在 GPT-4 中达到顶峰,在 Llama 3 中结束。LLaMA 3 70B 的一个特别之处在于,其性能远远优于同类 70B 级模型(MMLU 通常约为 70+),并进入了前沿模型体系(MMLU 为 80+)。我敢打赌,最终可能会收敛到大约 ELO 1180 的 GPT-4 0314 - 大约Claude 3 Haiku 性能(同样,相当不错)。百川技术报告中有一个很好的数据,说明了过滤对最终代币数量的影响: 应该在多大程度上保持质量和重复数据删除标准,这是一个研究问题(见 Shayne 等人、Muennighoff 等人和 Xue 等人)。