推理模型的现状 - DemoChen's Clip

提高大型语言模型的推理能力 (LLMs) 已成为 2025 年最热门的话题之一，这是有充分理由的。与仅共享最终答案的简单问答不同，推理模型要么明确显示其思维过程，要么在内部进行处理，这有助于它们在复杂任务（例如谜题、编码挑战和数学问题）中表现更好。然而，LLMs 通常旨在通过结合大量训练时间计算（大量训练或微调，通常使用强化学习或专门数据）和增加测试时间计算（允许模型“思考更长时间”或在推理期间执行额外计算）来改进推理。在这个问题中，我将重点介绍2025 年 1 月 22 日 DeepSeek R1 发布之后发布的关于扩展推理时间计算扩展的有趣的新研究论文和模型发布。例如，OpenAI 使用强化学习开发了其 o1 模型，然后又利用了推理时间计算扩展。一种方法是提示工程，例如思路链 (CoT) 提示，其中“逐步思考”等短语会引导模型生成中间推理步骤。2022 年大型语言模型中的经典 CoT 提示的一个示例是零样本推理器论文 ( 另一种方法涉及投票和搜索策略，例如多数投票或集束搜索，通过选择最佳输出来改进响应。