如何理解推理模型？

理解推理模型，关键是把目标、限制和可执行步骤放在同一个框架里，而不是只追求单点技巧。因此，今天当我们提及推理模型时，我们通常指的是擅长完成更复杂推理任务的 LLMs ，例如解决谜题、谜语和数学证明。其次，某些推理LLMs（例如 OpenAI 的 o1）会进行多次迭代，中间步骤不会显示给用户。研究小组在 R1-Zero 模型 "冷启动 "的基础上，通过增加 SFT 阶段和进一步的 RL 训练，进一步完善了该模型。(3) DeepSeek-R1-Distill\：DeepSeek 团队利用前几步生成的 SFT 数据，对 Qwen 和 Llama 模型进行了微调，以提高它们的推理能力。在本节中，我将概述目前用于增强 LLMs 的推理能力以及构建 DeepSeek-R1、OpenAI 的 o1 和 o3 等专用推理模型的关键技术。2022 Large Language Models are Zero-Shot Reasoners》一文中的一个经典 CoT 提示示例 ( 上述 CoT 方法可视为推理时间扩展，因为它通过生成更多的输出标记来增加推理的成本。