PinnedPinnedPrivate
magazine.sebastianraschka.com

如何理解推理模型?

理解推理模型,关键是把目标、限制和可执行步骤放在同一个框架里,而不是只追求单点技巧。因此,今天当我们提及推理模型时,我们通常指的是擅长完成更复杂推理任务的 LLMs ,例如解决谜题、谜语和数学证明。其次,某些推理LLMs(例如 OpenAI 的 o1)会进行多次迭代,中间步骤不会显示给用户。研究小组在 R1-Zero 模型 "冷启动 "的基础上,通过增加 SFT 阶段和进一步的 RL 训练,进一步完善了该模型。(3) DeepSeek-R1-Distill\:DeepSeek 团队利用前几步生成的 SFT 数据,对 Qwen 和 Llama 模型进行了微调,以提高它们的推理能力。在本节中,我将概述目前用于增强 LLMs 的推理能力以及构建 DeepSeek-R1、OpenAI 的 o1 和 o3 等专用推理模型的关键技术。2022 Large Language Models are Zero-Shot Reasoners》一文中的一个经典 CoT 提示示例 ( 上述 CoT 方法可视为推理时间扩展,因为它通过生成更多的输出标记来增加推理的成本。