PinnedPinnedPrivate
jonstokes.com

对机器人进行教理问答,第 1 部分:基础模型和微调

这种采用预先训练的基础模型并为它们注入价值观、道德和政治的业务,无疑是整个 AI 努力中最具争议和政治敏感性的部分。或者,用我的 RETURN 同事 James Poulos 的话来说,我们可以说这是对模型进行教理问答的地方——这是对他们进行道德教育的地方。我们现在使用的大型语言模型,尤其是来自 OpenAI、Google 和 Anthropic 的模型,都有一个重要的共同点:它们都经历了一系列训练后的微调阶段,使人类更容易理解它们使用,但要付出代价。当您将相同的文本放入 GPT-4 的基础模型时,它进入模型时完全没有任何此类解释性线索和线索。” “首先确保汽车安全地离开路肩并远离交通……” 换句话说,当提示包含一个没有上下文线索可以指导解释的直接问题时,实际上根本没有理由让基础模型假设最合适的输出是提示问题的答案。♂️ 基础模型如果要知道如何回答,要么需要在问题旁边添加更多信息,要么需要进一步训练以假设最适合直接问题的输出是直接答案。