RLHF: 从人类反馈中强化学习

关键词：ChatGPT、RLHF、强化学习、人类反馈、NLP、AI 安全。其中一个很酷的想法是RLHF（来自人类反馈的强化学习）：将强化学习和人类反馈纳入NLP。要了解RLHF，我们首先需要了解像ChatGPT这样的模型的训练过程，以及RLHF在其中的作用，这是这个问题章第一部分的重点。然后，这个怪物在更高质量的数据上进行了微调--想想StackOverflow、Quora或人类注释--这使得它在某种程度上被社会接受。然后，使用RLHF对微调后的模型进行进一步打磨，使其适合客户，例如，给它一个笑脸。""题外话：OpenAI在2017年从人类偏好中学习的论文"" 构建安全人工智能系统的一个步骤是消除人类编写目标函数的需要，因为用简单的代理来实现复杂的目标，或者把复杂的目标弄得有点错，都会导致不理想的甚至是危险的行为。Gopher的数据集（DeepMind）：1万亿代币 RedPajama（一起）：1.2万亿代币 LLaMa的数据集（Meta）：1.4万亿个代币这个过程中产生的模型：LLM LLM\phi）：正在训练的语言模型，参数为(phi)。