PinnedPinnedPrivate
huyenchip.com关键词:ChatGPT、RLHF、强化学习、人类反馈、NLP、AI 安全。其中一个很酷的想法是RLHF(来自人类反馈的强化学习):将强化学习和人类反馈纳入NLP。要了解RLHF,我们首先需要了解像ChatGPT这样的模型的训练过程,以及RLHF在其中的作用,这是这个问题章第一部分的重点。然后,这个怪物在更高质量的数据上进行了微调--想想StackOverflow、Quora或人类注释--这使得它在某种程度上被社会接受。然后,使用RLHF对微调后的模型进行进一步打磨,使其适合客户,例如,给它一个笑脸。""题外话:OpenAI在2017年从人类偏好中学习的论文"" 构建安全人工智能系统的一个步骤是消除人类编写目标函数的需要,因为用简单的代理来实现复杂的目标,或者把复杂的目标弄得有点错,都会导致不理想的甚至是危险的行为。Gopher的数据集(DeepMind):1万亿代币 RedPajama(一起):1.2万亿代币 LLaMa的数据集(Meta):1.4万亿个代币 这个过程中产生的模型:LLM LLM\phi):正在训练的语言模型,参数为(phi)。