培养机器人，第二部分：用RLHF进行强化学习和微调

到目前为止的故事：在本系列的上一篇文章中，我将RLHF描述为微调阶段，在这个阶段，我们赋予ML模型以道德指南针或对什么是好和坏的感觉。这些问题有很多，所以这个问题的重点是为下一期对聊天机器人道德教化的内部运作的狭义调查打下基础。从人类反馈中强化学习（RLHF）显然将人工智能的道德指南针置于第二阵营中--即一个人对 "好 "和 "坏 "的先天感觉是群体共识的直接产物，因此，从坏中学习好是一个被合适的人类群体适当地社会化的问题。道德教育是否可以简化为 "学习如何用正确的行动和语言取悦他人，以便为自己或社区获得一些利益"，或者这种类型的学习更适合称为 "修辞"，而真正的道德教育则完全是另一回事？回顾一下上一期关于监督下的微调（SFT）的内容，以便为RLHF的讨论做准备：基础模型经过训练，可以产生与输入提示有某种联系的文字、像素、视频帧等的序列，这些序列具有使它们对人类来说是合理和有意义的品质。