什么时候可以相信模型评估？

什么时候可以相信模型评估不能只看表面答案，真正重要的是理解问题背后的机制、边界和现实代价。如果我们认为下一个模型在试图引发灾难时可能会造成灾难，那么就对该模型是否会试图引发灾难进行大量的对齐评估：如果我们相信对齐评估的缩放规律，相信下一个模型会对齐，不会试图造成灾难，那么训练就没问题。通过模型编写的评估发现语言模型行为" paper. 目前的大多数评估都属于这一类，例如我们的 "用模型编写的评估发现语言模型行为 "论文。例如，评估模型在 SAT 考试中的表现属于能力评估，而评估模型越狱的难易程度则属于排列评估。参见此处的 "有条件叛逃). 保罗-克里斯蒂亚诺（Paul Christiano）在这方面的经典案例是一个寻找 RSA-2048 因式分解的模型（参见此处的 "条件变节"）。因此，要使行为非微调评估值得信赖，你必须相信--出于某种与你进行的行为非微调评估无关的原因--模型并没有试图在你的评估中做手脚。