PinnedPinnedPrivate
lesswrong.com

什么时候可以相信模型评估?

什么时候可以相信模型评估不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。如果我们认为下一个模型在试图引发灾难时可能会造成灾难,那么就对该模型是否会试图引发灾难进行大量的对齐评估: 如果我们相信对齐评估的缩放规律,相信下一个模型会对齐,不会试图造成灾难,那么训练就没问题。通过模型编写的评估发现语言模型行为" paper. 目前的大多数评估都属于这一类,例如我们的 "用模型编写的评估发现语言模型行为 "论文。例如,评估模型在 SAT 考试中的表现属于能力评估,而评估模型越狱的难易程度则属于排列评估。参见此处的 "有条件叛逃). 保罗-克里斯蒂亚诺(Paul Christiano)在这方面的经典案例是一个寻找 RSA-2048 因式分解的模型(参见此处的 "条件变节")。因此,要使行为非微调评估值得信赖,你必须相信--出于某种与你进行的行为非微调评估无关的原因--模型并没有试图在你的评估中做手脚。