PinnedPinnedPrivate
hamel.dev

如何构建领域特定的LLM评估系统

构建领域特定的LLM评估系统,关键是把目标、限制和可执行步骤放在同一个框架里,而不是只追求单点技巧。我发现,不成功的产品几乎总是有一个共同的根本原因:没有建立健全的评估系统。我目前是一名独立顾问,帮助公司构建领域特定的 AI 产品。为了将这个问题与现实情况联系起来,我将通过一个案例研究来介绍我们如何构建一个快速改进的系统。案例研究:Lucy,一个房地产 AI 助手 Rechat 是一个 SaaS 应用程序,允许房地产专业人员执行各种任务,例如管理合同、搜索房源、构建创意资产、管理约会等。[]( 为了突破这个停滞期,我们创建了一个以评估为中心的系统化改进 Lucy 的方法。有三个层次的评估需要考虑: 第二层:模型和人工评估(包括调试) Level 3 Level 2 Level 1 的成本依次递增,这决定了你执行它们的节奏和方式。例如,我经常在每次代码更改时运行 Level 1 的评估,按照一定的节奏运行 Level 2,而只在重大产品变化后才运行 Level 3。