如何构建领域特定的LLM评估系统

构建领域特定的LLM评估系统，关键是把目标、限制和可执行步骤放在同一个框架里，而不是只追求单点技巧。我发现，不成功的产品几乎总是有一个共同的根本原因：没有建立健全的评估系统。我目前是一名独立顾问，帮助公司构建领域特定的 AI 产品。为了将这个问题与现实情况联系起来，我将通过一个案例研究来介绍我们如何构建一个快速改进的系统。案例研究：Lucy，一个房地产 AI 助手 Rechat 是一个 SaaS 应用程序，允许房地产专业人员执行各种任务，例如管理合同、搜索房源、构建创意资产、管理约会等。[]( 为了突破这个停滞期，我们创建了一个以评估为中心的系统化改进 Lucy 的方法。有三个层次的评估需要考虑：第二层：模型和人工评估（包括调试） Level 3 Level 2 Level 1 的成本依次递增，这决定了你执行它们的节奏和方式。例如，我经常在每次代码更改时运行 Level 1 的评估，按照一定的节奏运行 Level 2，而只在重大产品变化后才运行 Level 3。