PinnedPinnedPrivate
martinfowler.com

LLM 应用程序开发的工程实践

它利用 AWS 服务(Transcribe、Bedrock 和 Polly)将人类语音转换为文本,通过LLM 处理输入,最后将生成的文本响应转换回语音。POC 的高级设计包括为演示目的创建基于网络的界面、转录用户的口语输入(语音转文本)、获取LLM 生成的响应(LLM 和提示工程)以及播放LLM 生成的音频响应(文本转语音)所需的所有组件和服务。测试我们的LLMs (我们应该这样做,我们做到了,而且非常棒) 在 2023 年 9 月撰写的《为什么人工测试LLMs 很难》一书中,作者与数百名使用LLMs 的工程师进行了交谈,发现人工检查是测试LLMs 的主要方法。为了帮助测试,我们要求LLM 以结构化的 JSON 格式返回响应,其中一个关键字是我们在测试中可以依赖和断言的("intent"),另一个关键字是LLM 的自然语言响应("message")。让我们通过一个需要处理 "打开 "任务的LLM 应用程序示例,来探讨基于属性的测试和自动评估器测试。