PinnedPinnedPrivate
huyenchip.com

构建用于生产的LLM应用程序

把LLM应用做成演示很容易,做成生产系统很难,难点在于自然语言提示缺乏传统程序那种稳定边界。提示改一个词仍会运行,却可能输出完全不同的结果;模型生成格式不一定可解析,同一输入也可能得到不一致回答。工程上需要把提示当成可版本管理、可评估、可回归测试的资产,而不是一次性文案。少样本示例要检查模型是否真正理解,输出格式要用更明确的约束和解析策略,复杂任务应拆成更小步骤,再用控制流、SQL执行器、浏览器、API等工具组合。成本和延迟同样是生产约束:长提示在实验阶段便宜,在大规模推理时会迅速放大;输出令牌越多,响应越慢,链式思考和多次采样虽然提升可靠性,也会增加费用。生产级LLM系统需要接受一定不确定性,同时用评测集、提示追踪、温度控制、工具调用边界、失败处理和监控来压低风险。真正的LLM工程不是会写巧妙提示,而是把模糊模型放进可维护的系统里。