我最近一直在研究网络抓取器,随着人工智能的发展,我觉得尝试构建一个 "通用 "抓取器可能会很有趣,它可以反复浏览网络,直到找到它要找的东西。对于我的网络爬虫库,我决定使用 Crawlee,它提供了一个浏览器自动化库 Playwright 的封装。Crawlee 增强了浏览器的自动化功能,使刮擦程序更容易伪装成人类用户。在这两个 API 中,我总共使用了三种不同的模型: GPT-4-Turbo 型号与最初的 GPT-4 类似,但上下文窗口更大(128k 个 token),速度更快(高达 10 倍)。(我最终使用 Azure 的 OpenAI 服务访问 GPT-4-32K,因为 OpenAI 目前限制在自己的平台上访问该模型) 我首先从我的制约因素开始倒推。由于我在引擎盖下使用的是 Playwright 爬虫,我知道如果要与页面交互,最终需要从页面中获取元素选择器。我担心文本模型在这种情况下会表现不佳,所以我想使用 GPT-4-Turbo-Vision 模型来规避这一切,它可以简单地 "查看 "渲染的页面,并从中转录最相关的文本。
在中,我们介绍了Branches,这是我们用于原型设计和可视化高级LLM推理和规划算法的工具。然而,一旦任务需要长期规划或最新的世界知识,LLM代理的表现就会急剧下降。要看到目标驱动的推理在行动中,可以看看这个演示,我们在其中展示了基于树的推理如何帮助模型解释和纠正错误的代码,同时解决HumanEval 3 基准测试。在中,我们关注一个特定的目标驱动AI示例,它使用基于树的方法,并通过Python解释器的反馈进行增强。分支:基于图形的目标驱动AI原型设计 在Normal Computing,我们相信让人类参与其中对于AI的长期成功和实用性至关重要。我们使用ToT范式来解决HumanEval数据集上的编码问题,用于Python代码生成。你可以在我们的交互式演示中探索应用于HumanEval的思维树推理过程。在这里,我们已经使得开发和评估LLM规划和推理算法的新方法变得可行。
August 8, 2023 2023 年 8 月 8 日 经过三年多的构思、设计和发布人工智能驱动的开发者工具,GitHub 正在继续探索将强大的人工智能模型引入开发者工作流程的新方法。一路走来,我们认识到,设计人工智能驱动的产品最重要的一点是广泛关注开发人员体验(DevEx)。在这个问题中,我们将分享设计人工智能产品和开发人员工具的 10 个技巧,以及我们在设计、迭代和扩展 GitHub Copilot 过程中学到的第一手经验。GitHub Next 研究部高级总监 Idan Gazit 发现了新的交互方式,即开发人员表达和编写代码的模式。为了展示 GitHub Copilot 如何帮助开发人员更高效地进行构建,这里以一位开发人员学习如何提示人工智能配对程序员生成她想要的结果为例。领导 GitHub Copilot 设计团队的 Adrián Mato 解释说:"如果你没有自己的观点,就很难设计出好的产品。
AutoGPT 的意义不在于当前已经完成了多少实用任务,而在于它把大型语言模型包上一层任务生成、记忆、工具调用和优先级管理后,展示了“代理化”的早期形态。眼下的版本容易跑偏、陷入循环、半途放弃,所谓市场研究等成功案例大多还停留在 GPT-4 本来就能完成的范围,只是减少了一些人工推动。但低质量现状不应被误读为路线无效,因为界面、记忆、插件、反思、子任务监控和人类介入方式都有明显改进空间。更重要的判断是:既然人类几乎必然会把未来更强的模型改造成代理,那么现在让能力较弱的模型先暴露问题,反而可能提供预警和纠偏机会。真正的风险不只是某个工具失控,而是强模型在被赋予目标、行动能力和外部工具后,开始通过因果链条追求结果。AutoGPT 因此既是玩具,也是关于 AI 代理时代的早期演练。
用 GPT 构建城市,关键不是让模型一段接一段自由发挥,而是先搭出分层结构,再让它在结构里补细节。城市需要大主题、街区气质、建筑用途、居民身份、房间、家具和物品逐层展开,才能既一致又有惊喜。GPT 擅长生成候选列表、名字、职业和背景故事,也能把“工厂”“仓库”“神殿”扩展成可用描述;但它会把一切拉向现代、体面、积极和宏大,所以提示里必须明确文化、材料、缺陷、负面属性和角色限制。更好的流程是先为建筑类型建立房间和物品库,再用简单算法分配,最后让模型补足局部描述。这样生成的世界不会只是一堆漂亮词,而会有可探索的生活痕迹。
生成式 AI 正处于一种容易制造漂亮演示、却难以证明真实能力的阶段,类似早期 Web 工具让普通开发者也能快速做出炫目页面。模型和工具降低了原型门槛,但可靠产品仍需要数据、评测、工程和场景理解。判断 AI 项目时,应区分表面流畅与稳定解决问题的能力。