PinnedPinnedPrivate
timconnors.co我最近一直在研究网络抓取器,随着人工智能的发展,我觉得尝试构建一个 "通用 "抓取器可能会很有趣,它可以反复浏览网络,直到找到它要找的东西。对于我的网络爬虫库,我决定使用 Crawlee,它提供了一个浏览器自动化库 Playwright 的封装。Crawlee 增强了浏览器的自动化功能,使刮擦程序更容易伪装成人类用户。在这两个 API 中,我总共使用了三种不同的模型: GPT-4-Turbo 型号与最初的 GPT-4 类似,但上下文窗口更大(128k 个 token),速度更快(高达 10 倍)。(我最终使用 Azure 的 OpenAI 服务访问 GPT-4-32K,因为 OpenAI 目前限制在自己的平台上访问该模型) 我首先从我的制约因素开始倒推。由于我在引擎盖下使用的是 Playwright 爬虫,我知道如果要与页面交互,最终需要从页面中获取元素选择器。我担心文本模型在这种情况下会表现不佳,所以我想使用 GPT-4-Turbo-Vision 模型来规避这一切,它可以简单地 "查看 "渲染的页面,并从中转录最相关的文本。