看看那些让ChatGPT这样的人工智能机器人听起来如此聪明的网站

让 ChatGPT 等聊天机器人显得聪明的，并不是某种真正理解世界的能力，而是海量网页文本塑造出的语言模仿能力。对 Google C4 数据集的分析显示，训练材料来自专利、百科、新闻、论坛、博客、盗版书库、选民数据库、宗教网站、极端主义社区和色情站点等复杂来源。高排名网站解释了模型为何擅长法律、媒体、软件和消费建议，也暴露出版权、隐私和偏见风险。过滤机制能删掉部分脏话和重复文本，却挡不住宣传、仇恨、阴谋论和个人信息进入训练语料。问题不只在数据规模，而在用户几乎无法追溯模型回答背后的来源。AI 的流畅表达因此既是互联网知识的压缩，也是互联网噪音和权力结构的再生产。当科技公司把训练数据越藏越深，公众就更难判断这些系统到底继承了哪些知识、偏见和未经许可的劳动成果。