ChatGPT是Web的模糊JPEG - DemoChen's Clip

ChatGPT更像网络文本的有损压缩副本，而不是一个可靠保存原文的知识库。施乐复印机曾因使用有损压缩，把平面图里不同房间面积都替换成同一个数字；危险不在输出模糊，而在错误看起来清晰可信。大型语言模型也类似：它从海量文本中学习统计规律，把原始内容压缩成参数，回答问题时重构一个顺滑近似，而不是检索精确事实。所谓幻觉正来自这种重构：缺失的部分会被语言模式补齐，语法正确、语气自然，却可能完全虚构。压缩也解释了它的强项，模型擅长在概念之间插值，把独立宣言风格和丢袜子这种荒诞主题混合成可读段落。但压缩不等于理解，算术错误显示它常学到表面模式而非底层规则；真正的理解需要能稳定重建原理，而不是只生成像真的答案。 https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web