有趣的是,ChatGPT可以为自己的屡次失败给出合理的解释,比如难以理解否定。I even asked ChatGPT to generate its我甚至要求 ChatGPT 生成其 own prompt,and it responded as follows (bolding mine): 自己的提示,。但是,LLMs和否定并不是一个新问题。其他研究人员,如阿廖森-艾廷格(Allyson Ettinger)和加里-马库斯(Gary Marcus)都认为,LLMs始终无法以人类的方式理解否定。大约一个月前,加里-马库斯(Gary Marcus)写道,像 DALL-E 这样的图像生成工具一直无法理解否定,这反映出这些系统在工作方式上存在更多基础性问题。正如马库斯指出的那样,可能有一些提示符可以成功地做到这一点,但问题是ChatGPT总是无法遵从用户的指令,(他认为)这表明用户缺乏深刻的理解。
如果人工智能要继续变得更好,它将不得不以更少的资源做更多的事情 说到 "大型语言模型"(llms),如gpt--它为美国研究实验室Openai制造的流行聊天机器人Chatgpt提供动力--线索就在名字里。如果Epoch ai每10个月翻一番的数字是正确的,那么到2026年,培训成本可能超过10亿美元--假设模型不会首先耗尽数据。Quantitative tightening 量化紧缩 相反,研究人员开始将注意力转向使他们的模型更有效率,而不是简单的更大。华盛顿大学的研究人员发明了一种更有效的方法,使他们能够在一天之内在单个gpu上从llama创建一个新的模型,Guanaco,而不牺牲太多的性能,如果有的话。这是 "目前游戏的一个巨大部分",开源AI公司Hugging Face的首席科学官Thomas Wolf说。Learn to code 学习编码 例如,在2022年,斯坦福大学的研究人员发表了 "注意力算法 "的修改版本,它允许llms学习单词和想法之间的联系。
AI’s “basic drives” 人工智能的“基本驱动力” 争论是这样的。如果我们把这个推向极端,我们可以想象一个人工智能为了获取金钱和权力而欺骗人类,禁用自己的开关,像伏地魔的魂器一样在互联网上复制自己的副本,使自己独立于任何人类控制系统(例如,通过建立自己的电源),在发生暴力冲突时武装自己,如果认为其他智能体是未来的潜在威胁,则首先对其发起打击,并最终发出冯·诺依曼探测器以获取所有资源在其光锥内致力于其目的。Steve Omohundro(2008)首先提出人工智能将具有这些“基本驱动力”;针对人工智能风险的两个常见论点是:(1)人工智能只会追求我们给它的目标,(2)如果人工智能开始行为不当,我们可以简单地将其关闭并修补问题。人工智能系统的目标可能是辅导学生熟练掌握微积分、增加最新 Oculus 耳机的销量、治愈癌症或回答 P = NP 问题。
因为ChatGPT和Bing Chat的核心能力不是核验事实,而是根据上下文预测最可能出现的下一个词。大型语言模型在海量文本中学习词语、概念和表达方式之间的统计关联,却不会天然区分真实记录、虚构叙述和错误说法。训练让它擅长补全空白,提示词又决定了它要沿着哪种语境继续生成,于是它可能用很顺滑的语言拼出不存在的书、论文、法律案例或人物经历。人类反馈训练可以让模型更常拒答、少胡编,但它只是给输出加约束,不等于赋予事实数据库。把它当创意伙伴时,跳跃联想可能有用;把它当权威资料源时,自信而错误的回答会带来诽谤、误导和决策风险。真正的改进需要检索、验证、责任边界和更强的真实性训练共同作用。影片里那个会说话的机器并不“知道”自己在说真话,它只是把最像答案的文本组织出来。
ChatGPT更像网络文本的有损压缩副本,而不是一个可靠保存原文的知识库。施乐复印机曾因使用有损压缩,把平面图里不同房间面积都替换成同一个数字;危险不在输出模糊,而在错误看起来清晰可信。大型语言模型也类似:它从海量文本中学习统计规律,把原始内容压缩成参数,回答问题时重构一个顺滑近似,而不是检索精确事实。所谓幻觉正来自这种重构:缺失的部分会被语言模式补齐,语法正确、语气自然,却可能完全虚构。压缩也解释了它的强项,模型擅长在概念之间插值,把独立宣言风格和丢袜子这种荒诞主题混合成可读段落。但压缩不等于理解,算术错误显示它常学到表面模式而非底层规则;真正的理解需要能稳定重建原理,而不是只生成像真的答案。
AI 看起来像泡沫,不是因为技术本身不重要,而是因为资本市场正在把“AI”当成万能溢价词。加密泡沫时,冰茶公司改名区块链就能暴涨;类似现象出现在 BuzzFeed 宣布用 OpenAI 增强测验和个性化内容后,股价短期大涨。私募市场也出现零收入 AI 公司拿到高估值的传闻。真正需要区分的是技术革命和投资回报:AI 可能改变软件、工作和社会想象,但不代表任何贴上 AI 标签的公司都能形成可持续优势。C3.ai 是警示案例。它自称企业 AI,却不掌握底层模型,也不拥有客户数据,依赖 OpenAI、Google 等实验室和 AWS、Azure 等云平台,同时又要负责最终业务结果。企业场景中最难的部分往往不是聊天界面或预测模型,而是脏数据清理、系统集成、组织支持和长期变更管理。大客户销售周期慢,投入重,衰退预期下更难推进。AI 价值链中可能有赢家,但泡沫会把计算、模型、微调、应用入口和咨询式集成都混成同一个故事。
ChatGPT 是废话生成器,原因在于它被训练来产出可信文本,而不是保证陈述为真。它能以法律、学术、百科或论坛回答的语气说话,形式越像权威,越容易让人忽略事实核验;Stack Overflow 很快遇到大量看似专业却错误的答案,不得不临时禁止相关生成文本。风险最高的是教育、健康、科学问答和搜索替代,因为用户往往无法立即判断对错。不过这并不意味着大型语言模型没有价值。适合它的任务有三类:用户能轻松验错的场景,比如调试提示和代码解释;真实性不是核心的创作场景,比如小说构思、风格改写和互动故事;训练语料本身包含大量对应事实的场景,比如翻译。即便如此,安全漏洞、偏见输出和错误自信仍需谨慎处理。判断这类工具的关键,不是看几个惊艳案例,而是看错误率在具体用途里是否可承受。