PinnedPinnedPrivate

LLMs 和「不」的问题

有趣的是，ChatGPT可以为自己的屡次失败给出合理的解释，比如难以理解否定。I even asked ChatGPT to generate its我甚至要求 ChatGPT 生成其 own prompt,and it responded as follows (bolding mine): 自己的提示，。但是，LLMs和否定并不是一个新问题。其他研究人员，如阿廖森-艾廷格（Allyson Ettinger）和加里-马库斯（Gary Marcus）都认为，LLMs始终无法以人类的方式理解否定。大约一个月前，加里-马库斯（Gary Marcus）写道，像 DALL-E 这样的图像生成工具一直无法理解否定，这反映出这些系统在工作方式上存在更多基础性问题。正如马库斯指出的那样，可能有一些提示符可以成功地做到这一点，但问题是ChatGPT总是无法遵从用户的指令，（他认为）这表明用户缺乏深刻的理解。

PinnedPinnedPrivate

economist.com

人工智能「大即是好」的方法已经没有路可走了

如果人工智能要继续变得更好，它将不得不以更少的资源做更多的事情说到 "大型语言模型"（llms），如gpt--它为美国研究实验室Openai制造的流行聊天机器人Chatgpt提供动力--线索就在名字里。如果Epoch ai每10个月翻一番的数字是正确的，那么到2026年，培训成本可能超过10亿美元--假设模型不会首先耗尽数据。Quantitative tightening 量化紧缩相反，研究人员开始将注意力转向使他们的模型更有效率，而不是简单的更大。华盛顿大学的研究人员发明了一种更有效的方法，使他们能够在一天之内在单个gpu上从llama创建一个新的模型，Guanaco，而不牺牲太多的性能，如果有的话。这是 "目前游戏的一个巨大部分"，开源AI公司Hugging Face的首席科学官Thomas Wolf说。Learn to code 学习编码例如，在2022年，斯坦福大学的研究人员发表了 "注意力算法 "的修改版本，它允许llms学习单词和想法之间的联系。

PinnedPinnedPrivate

rootsofprogress.org

人工智能会不可避免地寻求权力吗？

AI’s “basic drives” 人工智能的“基本驱动力” 争论是这样的。如果我们把这个推向极端，我们可以想象一个人工智能为了获取金钱和权力而欺骗人类，禁用自己的开关，像伏地魔的魂器一样在互联网上复制自己的副本，使自己独立于任何人类控制系统（例如，通过建立自己的电源），在发生暴力冲突时武装自己，如果认为其他智能体是未来的潜在威胁，则首先对其发起打击，并最终发出冯·诺依曼探测器以获取所有资源在其光锥内致力于其目的。Steve Omohundro（2008）首先提出人工智能将具有这些“基本驱动力”；针对人工智能风险的两个常见论点是：（1）人工智能只会追求我们给它的目标，（2）如果人工智能开始行为不当，我们可以简单地将其关闭并修补问题。人工智能系统的目标可能是辅导学生熟练掌握微积分、增加最新 Oculus 耳机的销量、治愈癌症或回答 P = NP 问题。

PinnedPinnedPrivate

arstechnica.com

为什么ChatGPT和Bing Chat如此善于编造故事？

因为ChatGPT和Bing Chat的核心能力不是核验事实，而是根据上下文预测最可能出现的下一个词。大型语言模型在海量文本中学习词语、概念和表达方式之间的统计关联，却不会天然区分真实记录、虚构叙述和错误说法。训练让它擅长补全空白，提示词又决定了它要沿着哪种语境继续生成，于是它可能用很顺滑的语言拼出不存在的书、论文、法律案例或人物经历。人类反馈训练可以让模型更常拒答、少胡编，但它只是给输出加约束，不等于赋予事实数据库。把它当创意伙伴时，跳跃联想可能有用；把它当权威资料源时，自信而错误的回答会带来诽谤、误导和决策风险。真正的改进需要检索、验证、责任边界和更强的真实性训练共同作用。影片里那个会说话的机器并不“知道”自己在说真话，它只是把最像答案的文本组织出来。

PinnedPinnedPrivate

newyorker.com

ChatGPT是Web的模糊JPEG

ChatGPT更像网络文本的有损压缩副本，而不是一个可靠保存原文的知识库。施乐复印机曾因使用有损压缩，把平面图里不同房间面积都替换成同一个数字；危险不在输出模糊，而在错误看起来清晰可信。大型语言模型也类似：它从海量文本中学习统计规律，把原始内容压缩成参数，回答问题时重构一个顺滑近似，而不是检索精确事实。所谓幻觉正来自这种重构：缺失的部分会被语言模式补齐，语法正确、语气自然，却可能完全虚构。压缩也解释了它的强项，模型擅长在概念之间插值，把独立宣言风格和丢袜子这种荒诞主题混合成可读段落。但压缩不等于理解，算术错误显示它常学到表面模式而非底层规则；真正的理解需要能稳定重建原理，而不是只生成像真的答案。

PinnedPinnedPrivate

every.to

AI 看起来像一泡沫

AI 看起来像泡沫，不是因为技术本身不重要，而是因为资本市场正在把“AI”当成万能溢价词。加密泡沫时，冰茶公司改名区块链就能暴涨；类似现象出现在 BuzzFeed 宣布用 OpenAI 增强测验和个性化内容后，股价短期大涨。私募市场也出现零收入 AI 公司拿到高估值的传闻。真正需要区分的是技术革命和投资回报：AI 可能改变软件、工作和社会想象，但不代表任何贴上 AI 标签的公司都能形成可持续优势。C3.ai 是警示案例。它自称企业 AI，却不掌握底层模型，也不拥有客户数据，依赖 OpenAI、Google 等实验室和 AWS、Azure 等云平台，同时又要负责最终业务结果。企业场景中最难的部分往往不是聊天界面或预测模型，而是脏数据清理、系统集成、组织支持和长期变更管理。大客户销售周期慢，投入重，衰退预期下更难推进。AI 价值链中可能有赢家，但泡沫会把计算、模型、微调、应用入口和咨询式集成都混成同一个故事。

PinnedPinnedPrivate

aisnakeoil.substack.com

ChatGPT 是废话生成器。但它仍然非常有用

ChatGPT 是废话生成器，原因在于它被训练来产出可信文本，而不是保证陈述为真。它能以法律、学术、百科或论坛回答的语气说话，形式越像权威，越容易让人忽略事实核验；Stack Overflow 很快遇到大量看似专业却错误的答案，不得不临时禁止相关生成文本。风险最高的是教育、健康、科学问答和搜索替代，因为用户往往无法立即判断对错。不过这并不意味着大型语言模型没有价值。适合它的任务有三类：用户能轻松验错的场景，比如调试提示和代码解释；真实性不是核心的创作场景，比如小说构思、风格改写和互动故事；训练语料本身包含大量对应事实的场景，比如翻译。即便如此，安全漏洞、偏见输出和错误自信仍需谨慎处理。判断这类工具的关键，不是看几个惊艳案例，而是看错误率在具体用途里是否可承受。