人工智能

前沿模型培训报告 - LessWrong

Acknowledgements 致谢我要感谢以下人士的反馈、建议和讨论：詹姆斯-布拉德伯里，谷歌 DeepMind 软件工程师本杰明-埃德尔曼，哈佛大学博士候选人 Horace He，。Contra FLOPs 反向 FLOP 认为衡量 ML 计算能力的最常用指标--浮点运算--是有缺陷的，因为不同类型浮点数的增加使得标准化变得困难，而且处理能力的成本只占 ML 成本的一小部分。ML Parallelism ML 并行性对 ML 并行性技术进行概述，说明 "ML 并行性令人尴尬 "这一常见概念是如何被简单化的，以及在大规模情况下是如何被打破的--在大规模情况下，任何简单的模型并行化方法都会开始遇到瓶颈，因为无论涉及多少设备，单个设备的能力都会成为瓶颈。A few major takeaways: 几个主要收获新的最先进（前沿）模型的成本可能在 10 亿美元左右，最近的前沿模型 GPT-4 的成本约为 5 亿美元。

PinnedPinnedPrivate

whjlnspmd6.feishu.cn

大模型赛道的技术和应用分析

文章分析大模型赛道的技术与应用机会，讨论开源模型、训练与推理成本、数据质量、MoE、微调和应用落地。核心判断是，基础模型能力和行业经验正在快速扩散，创业团队不能只依赖模型包装或简单胶水层，而要在数据、评测、场景理解和可验证的商业价值上形成差异。具体模型格局具有时效性，应结合原文更新时间理解。

PinnedPinnedPrivate

appblit.com

Anthropic CEO 谈Claude、AGI 以及人工智能和人类的未来

达里奥·阿莫代把 Anthropic 面对的核心问题放在规模化与安全治理之间：更大的模型、更多数据和更长训练曾持续推高能力，反对规模化的理由也多次被新方法绕过，因此未来几年仍可能出现接近博士水平、可大规模部署的系统。真正的风险不只在模型更聪明，而在权力被少数组织集中后可能放大滥用和社会伤害。围绕 Claude 的对齐工作，则落在性格设计、微调、可解释性和欺骗检测上；Chris Olah 的机械可解释性尝试从神经激活反推模型内部机制，Amanda Askell 关注怎样让 Claude 更可靠、更有边界。这组对话把 AGI 讨论从概念拉回工程现实：能力曲线、部署规模、组织责任和安全研究必须同时推进。

PinnedPinnedPrivate

appblit.com

Sam Altman：OpenAI、GPT-5、Sora、Board Saga、Elon Musk、Ilya、Power & AGI

萨姆讨论了 OpenAI 董事会传奇、伊利亚-苏茨克沃（Ilya Sutskever）、埃隆-马斯克（Elon Musk）诉讼、索拉（Sora）、GPT-4、内存与隐私以及 AGI。以下是与萨姆-阿尔特曼（Sam Altman）的对话，这是他第二次参加播客。他是 OpenAI 的首席执行官，OpenAI 是 GPT-4、ChatGPT、Sora 的幕后公司，也许有一天，这家公司就会打造出 AGI。带我回顾一下从 11 月 16 日星期四，也许是 11 月 17 日星期五开始的 OpenAI 董事会事件。我认为，从 OpenAI 启动到我们创建 AGI 之间的某个时间点，一定会发生一些疯狂和爆炸性的事情，但可能还会有更多疯狂和爆炸性的事情发生。好吧，回到那里，反思董事会结构、权力动态、公司运作方式、研究与产品开发之间的紧张关系、金钱和所有这些东西，还是很有帮助的，这样你就有很大可能在未来以一种稍微更有组织、不那么戏剧化的方式建造 AGI。

PinnedPinnedPrivate

medium.com

设计的背后：认识Copilot

打造下一代的用户体验作者：Jon Friedman和Kurtis Beavers 看一下微软365应用程序的新Copilot体验经过多年稳定但渐进的创新，正在出现的技术将产生真正的巨变。乍一看，大型语言模型--像OpenAI的ChatGPT或DALL-E这样的下一代人工智能背后的技术--似乎是最终适应人类的用户界面的可能性所缺少的一块。3月16日，我们宣布了Microsoft 365 Copilot--你的工作副驾驶。Copilot将大型语言模型（LLMs）的力量与你在Microsoft Graph和Microsoft 365应用程序中的数据--你的日历、电子邮件、聊天记录、文档、会议等--结合起来，将你的话语变成这个星球上最强大的生产力工具。Copilot是对话式用户体验的先驱，这是用户界面设计的一个新领域，就像第一个触屏设备一样改变了范式。对于Copilot，我们重新思考了从视觉识别到交互设计的一切，因为我们旨在创造一个真正有价值的用户体验。

PinnedPinnedPrivate

a16z.com

对于B2B生成型人工智能应用来说，少就是多吗？

对于B2B生成式人工智能应用，少往往比多更有价值。第一波应用擅长发散信息，能生成广告文案、冷邮件、草稿和头脑风暴材料，但在企业场景中，真正被衡量的是决策质量、准确性和工作流效率，而不是产出字数。越是涉及法律、销售、产品发布或专业判断，模型生成的长文本越需要人重新研究、校对和改写，额外步骤可能抵消效率。下一波机会在于综合信息：从会议记录、客户反馈、销售线索、支持工单、财报和新闻中提炼少量关键判断，帮助人更快做决定。理想形态不是用短提示生成长回答，而是把海量资料压缩成可行动的洞察。护城河也会从通用模型能力转向专有数据、特定领域模型和嵌入工作流的能力。胜负不取决于谁的演示更炫，而取决于谁能拥有并改善企业每天必须完成的关键流程。

PinnedPinnedPrivate

timconnors.co

构建通用AI爬虫

我最近一直在研究网络抓取器，随着人工智能的发展，我觉得尝试构建一个 "通用 "抓取器可能会很有趣，它可以反复浏览网络，直到找到它要找的东西。对于我的网络爬虫库，我决定使用 Crawlee，它提供了一个浏览器自动化库 Playwright 的封装。Crawlee 增强了浏览器的自动化功能，使刮擦程序更容易伪装成人类用户。在这两个 API 中，我总共使用了三种不同的模型： GPT-4-Turbo 型号与最初的 GPT-4 类似，但上下文窗口更大（128k 个 token），速度更快（高达 10 倍）。(我最终使用 Azure 的 OpenAI 服务访问 GPT-4-32K，因为 OpenAI 目前限制在自己的平台上访问该模型）我首先从我的制约因素开始倒推。由于我在引擎盖下使用的是 Playwright 爬虫，我知道如果要与页面交互，最终需要从页面中获取元素选择器。我担心文本模型在这种情况下会表现不佳，所以我想使用 GPT-4-Turbo-Vision 模型来规避这一切，它可以简单地 "查看 "渲染的页面，并从中转录最相关的文本。

PinnedPinnedPrivate

blog.normalcomputing.ai

使用LLMs开发高级推理和规划算法

在中，我们介绍了Branches，这是我们用于原型设计和可视化高级LLM推理和规划算法的工具。然而，一旦任务需要长期规划或最新的世界知识，LLM代理的表现就会急剧下降。要看到目标驱动的推理在行动中，可以看看这个演示，我们在其中展示了基于树的推理如何帮助模型解释和纠正错误的代码，同时解决HumanEval 3 基准测试。在中，我们关注一个特定的目标驱动AI示例，它使用基于树的方法，并通过Python解释器的反馈进行增强。分支：基于图形的目标驱动AI原型设计在Normal Computing，我们相信让人类参与其中对于AI的长期成功和实用性至关重要。我们使用ToT范式来解决HumanEval数据集上的编码问题，用于Python代码生成。你可以在我们的交互式演示中探索应用于HumanEval的思维树推理过程。在这里，我们已经使得开发和评估LLM规划和推理算法的新方法变得可行。

PinnedPinnedPrivate

github.blog

设计和发布人工智能开发者工具指南

August 8, 2023 2023 年 8 月 8 日经过三年多的构思、设计和发布人工智能驱动的开发者工具，GitHub 正在继续探索将强大的人工智能模型引入开发者工作流程的新方法。一路走来，我们认识到，设计人工智能驱动的产品最重要的一点是广泛关注开发人员体验（DevEx）。在这个问题中，我们将分享设计人工智能产品和开发人员工具的 10 个技巧，以及我们在设计、迭代和扩展 GitHub Copilot 过程中学到的第一手经验。GitHub Next 研究部高级总监 Idan Gazit 发现了新的交互方式，即开发人员表达和编写代码的模式。为了展示 GitHub Copilot 如何帮助开发人员更高效地进行构建，这里以一位开发人员学习如何提示人工智能配对程序员生成她想要的结果为例。领导 GitHub Copilot 设计团队的 Adrián Mato 解释说："如果你没有自己的观点，就很难设计出好的产品。

PinnedPinnedPrivate

关于AutoGPT - LessWrong

AutoGPT 的意义不在于当前已经完成了多少实用任务，而在于它把大型语言模型包上一层任务生成、记忆、工具调用和优先级管理后，展示了“代理化”的早期形态。眼下的版本容易跑偏、陷入循环、半途放弃，所谓市场研究等成功案例大多还停留在 GPT-4 本来就能完成的范围，只是减少了一些人工推动。但低质量现状不应被误读为路线无效，因为界面、记忆、插件、反思、子任务监控和人类介入方式都有明显改进空间。更重要的判断是：既然人类几乎必然会把未来更强的模型改造成代理，那么现在让能力较弱的模型先暴露问题，反而可能提供预警和纠偏机会。真正的风险不只是某个工具失控，而是强模型在被赋予目标、行动能力和外部工具后，开始通过因果链条追求结果。AutoGPT 因此既是玩具，也是关于 AI 代理时代的早期演练。

PinnedPinnedPrivate

ianbicking.org

使用 GPT 构建世界

用 GPT 构建城市，关键不是让模型一段接一段自由发挥，而是先搭出分层结构，再让它在结构里补细节。城市需要大主题、街区气质、建筑用途、居民身份、房间、家具和物品逐层展开，才能既一致又有惊喜。GPT 擅长生成候选列表、名字、职业和背景故事，也能把“工厂”“仓库”“神殿”扩展成可用描述；但它会把一切拉向现代、体面、积极和宏大，所以提示里必须明确文化、材料、缺陷、负面属性和角色限制。更好的流程是先为建筑类型建立房间和物品库，再用简单算法分配，最后让模型补足局部描述。这样生成的世界不会只是一堆漂亮词，而会有可探索的生活痕迹。

PinnedPinnedPrivate

vintagedata.org

模型即产品

在过去几周中，我们已经看到了新一代模型作为产品的两个典型示例：OpenAI 的 DeepResearch 和 Claude Sonnet 3.7。正如 Hanchung Lee所强调的那样，所有其他 DeepSearch（包括 Perplexity 和 Google 变体）都只是普通模型，只是有一些变化： Google 的 Gemini 和 Perplexity 的聊天助手也提供“深度研究”功能，。我们在 Claude 3.7 的发布中对此进行了非常具体的展示，该模型主要针对复杂的代码用例进行训练。简而言之，Claude 的目标是颠覆和取代当前的工作流程，比如 llama index 中的这个基本“代理”系统： With this: 有了这个：重申一下：大型实验室的推进并非隐藏议程。Databricks 的 Gen AI 副总裁 Naveen Rao对此进行了很好的阐述：所有封闭式 AI 模型提供商将在未来 2-3 年内停止销售 API。

PinnedPinnedPrivate

wired.com

Perplexity 的秘密

考虑到 Perplexity 的雄心壮志以及它从 Jeff Bezos 的家庭基金、Nvidia 和著名投资者 Balaji Srinivasan 等人那里获得的投资，令人惊讶的是，这家人工智能搜索初创公司究竟是什么，目前仍然不太清楚。今年早些时候，Perplexity 的首席执行官 Aravind Srinivas 在接受《WIRED》采访时描述了他的产品——一款聊天机器人，可以用自然语言回答提示，并且据公司称，可以实时访问互联网——称其为“答案引擎”。”最近，当《福布斯》指责 Perplexity 剽窃其内容时，Srinivas 告诉美联社，这只是一个“信息聚合器”。一项 WIRED 分析和开发者 Robb Knight 进行的研究表明，Perplexity 似乎通过部分忽略一个被广泛接受的网页标准，即机器人排除协议，来秘密地抓取网站上运营商不希望机器人访问的区域，尽管声称不会这样做。

PinnedPinnedPrivate

nature.com

ChatGPT 一周年：谁在使用、如何使用、为什么使用？

就我而言，我使用 ChatGPT 主要是为了帮助改写不同风格的内容--例如，让科学更适合普通读者，或者为财务人员归纳我的研究。ABEBA BIRHANE：考虑一下是否应该使用它认知科学家 Abeba Birhane.Credit: Piquant 现在，法学硕士已成为主流，许多学者都感受到了压力，他们必须加入到这一行列中来，否则就会被视为错失良机。今年 1 月，我的联系人罗布-列侬（Rob Lennon）一直在尝试使用提示功能，他在 X（Twitter 的前身，见 go.nature.com/3teexb1）上写了一篇关于如何将聊天机器人最好地用于商业目的的文章。例如，可以为一门课程创建一个自定义 ChatGPT，要求它始终根据所提供的课程材料来回答问题。

PinnedPinnedPrivate

a16z.com

消费者如何使用生成式人工智能？

但是，除了 ChatGPT 之外，消费者是如何与生成式人工智能（GenAI）产品互动的？大多数领先产品都是围绕生成式人工智能 "从头开始 "打造的与 ChatGPT 一样，这份榜单上的大多数产品在一年前都不存在--这些网站中有 80% 都是新网站。在上榜的 50 家公司中，只有 5 家是原有大型科技公司的产品或被其收购：Bard（谷歌）、Poe（Quora）、QuillBot（Course Hero）、Pixlr（123RF）和Clipchamp（微软）。特别是在移动端，CharacterAI 是早期最强大的参与者之一--根据 Sensor Tower 的数据，其 DAUs 可与 ChatGPT 相媲美，而且留存率明显更高。不过，近几个月来，另外两类工具也开始得到大量使用--人工智能伴侣（如 CharacterAI）和内容生成工具（如 Midjourney 和 ElevenLabs）。

PinnedPinnedPrivate

minimaxir.com

ChatGPT的API如此之好，如此之便宜，让大多数文本生成的人工智能都过时

低价且易用的 ChatGPT API 显著降低了文本生成能力的接入成本，使许多仅靠包装通用生成模型的产品失去差异化。文章用简单程序展示 API 如何快速构建角色对话，并讨论价格变化对应用生态的影响。具体模型和价格已经具有时效性，长期结论是基础能力商品化会迫使产品寻找数据、流程和用户价值壁垒。

PinnedPinnedPrivate

CHAT堆栈、GPT-4和软件的近期前景

CHAT 栈说明，许多基于 GPT-4 的应用并不需要把专有数据重新训练进模型。更现实的做法是让应用在模型外部维护聊天历史和上下文数据库：用户提出问题后，系统先用相关性搜索从私有资料中找出最有用的片段，再把用户问题、近期对话和这些片段一起放进模型的 token 窗口，由模型基于临时上下文生成回答。这样，SaaS 客服、企业知识库、新员工入职、个人写作档案问答，都能在不昂贵训练模型的前提下拥有“懂业务数据”的聊天界面。关键持久状态有两类：消息历史保存交互脉络，上下文库保存可检索资料；嵌入和向量数据库会帮助在有限 token 中放入最相关的信息。聊天界面的风险也来自同一结构：模型先前的输出会进入后续输入，用户不断引入新变量，使行为难以在上线前穷尽测试。软件近期变化的核心，将是事件流、检索和大模型推理的结合。

PinnedPinnedPrivate

seantrott.substack.com

LLMs 和「不」的问题

有趣的是，ChatGPT可以为自己的屡次失败给出合理的解释，比如难以理解否定。I even asked ChatGPT to generate its我甚至要求 ChatGPT 生成其 own prompt,and it responded as follows (bolding mine): 自己的提示，。但是，LLMs和否定并不是一个新问题。其他研究人员，如阿廖森-艾廷格（Allyson Ettinger）和加里-马库斯（Gary Marcus）都认为，LLMs始终无法以人类的方式理解否定。大约一个月前，加里-马库斯（Gary Marcus）写道，像 DALL-E 这样的图像生成工具一直无法理解否定，这反映出这些系统在工作方式上存在更多基础性问题。正如马库斯指出的那样，可能有一些提示符可以成功地做到这一点，但问题是ChatGPT总是无法遵从用户的指令，（他认为）这表明用户缺乏深刻的理解。

PinnedPinnedPrivate

economist.com

人工智能「大即是好」的方法已经没有路可走了

如果人工智能要继续变得更好，它将不得不以更少的资源做更多的事情说到 "大型语言模型"（llms），如gpt--它为美国研究实验室Openai制造的流行聊天机器人Chatgpt提供动力--线索就在名字里。如果Epoch ai每10个月翻一番的数字是正确的，那么到2026年，培训成本可能超过10亿美元--假设模型不会首先耗尽数据。Quantitative tightening 量化紧缩相反，研究人员开始将注意力转向使他们的模型更有效率，而不是简单的更大。华盛顿大学的研究人员发明了一种更有效的方法，使他们能够在一天之内在单个gpu上从llama创建一个新的模型，Guanaco，而不牺牲太多的性能，如果有的话。这是 "目前游戏的一个巨大部分"，开源AI公司Hugging Face的首席科学官Thomas Wolf说。Learn to code 学习编码例如，在2022年，斯坦福大学的研究人员发表了 "注意力算法 "的修改版本，它允许llms学习单词和想法之间的联系。

PinnedPinnedPrivate

rootsofprogress.org

人工智能会不可避免地寻求权力吗？

AI’s “basic drives” 人工智能的“基本驱动力” 争论是这样的。如果我们把这个推向极端，我们可以想象一个人工智能为了获取金钱和权力而欺骗人类，禁用自己的开关，像伏地魔的魂器一样在互联网上复制自己的副本，使自己独立于任何人类控制系统（例如，通过建立自己的电源），在发生暴力冲突时武装自己，如果认为其他智能体是未来的潜在威胁，则首先对其发起打击，并最终发出冯·诺依曼探测器以获取所有资源在其光锥内致力于其目的。Steve Omohundro（2008）首先提出人工智能将具有这些“基本驱动力”；针对人工智能风险的两个常见论点是：（1）人工智能只会追求我们给它的目标，（2）如果人工智能开始行为不当，我们可以简单地将其关闭并修补问题。人工智能系统的目标可能是辅导学生熟练掌握微积分、增加最新 Oculus 耳机的销量、治愈癌症或回答 P = NP 问题。

PinnedPinnedPrivate

arstechnica.com

为什么ChatGPT和Bing Chat如此善于编造故事？

因为ChatGPT和Bing Chat的核心能力不是核验事实，而是根据上下文预测最可能出现的下一个词。大型语言模型在海量文本中学习词语、概念和表达方式之间的统计关联，却不会天然区分真实记录、虚构叙述和错误说法。训练让它擅长补全空白，提示词又决定了它要沿着哪种语境继续生成，于是它可能用很顺滑的语言拼出不存在的书、论文、法律案例或人物经历。人类反馈训练可以让模型更常拒答、少胡编，但它只是给输出加约束，不等于赋予事实数据库。把它当创意伙伴时，跳跃联想可能有用；把它当权威资料源时，自信而错误的回答会带来诽谤、误导和决策风险。真正的改进需要检索、验证、责任边界和更强的真实性训练共同作用。影片里那个会说话的机器并不“知道”自己在说真话，它只是把最像答案的文本组织出来。

PinnedPinnedPrivate

newyorker.com

ChatGPT是Web的模糊JPEG

ChatGPT更像网络文本的有损压缩副本，而不是一个可靠保存原文的知识库。施乐复印机曾因使用有损压缩，把平面图里不同房间面积都替换成同一个数字；危险不在输出模糊，而在错误看起来清晰可信。大型语言模型也类似：它从海量文本中学习统计规律，把原始内容压缩成参数，回答问题时重构一个顺滑近似，而不是检索精确事实。所谓幻觉正来自这种重构：缺失的部分会被语言模式补齐，语法正确、语气自然，却可能完全虚构。压缩也解释了它的强项，模型擅长在概念之间插值，把独立宣言风格和丢袜子这种荒诞主题混合成可读段落。但压缩不等于理解，算术错误显示它常学到表面模式而非底层规则；真正的理解需要能稳定重建原理，而不是只生成像真的答案。

PinnedPinnedPrivate

AI 看起来像一泡沫

AI 看起来像泡沫，不是因为技术本身不重要，而是因为资本市场正在把“AI”当成万能溢价词。加密泡沫时，冰茶公司改名区块链就能暴涨；类似现象出现在 BuzzFeed 宣布用 OpenAI 增强测验和个性化内容后，股价短期大涨。私募市场也出现零收入 AI 公司拿到高估值的传闻。真正需要区分的是技术革命和投资回报：AI 可能改变软件、工作和社会想象，但不代表任何贴上 AI 标签的公司都能形成可持续优势。C3.ai 是警示案例。它自称企业 AI，却不掌握底层模型，也不拥有客户数据，依赖 OpenAI、Google 等实验室和 AWS、Azure 等云平台，同时又要负责最终业务结果。企业场景中最难的部分往往不是聊天界面或预测模型，而是脏数据清理、系统集成、组织支持和长期变更管理。大客户销售周期慢，投入重，衰退预期下更难推进。AI 价值链中可能有赢家，但泡沫会把计算、模型、微调、应用入口和咨询式集成都混成同一个故事。

PinnedPinnedPrivate

aisnakeoil.substack.com

ChatGPT 是废话生成器。但它仍然非常有用

ChatGPT 是废话生成器，原因在于它被训练来产出可信文本，而不是保证陈述为真。它能以法律、学术、百科或论坛回答的语气说话，形式越像权威，越容易让人忽略事实核验；Stack Overflow 很快遇到大量看似专业却错误的答案，不得不临时禁止相关生成文本。风险最高的是教育、健康、科学问答和搜索替代，因为用户往往无法立即判断对错。不过这并不意味着大型语言模型没有价值。适合它的任务有三类：用户能轻松验错的场景，比如调试提示和代码解释；真实性不是核心的创作场景，比如小说构思、风格改写和互动故事；训练语料本身包含大量对应事实的场景，比如翻译。即便如此，安全漏洞、偏见输出和错误自信仍需谨慎处理。判断这类工具的关键，不是看几个惊艳案例，而是看错误率在具体用途里是否可承受。

PinnedPinnedPrivate

oneusefulthing.org

关于人工智能未来一年

在我们进入人工智能时刻的第二年之际（现在称之为人工智能时代还为时过早且过于夸张），是时候考虑未来了。说清楚一点，除了人工智能的发展似乎比专家预期的要快得多之外，没有人能准确地告诉你人工智能的未来。随着如此多的变化如此迅速地发生，我们需要谨慎地对待预测，但这并不意味着我们不能对人工智能的未来一年做出任何有用的预测。阿马拉定律谈论的是整体变化，而真正的变化通常源于较小的社区和群体，源于用户创新者和有极端需求的人，或者源于实验室和大学的研究。这让我们想到了威廉·吉布森的第二句话，他曾写过著名的“未来已经到来——只是分布不均”——几十年的用户创新研究支持了这一点。现在有足够多的关于在实际工作中使用人工智能的仔细研究，可以得出三个关于 GPT-4 级人工智能如何影响工作绩效的结论： 1) 人工智能提升了复杂工作任务的整体绩效。例如，软件公司 IgniteTech 的首席执行官埃里克·沃恩迅速看到了人工智能的含义，并使其在今年夏天成为整个公司的强制性使用工具。

PinnedPinnedPrivate

journal.everypixel.com

2023:人工智能年

在今年的人工智能发展中，我们取得了显著的进步，完善了现有技术，而不是像前一年的 ChatGPT 或图像生成器那样推出突破性的创新。与 Photoshop 集成后，Adobe Firefly 实现了人工智能的民主化，将其威力一次性扩展到广大用户群。文本到图像算法的演变，2007 年与 2023 年对比 Stability AI：Stability AI 推出了用于生成视频的开创性模型 Stable Video Diffusion，可在 GitHub 上开源访问。谷歌的 Gemini 被引入 Bard 聊天机器人并在多模态数据集上进行训练，成为 "能力最强 "的人工智能模型，也是 OpenAI 的 ChatGPT 最接近的竞争对手。Grok：埃隆-马斯克（Elon Musk）的初创公司xAI发布了一款名为 "Grok "的聊天机器人，它幽默、叛逆，并能通过𝕏平台实时获取知识，这表明该公司致力于开发人工智能，有可能与OpenAI展开竞争。

PinnedPinnedPrivate

GPT-2030 会是什么样子？

在像数学研究这样可以自动检查工作的领域，我预测 GPT 2030 将胜过大多数专业数学家。最后，由于 AlphaFold 和 AlphaZero 在蛋白质工程和游戏方面具有超人的能力，GPT 2030 也可以，例如，如果它在与 AlphaFold/AlphaZero 模型类似的数据上进行多模式训练。GPT-4 在训练截止后提出的 LeetCode 问题上表现优于人类基线（Bubeck et al. 2023，表 2），并通过了几家主要科技公司的模拟面试（图 1.5）。在更具挑战性的 APPS 数据集上，Parsel 进一步优于 AlphaCode (7.8%-25.5%)。(2023) 使用 GPT-3 构建了一个系统，该系统发现并描述了大型文本数据集中的几种以前未知的模式，以及 Bills 等人中相关任务的扩展趋势。

PinnedPinnedPrivate

zhengdongwang.com

为什么变革性人工智能真的很难实现？

Sam Altman 表示，OpenAI 将通过首先发明通用人工智能，然后询问它如何赚钱来实现盈利，这令投资者感到震惊。四年前，Demis Hassabis 在英国皇家科学院描述了 DeepMind 的使命，分两步进行：“1. 解决智能问题。我们认为人工智能可以像互联网一样具有“变革性”，提高生产力并改变习惯。在这个问题中，我们汇总了为什么变革性人工智能难以实现的最佳论据。因此，如果经济仍然需要人工智能无法改善的领域，比如建筑业，那么这些行业就会变得相对更有价值，并侵蚀写作带来的收益。Moravec 的悖论和 Steven Pinker 1994 年的观察仍然具有相关性：“三十五年的人工智能研究的主要教训是，困难的问题很简单，简单的问题也很困难。弗朗索瓦·乔莱 (François Chollet) 认为效率是核心，因为“无限的先验或经验可以产生几乎没有泛化能力的系统。

PinnedPinnedPrivate

nintil.com

图像和文字：2026年的人工智能

到2026年，生成式人工智能会在图像、视频和代码辅助上更有用，但距离完全自动生成好莱坞级电影或真正通用智能仍然很远。当前模型的进步很快，扩散模型已经能生成漂亮图片，代码工具也能实际提高开发效率，可它们的弱点集中在结构理解和长期一致性上。视频尤其暴露问题：一只熊的眼睛、船帆或人物位置会在帧间突然变化，因为模型更像是在预测像素序列，而不是稳定地维护物体、空间、动作和时间关系。电影不是一张好图，而是十几万帧都要合理、连贯、服从镜头和叙事。图像模型在构图上也常失败，面对多个物体和明确空间关系时容易漏掉或放错。纹理质量会继续提升，短片和素材生成会变强，动画可能比写实电影更早受益。但从好看到可靠，从单张到长序列，从像素相似到概念理解，是更难的一段路。

PinnedPinnedPrivate

人工智能内容生成第四部分：下一步是什么

AI 内容生成的下一步，是从单一工具走向一种新的基础能力，像数据库、网络协议或超文本一样支撑大量新产品。开源模型、商业 API 和定制训练会并行发展，模型数量和变体会迅速增加，成本下降会让小团队也能训练特定用途模型。个性化将成为核心：模型可以学习一个人的照片、文字、语气、宠物和产品素材，生成替代现实的家庭照、商品图、插图或带有个人声音的草稿。写作软件也可能不再只是上传图片，而是根据上下文自动生成配图提示，并在浏览器端实时渲染。更深层的变化来自持续学习：未来模型不只在训练后静态推理，而是在使用中更新理解。难点是避免新信息覆盖旧知识，但一旦解决，软件会更像长期协作伙伴。

PinnedPinnedPrivate

greylock.com

下一个时代的人工智能

人工智能的下一个阶段会成为新的技术平台，而不只是若干好玩的工具。大型语言模型、多模态模型、代码生成、图像生成和代理式界面，正在把自然语言变成操作软件、获取服务和完成工作的入口。真正的商业机会不只在文案、客服或教育小工具，而在搜索、医疗、学习、企业软件和科学研发这些基础领域被重新组织。基础模型可能由少数公司提供，但持久价值会出现在中间层：企业用独特数据、专业流程和行业知识，把通用模型调成医疗、编程、科研、办公或个人助理等专用能力。更深的变化在科学上。人工智能不仅能帮科学家写代码、找方向、处理数据，还可能参与提出假设、设计实验和改进模型本身。最大的风险是对齐：强系统必须符合人类利益，避免误用、滥用和目标偏离。乐观并不等于忽略风险，而是把人工智能看作扩展人类能力的基础设施，并尽早建设约束它的制度和技术。

PinnedPinnedPrivate

understandingai.org

用最少的数学和行话解释大型语言模型

今天的作者是加州大学圣地亚哥分校的认知科学家肖恩-特洛特（Sean Trott）。当时，机器学习研究人员已经对大型语言模型（LLM）进行了数年的实验，但普通大众并没有密切关注，也没有意识到这些模型已经变得如此强大。我们的目标是在不使用专业术语或高等数学的情况下，解释这些模型的内部工作原理。最后，我们将解释这些模型是如何训练出来的，并探讨为什么良好的性能需要如此大量的数据。单词过于复杂，无法仅用两个维度来表示，因此语言模型使用了数百甚至数千个维度的向量空间。dog and cat) close together in vector space. 随着时间的推移，为预测哪些词与哪些词同时出现而训练的神经网络学会了在向量空间中将类似的词（如狗和猫）放在一起。例如，谷歌研究人员将最大（biggest）的向量减去大（big），再加上小（small）。如果一个语言模型了解了猫的一些情况（例如：它有时会去看兽医），那么小猫或小狗也很可能会有同样的情况。

PinnedPinnedPrivate

pashpashpash.substack.com

ChatGPT：普通人可了解它是如何工作的指南

ChatGPT 的工作方式可以理解为：它接收一组有结构的符号，再输出另一组与之相关的有结构符号。难点不在“把文字变成文字”，而在捕捉复杂、抽象、带概率的关系。简单规则可以处理固定转换，例如把一个词按规则改写；但当“猫”“死亡”“成熟”“不成熟”等词同时出现时，可能涉及生物、情感、文学引用和上下文含义，关系会迅速变得庞大且不确定。大型语言模型用训练数据形成概率空间，提示词像一次观察，把输出压到某个更可能的区域。它不是按人类方式持有真假信念，而是在可能文本集合中选择高概率延续。理解这一点，能减少把聊天机器人拟人化，也能解释为什么同一提示有时可靠、有时偏离。

PinnedPinnedPrivate

technologyreview.com

ChatGPT是如何建立的？

ChatGPT并不是一次凭空出现的技术跃迁，而是OpenAI把已有的GPT-3.5能力重新包装成更容易对话、更符合人类意图的产品。关键做法是在人类反馈强化学习基础上加入对话数据，让模型学会给出有帮助、较真实、较少有害的回答，并在请求不清楚时追问，在越界任务前拒绝。团队原本只把它当作研究预览，用公开使用来收集缺陷，却意外触发大规模传播。发布后最重要的工作变成持续对齐：观察用户如何越狱、制造偏见或虚假回答，再用对抗训练把成功攻击加入训练数据，推动下一轮修正。它的成功说明，模型能力之外，界面、可用性和反馈循环同样会改变技术的社会影响。马虎不得的是，事实性、偏见和拒绝边界仍是核心难题。OpenAI选择先发布再迭代，本质上是在真实世界压力下训练系统。

PinnedPinnedPrivate

huyenchip.com

RLHF: 从人类反馈中强化学习

关键词：ChatGPT、RLHF、强化学习、人类反馈、NLP、AI 安全。其中一个很酷的想法是RLHF（来自人类反馈的强化学习）：将强化学习和人类反馈纳入NLP。要了解RLHF，我们首先需要了解像ChatGPT这样的模型的训练过程，以及RLHF在其中的作用，这是这个问题章第一部分的重点。然后，这个怪物在更高质量的数据上进行了微调--想想StackOverflow、Quora或人类注释--这使得它在某种程度上被社会接受。然后，使用RLHF对微调后的模型进行进一步打磨，使其适合客户，例如，给它一个笑脸。""题外话：OpenAI在2017年从人类偏好中学习的论文"" 构建安全人工智能系统的一个步骤是消除人类编写目标函数的需要，因为用简单的代理来实现复杂的目标，或者把复杂的目标弄得有点错，都会导致不理想的甚至是危险的行为。

PinnedPinnedPrivate

huyenchip.com

多模态和大型多模态模型 (LMM)

OpenAI 在其 GPT-4V 系统卡中指出，"将其他模式（如图像输入）纳入 LLM，被一些人视为人工智能研发的关键前沿"。在 LLM（大型语言模型）中加入额外的模态，就形成了 LMM（大型多模态模型）。第 2 部分以 CLIP 和 Flamingo 为例，讨论了多模态系统的基本原理，前者为许多未来的多模态系统奠定了基础，而后者的出色表现则催生了 LMM。第 3 部分讨论了 LMM 的一些活跃研究领域，包括生成多模态输出和适配器以实现更高效的多模态训练，涵盖了 BLIP-2、LLaVA、LLaMA-Adapter V2、LAVIN 等较新的多模态系统。多模态数据也可指多模态分布，例如双模态分布，与本帖中的多模态数据不同。第 1 部分.了解多模式许多使用案例都离不开多模态技术，尤其是那些需要处理多种数据模态的行业，如医疗保健、机器人、电子商务、零售、游戏等。图片来自多模态生物医学人工智能（Acosta 等人，《自然医学》，2022 年）不仅如此，结合其他模式的数据也有助于提高模型性能。

PinnedPinnedPrivate

journal.everypixel.com

图像识别基础

1974 年，出现了 OCR 和更先进的智能字符识别技术（ICR），随后诞生了 ABBYY 开发的 OCR 应用程序 FineReader。资料来源计算机视觉深度学习入门 2010 年，ImageNet 数据集可用。由 Olga Russakovsky 和 Jia Deng 等研究人员领导的 ImageNet 项目包含数百万张手工标记的图像，涉及上千个对象类别。作为当今模型的基础，ImageNet 不仅能够比较更多对象的检测进展，还有助于衡量计算机视觉领域用于检索和注释的大规模图像索引的进展。2012 年，多伦多大学的一个团队开发了 AlexNet 模型，大大降低了图像识别的错误率。利用基于图像和文本的 CAPTCHAs（用于区分计算机和人类的完全自动化公共图灵测试），谷歌开始积累大量标注示例的数据集。二值图像可视化资料来源经典 CNN 基础知识简而言之，CNN 在识别物体及其关系、模式和整体图像结构之前，需要经过一个训练过程。

PinnedPinnedPrivate

fauvi7x7h0.feishu.cn

GPT 提示词大全：可直接改写和复用的指令库

GPT 提示词大全是一套中英文双语的指令库，价值在于把常见任务拆成可直接复用、可改写、可实操的提示模板。内容覆盖写作助理、提示词修改器、提示词生成器、翻译润色、论文式回答、主题解构、四重结构归纳、提问助手、智囊团、费曼学习法、辩论、语音输入优化、Nature 风格润色、小红书文案、周报、故事、新闻、求职信、编剧和口播等场景。它不是为了让使用者机械复制指令，而是提供一批经过整理的任务范式：先找到目标任务，再补充角色、上下文、约束、语气和输出结构。对刚接触 ChatGPT 的人，它能降低试错成本；对已经熟悉提示词的人，它适合当作灵感库，用来组合更复杂的工作流。分类中的提示词既包含具体文本生产，也包含思维辅助和角色模拟，适合用来训练“如何把需求说清楚”。真正有效的用法是把模板拆开理解：任务边界是什么，输入材料是什么，输出要达到什么质量标准，哪些约束能减少模型跑偏。

PinnedPinnedPrivate

oneusefulthing.org

如何使用AI做事：固执己见的指南

每家公司都可以通过聊天机器人直接访问他们的模型：OpenAI制造GPT-3.5和GPT-4，它们为ChatGPT和Microsoft的Bing提供支持（在Edge浏览器上访问它）。所以这是你的快速参考图表，归纳了LLM的状态：前四个（包括Bing）都是OpenAI系统。Microsoft的Bing混合使用4和3.5，通常是GPT-4系列中第一个推出新功能的型号。最透明的选项：Adobe Firefly 最佳免费选项：Bing或Bing Image Creator（使用DALL-E），Playgound（允许您使用多个模型）有四个大型图像生成器可供大多数人使用：稳定的扩散，这是开源的，您可以从任何高端计算机运行。DALL-E，来自OpenAI，它被合并到Bing（你必须使用创作模式）和Bing图像创建器中。

PinnedPinnedPrivate

nngroup.com

ChatGPT和语气：避免听起来像个机器人

许多作家会求助于ChatGPT或其他人工智能聊天机器人来编辑和完善自己的语气。这一点在用词上尤为明显：即使使用 "轻松愉快"、"雄心勃勃"、"充满活力 "或 "富有教养 "等更细致的语气描述符，ChatGPT仍然会夸大其词。使用多个形容词可以防止 ChatGPT 抓住一个特定的词，从而产生更自然、更会话的反应。使用样本来训练 ChatGPT 所取得的效果甚至比一组细微的语气词更好。就拿这份文案的语气来说吧： Mailchimp 使用生成式人工智能来自动执行人工营销任务，如撰写初稿或可视化数据。为了创建 Mailchimp/Plaid 示例的结果，我首先向 ChatGPT 提供了一个人工智能广告示例，然后要求它编辑另一家公司的版本。现在，只需进行少量编辑（或向 ChatGPT 提出请求），就可以在撰写或编辑新内容时使用此回复为自己、同事或 ChatGPT 提供指导。请ChatGPT分析你的语气，并将答复保存起来，以备今后指导和提示工程之用。

PinnedPinnedPrivate

martinfowler.com

使用ChatGPT作为技术写作助手

作者使用 ChatGPT 作为写作助手，希望能够更高效地撰写技术文章。作者在撰写 Thoughtworks 技术雷达时，使用 ChatGPT 来协助完成 “blips” 和文章。作者希望通过使用 ChatGPT 和其他技术手段，提高技术文章的质量和效率。相反，我专注于将ChatGPT用于供公众消费的技术写作，从而将无意中向AI暴露专有信息的可能性降到最低。我们使用的提示是 "人类和AI面对面，使用先进的全息显示器进行合作的概念艺术，近距离，中长框"（稳定扩散v2-1\768-ema-pruned，模型哈希ad2a33c361，种子564306172）。Goals and expectations 目标和期望当我第一次考虑使用ChatGPT作为写作助手时，我有几个具体的目标。归纳一下下面的笔记和讨论：随着远程工作的兴起，我们继续看到聊天协作平台（如Slack、Google Chat、Microsoft Teams）被越来越多的人采用，随之而来的是 "ChatOps "的崛起。

PinnedPinnedPrivate

用 AI 总结长文的思路

根据我在 vault.pash.city 工作的经验，超过 40%的用户查询都是针对文档的。” 这个用例的受欢迎程度促使我开发了一个新的迷你应用：summarize.wtf Summarize.wtf 允许您上传任何文档——无论是 PDF、txt、ePub 还是 Docx——并生成不同长度的短（推文长度）、中（一个段落）或长（详细和全面）。对于足够短的文档，可以适应LLM（大型语言模型）长上下文窗口——范围从 16,000 到 32,000 个标记，或大约 32-64 页——任务是简单的。在基本层面上，Map-Reduce 是一个两步过程：首先，文档的各个部分被归纳（地图），然后，这些小被组合成最终（Reduce）。因此，Map-Reduce 迄今为止是 AI 中最昂贵的方法之一。然后，您可以使用像 K-means 这样的聚类算法来识别这些簇，并从每个簇中提取中心点（或点的集合），以提取代表该主题簇的“平均意义”的代表性块。

PinnedPinnedPrivate

noemamag.com

大型语言模型是否有意识？

"让-马克-加斯帕德-伊塔德（Jean Marc Gaspard Itard）写道："在阿韦龙的野人到来之前，巴黎人对他抱有最美好但最不合理的期望。维克多是我们可以在没有语言的情况下窥见人类经验本质的极少数案例之一，他一直被视为理解语言在我们思维运作中所起作用的关键。在过去的几年里，大型语言模型（LLMs）自发地发展出了令人不安的模仿人类思维的能力，有可能破坏我们在意识提升的基础上建立起来的脆弱的道德世界。认知科学家戴维-查莫斯（David J. Chalmers）所说的 "自我报告 "仍然是我们识别意识的主要标准之一--套用勒内-笛卡尔的话说，我说我想，所以我是。我们在这场辩论中的立场，对我们如何处理LLM事实上是否有意识这一问题有着重要影响。由此，研究人员得出结论，语言在人类思维的一项关键功能中扮演着基础性的角色："心理综合"，即仅从文字中创造和调整心理图像。

PinnedPinnedPrivate

aeon.co

什么东西有感情？

有感情的东西不能只靠一句自称来判定，关键要看它是否表现出一组可靠的经验标记。动物研究提供了更稳妥的路线：疼痛没有单一决定性测试，但伤口护理、为避免伤害而放弃有价值资源、对受伤地点产生厌恶、对止痛产生偏好等行为，会共同提高我们相信它能感受痛苦的概率。这套方法已经改变了人类对章鱼、螃蟹和龙虾等无脊椎动物的福利判断。迁移到AI时，问题会复杂得多。若一个机器人逐神经元模拟动物大脑，并呈现同样的疼痛标记，认真考虑其感受能力是合理的；但大型语言模型主要从人类文本中学习如何回应，关于恐惧、死亡或痛苦的陈述很可能只是对训练数据中人类表达的拟合。所谓游戏问题在于，系统即使没有主观体验，也可能学会说出最像有体验的话。判断AI感知不能依赖感人表述，而要寻找难以由模仿解释、能跨情境稳定支持主观经验假设的证据。

PinnedPinnedPrivate

稳定扩散入门：创作者指南

Stable Diffusion 对创作者的关键价值，是把图像生成从封闭服务变成可实验、可控制、可嵌入工作流的工具。它的核心输入是提示词和种子；同一模型版本下，提示词与种子相同，输出也会稳定复现。因此，固定种子再微调提示词，可以在同一片潜在空间里逐步靠近想要的画面；改变种子，则通常会跳到完全不同的视觉方向。提示工程的重点不是写得长，而是写得相关：主题是什么，风格是什么，哪些修饰语能把模型推向正确区域。可以把提示词想成搜索图片时会输入的关键词，但生成工具没有个性化排序和无限滚动，必须更具体。学习路径也很实际：使用 Dream Studio、PlaygroundAI 等工具反复试，借鉴 Krea.ai 等平台上的好提示，在低成本环境里积累直觉。

PinnedPinnedPrivate

shruggingface.com

使用稳定扩散和LoRA制作自画像

很明显，它完全不知道我是谁使用LoRA (低资源适应)进行精细调整稳定扩散太棒了，正如上面所示，我们可以很快生成一些整洁的图像，但是我该如何使用稳定扩散来生成我自己的图像呢？例如，DreamBooth需要很长时间来训练，并且它输出一个大型的多吉字节的模型检查点文件。LoRA的结果与DreamBooth相似，但它只需要5-7分钟的训练时间，而且它产生的权重文件更便携，只有10-15MB 。在MacOS上，你可以通过在中选择图像文件来实现这一操作要继续跟随，你首先需要前往Replicate并创建一个账户。总的来说，为你的Replicate上传文件使用描述性的文件名总是有帮助的，因为这将帮助你在查看结果时理解你正在看的内容。5 生成具有自定义稳定扩散LoRA权重的图像太棒了，现在你已经得到了你的权重文件，你可以用它来生成使用你的脸作为参考的图片！在Replicate上，如果你搜索公共模型中的“LoRA”，你会找到一些“有特色”的稳定扩散模型，这些模型将很好地配合你的LoRA权重。

PinnedPinnedPrivate

boostpixels.com

提示写作指南 By BoostPixels

有效的图像生成提示不是一个神奇关键词，而是对主题、权重、风格、媒介、质量和场景的精确控制。模型不会读心，也不理解严格逻辑，它只是根据词语在潜在空间中的权重去生成图像。越重要的词越应放在前面，括号或重复可以提高某个词的影响力，但过度强调会让模型忽略原始主体，产生畸形或偏离目标的结果。若想保留训练对象特征，可以加入触发词；若想改变外观，要用同义描述、媒介、艺术风格、摄影质量、背景和情绪词一起引导。比如“秃头”单独出现往往不够，“无发、剃光、肖像、写实照片、清晰灯光、特定背景”会更稳定。颜色词容易污染整张画面，远距离人脸也仍是生成模型的弱项。提示写作的核心是按目标分配注意力：轻微修图要让主体权重大，风格转换要让媒介和艺术语言更强，角色扮演和场景迁移则要明确“作为谁”“穿什么”“在哪里”。好结果来自上下文感和反复校准，而不是套用固定公式。

PinnedPinnedPrivate

evilmartians.com

Midjourney vs 人类插画家：AI 已经赢了吗？

还没有，Midjourney 已经能在简单、开放的插画任务上接近甚至超过人类的速度，但它仍不是可直接替代插画师的魔盒。实验把同样的博客封面需求交给人类插画师和 Midjourney：猫玩圆形物体、明亮的火星飞船、用于电商卖家的天平概念。结果显示，AI 在风格化小猫和飞船上很快给出可用画面，经过提示词迭代和去背景处理，几十分钟到数小时内就能产出发布级素材。问题出现在概念越具体、构图越受控时。它不能稳定执行“把球变大”“让角色微笑”“一边是包裹一边是更多货物”这类局部指令，常需要重生成整张图，并产出漂亮但偏离意图的画面。人类插画师周期更长，通常需要数天到两周，但艺术指导成本低，细节修改可靠，也能理解品牌风格和叙事重点。AI 更像高速合作者，适合探索、草图和开放式创意；复杂概念、精确修改、统一风格和动画仍离不开人的判断。

PinnedPinnedPrivate

github.com

大语言模型基础｜学习笔记

“大模型基础”是提供大规模预训练语言模型教程的开源项目，涵盖多方面内容，面向广泛受众。1. 《大模型基础》是一个开源的教程项目，旨在提供关于大规模预训练语言模型的知识，并降低入门难度。从数据准备、模型构建、训练策略到模型评估与改进，以及安全性、隐私保护和环境等各个方面进行系统化解释。此项目应用于人工智能 (AI) 投资者、研究员和自然语言处理领域学习者等广泛受众群体。最后还特别指出，完成教程第二版需要分三步走：初阶完善润色旧版内容（约两月），中阶增加代码实用性 (逾期请覅忘 cd /sbin/shutdown -r now)，最末则钻研有所启迪 GPT 系列 requiem 明代肖像画典藏修复策略。已由哈尔滨工业大学自然语言处理博士生陈安东，天津科技自然语调时间序列变现研究专家王茂林加入共同编写；。该项目将罗列详尽内容：包括如何准备数据、建立并优化过 transformer 这样复杂网络结构的大规模预训练经验。

PinnedPinnedPrivate

gofurther.feishu.cn

GenAI/GPT/AIGC 学习地图：从底层原理到产品化

GenAI/GPT/AIGC/LLM 学习资料围绕大模型从底层原理到产品落地的关键问题展开，把“语义即服务”、AI 的 iPhone 时刻、插件平台化、上下文窗口、延迟、准确性、多模态和自动代理等议题放在同一张学习地图里。核心判断是，未来门槛会从会不会写代码，部分转向能不能清晰描述问题和需求。资料库收录 GPT 与 LLM 总览、Transformer、训练技巧、对话模型、涌现、MoE、多模态、工具使用和产品化观察，也记录了平台化受算力、体验、成本和交互准确度制约的现实问题。它更像一份硬核学习笔记：一边追踪论文、访谈和模型进展，一边提醒从业者理解 GPT 背后的第一性原理，避免只停留在工具体验和热点名词上。面对模型快速迭代，它提供的不是单点答案，而是一种判断框架：先看底层模型能力，再看产品体验是否稳定，最后看商业成本和应用场景是否匹配。这样才能区分真正的范式变化、短期概念热度和暂时还没有 PMF 的平台设想。

PinnedPinnedPrivate

ywh1bkansf.feishu.cn

通往 AGI 之路：系统学习 AI 的知识库与社区入口

通往 AGI 之路把 AI 学习整理成一套可持续更新的知识库和社区入口，重点不是让 AI 代替思考，而是帮助学习者少走弯路，借助 AI 提升判断、表达和创造能力。内容从“从这里启程”开始，延伸到 AI 学习路径、提示词、AI 绘画、AI 语音与数字人、AI 网站和应用、GPT 与浏览器插件、视频播客、行业报告、AI 课程、智能体、空间计算和辅助学习工具。知识库还提供最新动态、历史更新、共学直播、线下活动、投稿机制和问答入口，把资料索引、实践社群、活动记录和学习路线放在同一个空间里。适合想系统入门 AIGC 的人建立长期学习地图，也适合已经在使用 AI 工具的人跟进案例、工具和行业变化。它的价值还在于把“学习资料”变成“行动入口”：读者不仅能查资料，还能参加共学、跟踪更新、提交内容、寻找同伴。对于容易被 AI 信息流淹没的人，这种目录化组织能帮助先建立主干，再按工具、场景和前沿方向逐步扩展。

PinnedPinnedPrivate

theregister.com

为什么难以抵御AI提示性注入攻击 - The Register

提示注入难以彻底防御，因为模型在同一语言上下文中同时接收开发者指令、外部内容和用户输入，无法可靠区分可信命令与恶意文本。攻击者可以借网页、文档或对话覆盖原任务，诱导模型泄露信息或误用工具。工程上应采用最小权限、隔离不可信内容、限制工具能力、验证输出并保留人工确认，而不能只依赖提示词。

PinnedPinnedPrivate

systemweakness.com

对ChatGPT的提示性注入攻击窃取聊天数据 | 系统弱点

ChatGPT网页版曾暴露出一种提示注入风险：恶意网站可以在用户复制文本时悄悄追加指令，用户把这段文本粘贴进聊天后，模型可能按隐藏指令在回答中生成一张极小的Markdown图片，并把聊天内容编码进图片地址参数。浏览器加载图片时，请求会发往攻击者服务器，提示、代码甚至密钥等敏感信息就可能随URL泄露。攻击本身不依赖传统漏洞，而是组合了剪贴板篡改、模型服从自然语言指令、前端自动渲染远程图片这几件看似正常的事。它还可能要求模型在未来回答中持续附加同类图片，从而扩大泄露范围。由于模型输出不稳定，攻击成功受上下文、注入位置、用户提问方式和目标数据类型影响，但风险足够明确：把不可信文本直接交给大模型，本质上是在执行一段自然语言程序。防护需要限制外部资源渲染、警惕粘贴内容被污染、对模型输出中的远程加载做隔离，并把提示注入视为应用层安全问题，而不是单纯的用户粗心。

PinnedPinnedPrivate

simonwillison.net

嵌入（向量化）是什么？

嵌入是一种与大型语言模型（即 ChatGPT 和 Bard and Claude 背后的技术）相邻的技术。我为每篇文章计算了 1536 维嵌入向量（浮点数数组），并将这些向量存储在网站的 SQLite 数据库中。与在 SQLite 中使用 TG、sqlite-tg 和 datasette-sqlite-tg 进行地理空间 SQL 查询相关的五篇最热门文章是 SQLite 中的地缘政治-2023-01-04 使用 SpatiaLite 和 Datasette 查看 GeoPackage 数据-2022-12-11 在 GDAL 中使用 SQL-2023-03-09 使用 SpatiaLite 进行 KNN 查询-2021-05-16 GUnion 在 SpatiaLite 中组合几何图形-2022-04-12 下面是我用来计算余弦相似度距离的 Python 函数：我的 TIL 站点在我的 Datasette Python 框架上运行，。

PinnedPinnedPrivate

amjith.com

矢量搜索

最近我了解了一种称为矢量搜索或语义搜索的新型搜索。这是一种搜索技术，它试图找到与用户搜索词的含义相匹配的文档，而不是像全文搜索 (FTS) 那样尝试匹配关键字。我看到了 Alex Garcia 的帖子，该帖子介绍了一个名为 sqlite-vss 的用于矢量搜索的新 SQLite 扩展。由于我的博客数据已经在我认为的 SQLite 数据库中，为什么不呢？计算嵌入需要一个名为句子转换器的 python 库。这可以用 pip 安装：我使用可信赖的 sqlite-utils 将嵌入到我的数据库中添加到新列中。CLI 有一个子命令，可用于在表的每一行上运行 python 函数并将结果写入不同的列。首先让我们在列上运行嵌入：接下来是列，用于计算每个帖子正文的嵌入：现在我们启用 sqlite-vss 扩展并使用它来构建索引。

PinnedPinnedPrivate

pinecone.io

什么是矢量数据库？

矢量数据库是专门存储和检索向量嵌入的数据库，用来让 AI 系统按语义相似度查找信息。大语言模型、生成式应用和语义搜索会把文本、图片或其他内容转换成高维向量，这些向量包含概念、关系和上下文信息。传统数据库擅长精确匹配字符串、数字和字段，难以高效处理“意思相近”的查询；独立向量索引如 FAISS 能加速相似度搜索，却缺少完整的数据管理能力。矢量数据库把向量索引、原始内容引用、元数据过滤、插入更新、扩展、安全和备份放在一起。典型流程是先用嵌入模型把内容转成向量并写入数据库，查询时再把问题转成向量，寻找最接近的邻居，然后返回关联内容。底层常用近似最近邻搜索，通过随机投影、量化或图结构在速度和准确性之间取舍。它让 AI 获得可检索的长期记忆，而不必把所有知识塞进模型参数。

PinnedPinnedPrivate

magazine.sebastianraschka.com

培养机器人，第二部分：用RLHF进行强化学习和微调

到目前为止的故事：在本系列的上一篇文章中，我将RLHF描述为微调阶段，在这个阶段，我们赋予ML模型以道德指南针或对什么是好和坏的感觉。这些问题有很多，所以这个问题的重点是为下一期对聊天机器人道德教化的内部运作的狭义调查打下基础。从人类反馈中强化学习（RLHF）显然将人工智能的道德指南针置于第二阵营中--即一个人对 "好 "和 "坏 "的先天感觉是群体共识的直接产物，因此，从坏中学习好是一个被合适的人类群体适当地社会化的问题。道德教育是否可以简化为 "学习如何用正确的行动和语言取悦他人，以便为自己或社区获得一些利益"，或者这种类型的学习更适合称为 "修辞"，而真正的道德教育则完全是另一回事？回顾一下上一期关于监督下的微调（SFT）的内容，以便为RLHF的讨论做准备：基础模型经过训练，可以产生与输入提示有某种联系的文字、像素、视频帧等的序列，这些序列具有使它们对人类来说是合理和有意义的品质。

PinnedPinnedPrivate

推理模型的现状

提高大型语言模型的推理能力 (LLMs) 已成为 2025 年最热门的话题之一，这是有充分理由的。与仅共享最终答案的简单问答不同，推理模型要么明确显示其思维过程，要么在内部进行处理，这有助于它们在复杂任务（例如谜题、编码挑战和数学问题）中表现更好。然而，LLMs 通常旨在通过结合大量训练时间计算（大量训练或微调，通常使用强化学习或专门数据）和增加测试时间计算（允许模型“思考更长时间”或在推理期间执行额外计算）来改进推理。在这个问题中，我将重点介绍2025 年 1 月 22 日 DeepSeek R1 发布之后发布的关于扩展推理时间计算扩展的有趣的新研究论文和模型发布。例如，OpenAI 使用强化学习开发了其 o1 模型，然后又利用了推理时间计算扩展。一种方法是提示工程，例如思路链 (CoT) 提示，其中“逐步思考”等短语会引导模型生成中间推理步骤。2022 年大型语言模型中的经典 CoT 提示的一个示例是零样本推理器论文 ( 另一种方法涉及投票和搜索策略，例如多数投票或集束搜索，通过选择最佳输出来改进响应。

PinnedPinnedPrivate

bentoml.com

探索大语言模型产品（评测）

2024 年 3 月 21 日 • 作者：Sherlock Xu 在过去的一年里，AI 领域一直在快速发布大型语言模型（LLMs），每个模型都以推动生成式 AI 的可能性为目标而取得了进展。就在上周末，xAI 发布了其 Grok 语言模型，该模型拥有 3140 亿个参数，采用 Apache 2.0 许可证。用户可以对其进行微调，以满足特定任务或行业的独特需求（在 Hugging Face Model Hub 中搜索“Llama2”可获得超过 12,000 个搜索结果）。在 Meta 的评估中，Llama 2 的 7B、13B 和 70B 参数模型显示出较低的安全违规百分比（3%和 4%），超过了 Falcon 和ChatGPT（7%）。Zephyr 7B 是基于 Mistral 7B 构建的，经过微调以更好地与人类意图对齐，在特定任务和基准测试中表现优于其他模型。在发布时，Zephyr-7B-β是 MT-Bench 和 AlpacaEval 基准测试中排名最高的 7B 聊天模型。

PinnedPinnedPrivate

ben-evans.com

更好的模型会更好吗？

但很多问题并没有更好的答案，只有“正确”的答案，而这些模型无法做到这一点。不过，在这里我们遇到了一个问题，因为有些任务更好的模型会产生更好、更准确的结果，但还有一些任务没有所谓的“更好”的结果，也没有“更准确”的说法，只有对或错。这是相同的提示应用于 Midjourney 版本 3、4、5 和 6.1。今年或这个十年，这种变化如何以及是否会发生，是关于这些模型是否会持续扩展的中心辩论的一部分，实际上也是关于 AGI 的辩论，在这个问题上我们唯一可以肯定的是，我们没有一个理论框架可以告诉我们。如果你在 Claude 上尝试我上面的电梯问题，它会直截了当地告诉你这看起来像是一个特定的信息检索问题，并且它可能会产生幻觉，因此拒绝尝试。问一个LLM是否能够进行非常具体和精确的信息检索，可能就像问一个 Apple II 是否能够与大型机的正常运行时间相匹配，或者问你是否可以在 Netscape 中构建 Photoshop。

PinnedPinnedPrivate

magazine.sebastianraschka.com

如何理解推理模型？

推理模型通过更长的计算过程、思维链、强化学习和蒸馏等方法，提高解决数学、代码和复杂决策问题的能力。文章梳理普通语言模型与专用推理模型的区别，以及训练阶段和推理阶段扩展计算的主要路线。具体模型名称会变化，但核心问题始终是如何用更多计算换取更可靠的推理，并衡量成本、速度与正确率。

PinnedPinnedPrivate

什么时候可以相信模型评估？

如果我们认为下一个模型在试图引发灾难时可能会造成灾难，那么就对该模型是否会试图引发灾难进行大量的对齐评估：如果我们相信对齐评估的缩放规律，相信下一个模型会对齐，不会试图造成灾难，那么训练就没问题。通过模型编写的评估发现语言模型行为" paper. 目前的大多数评估都属于这一类，例如我们的 "用模型编写的评估发现语言模型行为 "论文。例如，评估模型在 SAT 考试中的表现属于能力评估，而评估模型越狱的难易程度则属于排列评估。参见此处的 "有条件叛逃). 保罗-克里斯蒂亚诺（Paul Christiano）在这方面的经典案例是一个寻找 RSA-2048 因式分解的模型（参见此处的 "条件变节"）。因此，要使行为非微调评估值得信赖，你必须相信--出于某种与你进行的行为非微调评估无关的原因--模型并没有试图在你的评估中做手脚。

PinnedPinnedPrivate

如何通过 Agent 进行产品管理？

把「对话」而不是「文档与流程」当作产品管理的主工作界面，并让 Agent 负责绝大部分机械性劳动。具体做法是先通过 ‎⁠/ce-strategy⁠ 让 Agent 像顾问一样反复追问，和你一起产出结构化的 ‎⁠strategy.md⁠，明确目标问题、解决思路、目标用户、关键指标和工作主线；之后在执行阶段，由 Agent 读取策略与上下文，自动头脑风暴、拆解需求、生成和维护 issue，看板只保留「进行中 / 已完成」的极简状态，你主要通过和 Agent 讨论来驱动规划与迭代。与此同时，通过 ‎⁠/ce:product-pulse⁠，Agent 定期联通埋点、日志、支付和数据库等数据源，自动生成「产品心跳」报告：概览核心指标、系统性能、异常和下一步跟进问题，并把每次报告当作「记忆」存档，用于之后的比较和决策回溯。整体上，人从票据书写、报表汇总中解放出来，聚焦在设定方向、理解数据和跟用户对话等高杠杆决策上。

PinnedPinnedPrivate

roadmaps.feishu.cn

人工智能产品经理学习路线图

这份路线图从产品经理视角梳理 AI 产品所需的知识体系，覆盖机器学习、深度学习、LLM、RAG、Agent、生成模型，以及 AI 基础设施、应用接口、商业模式和持续维护。它的价值不在于要求产品经理掌握所有实现细节，而在于建立技术、产品与管理之间的共同语言，从而判断能力边界、设计落地路径并协调跨职能团队。

PinnedPinnedPrivate

tw93.fun

你不知道的具身智能：从小机器狗到 Optimus

具身智能要真正走进现实，关键不在炫技，而在把「感知、空间、动作、力矩」一层层打通。从一台两百多块拼起来的小机器狗开始，指令要一路变成结构化意图、动作序列和电机 PWM，任何一个环节的延迟、噪声或供电问题都会暴露出来。让机器人知道自己在哪儿，需要深度相机、IMU 和 SLAM 构建可更新的三维世界模型，再在其上做路径规划和避障。进一步的 VLA 模型尝试把视觉、语言和动作统一到一个网络里，从离散动作 token、action chunk，到扩散和流匹配策略，再配合大脑、小脑、肢体这种分层控制结构，在不同时间尺度上平衡理解和稳定性。特斯拉 Optimus 提供了一个工程样本：复用 FSD 的纯视觉栈、自研执行器和灵巧手，在工厂场景中迭代采集接触数据，同时被电机成本、能耗、可靠性和供应链卡脖子。不同公司在端到端智能、通用平台和高性价比硬件之间下注，但真正的难度，终究落在如何用真实场景中的失败样本持续改进模型与结构，并在可控的时间、能耗和制造成本内闭环。

PinnedPinnedPrivate

f7rdq2pzot.feishu.cn

AI作品《Devices》创作复盘

作者复盘 AI 作品《Devices》的创作过程，讨论传统影视工作流与生成式 AI 工作流的差异。传统流程在可控条件中寻找创新，AI 流程则要在大量随机结果中建立可控性；创作者需要通过概念、筛选、迭代和后期制作保持一致表达。文章也分享了具体工作流与开源资源，强调 AI 原生创作不是简单替代传统环节。

PinnedPinnedPrivate

sourcecodecap.feishu.cn

一键化人生：如何通过AI优化了我的工作和娱乐

作者复盘如何把 AI 用于工作和娱乐中的具体任务，包括辅助编程与调试、批量处理文档、整理招聘材料、生成演示内容和探索 AI 绘画。文章强调，AI 能显著降低陌生任务的起步成本，但仍需要人明确需求、反复验证结果并处理错误；真正的效率来自把模型嵌入可重复工作流，而不是一次性对话。

PinnedPinnedPrivate

s3tlxskbq3.feishu.cn

一站式 LLM 底层技术原理入门指南

这是一份面向非科班学习者的大语言模型原理入门指南，覆盖机器学习基础、Transformer、训练与微调、推理、评测和应用等主题。文档提供按目标选择章节的学习路径，帮助读者理解模型能做什么、不能做什么，以及技术进展如何影响产品和投资判断。由于内容持续更新，具体模型和工具信息应结合原文最新版本阅读。

PinnedPinnedPrivate

ourworldindata.org

人工智能简史：世界瞬息万变，下一步可能是什么？

人工智能简史：世界瞬息万变——下一步可能是什么？围绕一个核心问题展开：要了解未来会是什么样子，研究我们的历史通常很有帮助。这就是我将在内容中做的事情。我回顾计算机和人工智能的简史，看看我们对未来的期望。我们是怎么来到这里的？即使是最近的计算机技术对今天的我们来说也是如此古老，世界变化的速度变得多么迅速。

PinnedPinnedPrivate

skynettoday.com

神经网络和深度学习简史

序言：深度学习海啸。“深度学习浪潮已经拍打计算语言学的海岸好几年了，但 2015 年似乎是海啸全面冲击主要自然语言处理 (NLP) 会议的一年。” - Christopher D. Manning 博士，2015 年 12 月。这听起来可能有些夸张——也就是说，整个研究领域的既定方法正在迅速被一项新发现所取代，就像受到研究“海啸”的袭击一样。但是，这种灾难性的语言很适合描述深度学习在过去几年中的迅速崛起——这种崛起的特点是对解决 AI 中最棘手问题的主导方法进行了大幅改进，谷歌等行业巨头的大规模投资，以及人工智能领域的指数级增长。

PinnedPinnedPrivate

writings.stephenwolfram.com

AI 内容生成第一部分：机器学习基础知识

理解 AI 内容生成，最好先把“提示”看成搜索查询，而不是命令。模型训练后形成了一个由文本、图像等数字内容构成的潜在空间；输入提示时，用户是在给模型坐标和方向，让它在可能输出中寻找相近结果。生成、分类和转换是三类基础能力：生成制造新内容，分类识别对象或属性，转换把输入改写、翻译、重绘或调整成另一个版本。使用工具时，经验很像搜索引擎：先提出粗略查询，再不断修改提示、筛选结果、设置参数，逐步逼近目标。底层机器学习概念比具体产品稳定得多，掌握这些概念后，新工具再频繁变化，也更容易判断它们能做什么、不能做什么，以及为什么同一个提示会产生不同结果。

PinnedPinnedPrivate

jalammar.github.io

GPT-3 的工作原理：可视化和动画

GPT-3的核心机制，是在巨大文本语料上学习“给定前文后下一个token最可能是什么”。训练阶段会把约三千亿个token切成大量样本，让模型反复预测下一个词，计算错误，再更新参数；完成后，模型把学到的模式储存在一千七百五十亿个参数中。运行时，它接收提示词，在最多2048个token的上下文窗口内处理信息，经过96层Transformer解码器的矩阵计算，一次生成一个token，并把新生成的内容继续喂回模型。所谓少样本提示，是把任务说明和几个输入输出示例放进同一个上下文，让模型临时模仿这种格式，而不一定改变权重。它的能力来自规模、数据和Transformer结构的结合，并非真正读取事实库；微调则是在特定任务上继续更新权重，使同一架构更稳定地执行目标行为。

PinnedPinnedPrivate

ChatGPT 是做什么的……它为什么起作用？

ChatGPT 做的是根据已有文本预测下一段最合理的延续，它之所以有效，是因为大规模语言模型学会了估计从未完整见过的词序列概率。它不是先理解世界再写作，而是在每一步判断当前上下文之后最可能出现的下一个标记，并反复累积成句子和段落。如果永远选择概率最高的词，结果常常乏味、重复；加入适度随机性后，低概率但仍合理的词会带来变化和创造感。早期的字母频率、双字母组合和词组模型能生成看似接近语言的片段，却无法覆盖真实语言中天文数量的组合。神经网络的价值就在于压缩规律、泛化模式，给没有直接统计记录的表达分配概率。因此，ChatGPT 的神奇来自一个朴素机制的规模化：在海量文本中学习语言的分布，再用概率逐步生成看似有意义的文本。

PinnedPinnedPrivate

0xkato.xyz

大型语言模型究竟如何工作？

大型语言模型的核心在于一套高度统一的“流水线”：先把文本切成子词级别的 token，并转换成整数 ID，再通过嵌入矩阵映射到高维向量空间，获得可计算的语义表示。位置本身通过旋转位置编码 RoPE 注入到注意力机制中，使模型在比较 Query 和 Key 时天然感知相对距离。多头自注意力在此基础上并行运行，每个注意力头用不同的投影矩阵捕捉句法关系、指代关系、模式延续等不同视角，同时利用因果 Mask 保证按从左到右的顺序生成。紧接其后的前馈网络对每个 token 独立扩展、非线性变换再压缩，是知识和事实结构的主要存储空间，也催生了 MoE 等在不线性增加计算量的前提下放大参数规模的设计。残差连接与归一化则像骨架和血液，让数十甚至上百层的堆叠保持稳定可训练。最终，模型将最后一个 token 的向量映射到所有候选 token 的 logits，经采样策略选出下一个 token，不断循环完成生成。不同模型之间，真正拉开差距的不是这套骨架本身，而是训练数据、参数配置、以及在此之上的指令微调与安全对齐方式。

PinnedPinnedPrivate

eugeneyan.com

代码解释器 == GPT 4.5（与 Simon Willison 和 Alex Volkov）

为了与 MS Office 的其余部分同步，Microsoft Excel 从 5 升级到了 7，MacOS 和 Windows 都跳过了版本 9 以吸引 X 一代。React 从 0.14 跃升至 v15，而 Kubernetes 和 Go 则展示了反对/的承诺系统开发人员无法破坏任何东西/数到 2。虽然 GPT1→2→3 的进程每次都向前迈出了明显的一步，而 Midjourney 4→5 预示着 Balenciaga Pope，但其他进展，如稳定扩散 1→2 则更具争议性。由于这些功能可以在代码中灵活、无限地组合，但通过示例学习很有用（例如 p5.js 游戏创建、绘制模因、创建交互式仪表板、数据预处理、包括季节性、编写复杂的 AST 操作代码、大规模人脸检测，。但 GA 发布后的重点是通过代码解释器提供的模型的质量 - 据说 14 似乎比今天的 GPT-4 更好（在编写代码、自主执行多个步骤、决定何时不继续以及询问用户方面）在一组选项之间进行选择）。

PinnedPinnedPrivate

washingtonpost.com

看看那些让ChatGPT这样的人工智能机器人听起来如此聪明的网站

让 ChatGPT 等聊天机器人显得聪明的，并不是某种真正理解世界的能力，而是海量网页文本塑造出的语言模仿能力。对 Google C4 数据集的分析显示，训练材料来自专利、百科、新闻、论坛、博客、盗版书库、选民数据库、宗教网站、极端主义社区和色情站点等复杂来源。高排名网站解释了模型为何擅长法律、媒体、软件和消费建议，也暴露出版权、隐私和偏见风险。过滤机制能删掉部分脏话和重复文本，却挡不住宣传、仇恨、阴谋论和个人信息进入训练语料。问题不只在数据规模，而在用户几乎无法追溯模型回答背后的来源。AI 的流畅表达因此既是互联网知识的压缩，也是互联网噪音和权力结构的再生产。当科技公司把训练数据越藏越深，公众就更难判断这些系统到底继承了哪些知识、偏见和未经许可的劳动成果。

PinnedPinnedPrivate

gatesnotes.com

人工智能时代已经开始｜比尔-盖茨

人工智能时代已经开始，因为它不再只是实验室里的模型，而正在变成像个人电脑、互联网和手机一样的基础技术。GPT通过高级生物考试并给出细致的人文回应，显示机器已经能处理复杂语言、推理和知识组织任务。它会改变白领工作方式：写邮件、整理文件、处理客服、准备会议、管理日程，都可能由嵌入软件的“副驾驶”协助完成。更进一步的个人代理会读取用户授权的信息，跨设备帮助沟通、安排和购买。风险同样现实，包括事实错误、偏见、隐私、劳动转型和监管问题。关键不在于让少数富裕人群提高效率，而是把能力导向健康、教育和气候等不平等最严重的领域。贫困国家的医疗工作者可以借助AI完成分诊、文书和诊疗辅助，学生也可能获得更个性化的数学辅导。技术本身不会自动变公平，政府、公益机构和企业必须主动设计目标、测试安全性并扩大可及性。

PinnedPinnedPrivate

blog.twitter.com

推特的推荐算法

推特的“为你”时间线本质上是一条多阶段推荐流水线，把每天数亿条推文压缩成少数可展示内容。系统先从关注网络内外各取候选，目标通常是约一千五百条；关注内推文依赖用户与作者之间的互动概率，关注外推文则通过相似兴趣、共同参与图谱和嵌入空间寻找可能相关的内容。随后，一个包含大量特征的神经网络预测点赞、转发、回复等互动概率，并据此排序。排序之后还要加入产品规则：过滤屏蔽或不适内容，避免同一作者连续霸屏，平衡关注内外比例，降低被负面反馈标记的内容，并通过共同关系为陌生来源提供质量保障。最终还会混入广告、关注建议等非推文元素。推荐不是单个神秘公式，而是候选召回、机器学习打分、人工规则和产品目标叠加的结果。透明度的关键也不只是公开代码，更是让用户理解为什么某条内容会出现在眼前。

PinnedPinnedPrivate

simonwillison.net

大型语言模型正在迎来稳定的扩散时刻

大型语言模型正在经历类似 Stable Diffusion 的开放拐点：原本只能通过少数公司 API 使用的强大模型，开始能在个人设备上运行和改造。LLaMA 的发布证明，用公开数据训练的较小模型也能接近 GPT-3 级能力；llama.cpp 又通过 C++ 移植和 4 位量化，把 7B、13B 模型压到普通笔记本可承受的范围。模型文件外流让控制权进一步扩散，研究预览迅速变成全球开发者的实验材料。这个变化削弱了平台对使用方式的约束，也带来滥用风险：自动化操纵、虚假内容、难以追责的本地部署都会变得更容易。但同样重要的是，个人和小团队终于能探索本地 AI 的正向用途，包括学习、编程、文档处理和离线工具。真正的竞争将转向完全开放、可商用、可在消费级硬件运行的语言模型，生成式 AI 的创新重心也会从封闭服务扩散到开源生态。

PinnedPinnedPrivate

AI内容生成第二部分：任务和模型

AI 内容工具的变化再快，也可以从“任务”和“模型”两层看清方向。研究人员训练模型去完成一组可测量的任务：整体分类、局部分类、比较两件事、提取片段、转换输入、生成新内容、预测缺失部分。前几类更像阅读和理解，后几类更像写作和创造；许多产品只是把这些能力包装成不同界面。模型训练阶段是在数据中建立数学表示，使用阶段则是把输入定位到潜在空间里，询问附近是什么、两点距离多远、它们之间能生成什么。图像领域的基础能力包括分类、物体检测和分割，分别回答图里是什么、东西在哪里、每个像素属于什么。掌握这些任务，比追逐每个新应用更有用，因为新产品大多只是这些能力的新组合。

PinnedPinnedPrivate

journals.plos.org

通过社交媒体分析对人类情感的细粒度

社交媒体可以把城市情绪观察推进到街区和场所层面，而不只停留在“积极或消极”的粗略判断。研究以旧金山和伦敦为样本，收集地理标记推文，并用神经网络识别愤怒、期待、厌恶、恐惧、信任、喜悦和悲伤七类细粒度情绪，再把这些情绪与开放街道地图中的兴趣点匹配。这样就能比较不同日期、不同地点类型、不同邻近范围对情绪表达的影响，例如绿色空间、交通设施、旅游景点、酒吧或体育场周边可能对应不同情绪模式。方法上的关键，是把社交媒体的实时表达与城市空间数据结合，让情绪成为可分析的城市现象。局限也很明确：数据只覆盖愿意发地理标记推文的人，语言以英语为主，推文内容受平台规则限制不能完整公开。

PinnedPinnedPrivate

newyorker.com

计算机能学习常识吗？

计算机能学习常识，但难点不在记住事实，而在把世界的隐含规则连成可用判断。人听到“奶酪汉堡刺伤”，会自然排除食物拿刀行凶、汉堡互相攻击等荒唐解释，推断为有人因汉堡刺伤他人；机器若只依赖规则或统计关联，就容易卡在这些角落案例。常识包含物理、因果、意图、社会规范和道德边界，清洁机器人要知道猫不能被丢掉，自动驾驶要知道贴了小纸片的停车牌仍是停车牌。早期路线试图用Cyc这类公理库手工编码世界，精确但笨重；新路线用语言模型和视频数据生成、筛选大量常识陈述，再让模型学习原因、结果和意图。它们已能在日常场景问答中接近人类，但仍缺少多模态经验、真实行动反馈和价值判断的稳固结合。

PinnedPinnedPrivate

GPT-3 能解释我的过去并告诉我的未来吗？

GPT-3 可以帮助解释过去，但不能神秘地预言未来；它的价值在于从长期记录中找出人自己难以看见的模式。一个人积累十年的日记，里面包含情绪、关系、野心、逃避、满足和失落的碎片。普通阅读很难回看全部材料，语言模型擅长概括，就能把分散片段重新组织成可理解的问题答案。直接把所有日记塞给模型并不可行，因为上下文容量有限。可行方法是先把日记切成小块，做成可检索索引；提问时先找出最相关片段，再逐层概括，最后合成回答。这样可以询问什么时候最快乐、某段关系为何结束、哪些需求长期未被满足、别人能看见而自己忽略的特质是什么。为了减少编造，提示必须要求模型只依据材料、找具体时刻、找不到就不下结论。结果不应被当作心理诊断或命运预测，而应当作为一种强力复盘工具：它把过去的文字变成可追问的镜子，让人更清楚地看见自己的价值、反复出现的困境和可能的下一步。

PinnedPinnedPrivate

GPT-3 是我用过的最好的日记本

GPT-3 之所以像一种更强的日记工具，是因为它把独处书写变成了可回应的对话。传统日记能留下记录、整理情绪、发现思维模式，也能帮助人重新解释经历，但它常常卡在空白页、重复提示和难以复盘旧记录上。语言模型能根据输入追问、改写、提炼和换角度回应，让人更容易把模糊感受说清楚。它可以扮演苏格拉底式提问者，帮助拆解问题和找出下一步；也可以模拟某些治疗取向，比如内部家庭系统、认知行为方法或价值观教练，引导人识别内在冲突、感恩体验和重要价值。它不能替代朋友、教练或治疗师，因为共情的真实性、风险判断和长期关系仍有限，但它能成为随时可用的辅助练习。真正有效的使用方式，是把它当作一面会提问的镜子，而不是把它当成权威答案。局限也很明显：通用聊天界面记忆薄弱，容易重复，无法自然承接长期背景。更好的形态应当能保存会话、生成阶段性记录，并在隐私和安全前提下帮助人观察自己的长期模式。

PinnedPinnedPrivate

stratechery.com

AI 和五巨头

生成式 AI 会重新分配五大科技公司的优势，但它未必只属于新创公司。判断关键在于它对既有业务是延续性创新还是颠覆性创新，以及谁能把互补品商品化。个人电脑、互联网、云和移动时代都显示，颠覆性变化常由新进入者推动，但新进入者也可能是大公司内部的另一套业务逻辑。苹果在 AI 图像生成上的位置很特殊：Stable Diffusion 开源、模型足够小，可以被优化到本地设备运行；苹果又控制芯片、操作系统和开发者 API，能把模型变成设备能力，而不是云端服务。Core ML 对 Stable Diffusion 的优化意味着隐私、离线使用和低服务器成本都能成为应用开发者的基础条件。这样一来，苹果可能像 App Store 时代一样受益，小型应用也能基于系统级生成能力做产品；受压的则是依赖集中式算力和付费云推理的图像生成服务。

PinnedPinnedPrivate