在我们进入人工智能时刻的第二年之际(现在称之为人工智能时代还为时过早且过于夸张),是时候考虑未来了。说清楚一点,除了人工智能的发展似乎比专家预期的要快得多之外,没有人能准确地告诉你人工智能的未来。随着如此多的变化如此迅速地发生,我们需要谨慎地对待预测,但这并不意味着我们不能对人工智能的未来一年做出任何有用的预测。阿马拉定律谈论的是整体变化,而真正的变化通常源于较小的社区和群体,源于用户创新者和有极端需求的人,或者源于实验室和大学的研究。这让我们想到了威廉·吉布森的第二句话,他曾写过著名的“未来已经到来——只是分布不均”——几十年的用户创新研究支持了这一点。现在有足够多的关于在实际工作中使用人工智能的仔细研究,可以得出三个关于 GPT-4 级人工智能如何影响工作绩效的结论: 1) 人工智能提升了复杂工作任务的整体绩效。例如,软件公司 IgniteTech 的首席执行官埃里克·沃恩迅速看到了人工智能的含义,并使其在今年夏天成为整个公司的强制性使用工具。
在今年的人工智能发展中,我们取得了显著的进步,完善了现有技术,而不是像前一年的 ChatGPT 或图像生成器那样推出突破性的创新。与 Photoshop 集成后,Adobe Firefly 实现了人工智能的民主化,将其威力一次性扩展到广大用户群。文本到图像算法的演变,2007 年与 2023 年对比 Stability AI:Stability AI 推出了用于生成视频的开创性模型 Stable Video Diffusion,可在 GitHub 上开源访问。谷歌的 Gemini 被引入 Bard 聊天机器人并在多模态数据集上进行训练,成为 "能力最强 "的人工智能模型,也是 OpenAI 的 ChatGPT 最接近的竞争对手。Grok:埃隆-马斯克(Elon Musk)的初创公司xAI发布了一款名为 "Grok "的聊天机器人,它幽默、叛逆,并能通过𝕏平台实时获取知识,这表明该公司致力于开发人工智能,有可能与OpenAI展开竞争。
在像数学研究这样可以自动检查工作的领域,我预测 GPT 2030 将胜过大多数专业数学家。最后,由于 AlphaFold 和 AlphaZero 在蛋白质工程和游戏方面具有超人的能力,GPT 2030 也可以,例如,如果它在与 AlphaFold/AlphaZero 模型类似的数据上进行多模式训练。GPT-4 在训练截止后提出的 LeetCode 问题上表现优于人类基线(Bubeck et al. 2023,表 2),并通过了几家主要科技公司的模拟面试(图 1.5)。在更具挑战性的 APPS 数据集上,Parsel 进一步优于 AlphaCode (7.8%-25.5%)。(2023) 使用 GPT-3 构建了一个系统,该系统发现并描述了大型文本数据集中的几种以前未知的模式,以及 Bills 等人中相关任务的扩展趋势。
Sam Altman 表示,OpenAI 将通过首先发明通用人工智能,然后询问它如何赚钱来实现盈利,这令投资者感到震惊。四年前,Demis Hassabis 在英国皇家科学院描述了 DeepMind 的使命,分两步进行:“1. 解决智能问题。我们认为人工智能可以像互联网一样具有“变革性”,提高生产力并改变习惯。在这个问题中,我们汇总了为什么变革性人工智能难以实现的最佳论据。因此,如果经济仍然需要人工智能无法改善的领域,比如建筑业,那么这些行业就会变得相对更有价值,并侵蚀写作带来的收益。Moravec 的悖论和 Steven Pinker 1994 年的观察仍然具有相关性:“三十五年的人工智能研究的主要教训是,困难的问题很简单,简单的问题也很困难。弗朗索瓦·乔莱 (François Chollet) 认为效率是核心,因为“无限的先验或经验可以产生几乎没有泛化能力的系统。
到2026年,生成式人工智能会在图像、视频和代码辅助上更有用,但距离完全自动生成好莱坞级电影或真正通用智能仍然很远。当前模型的进步很快,扩散模型已经能生成漂亮图片,代码工具也能实际提高开发效率,可它们的弱点集中在结构理解和长期一致性上。视频尤其暴露问题:一只熊的眼睛、船帆或人物位置会在帧间突然变化,因为模型更像是在预测像素序列,而不是稳定地维护物体、空间、动作和时间关系。电影不是一张好图,而是十几万帧都要合理、连贯、服从镜头和叙事。图像模型在构图上也常失败,面对多个物体和明确空间关系时容易漏掉或放错。纹理质量会继续提升,短片和素材生成会变强,动画可能比写实电影更早受益。但从好看到可靠,从单张到长序列,从像素相似到概念理解,是更难的一段路。
AI 内容生成的下一步,是从单一工具走向一种新的基础能力,像数据库、网络协议或超文本一样支撑大量新产品。开源模型、商业 API 和定制训练会并行发展,模型数量和变体会迅速增加,成本下降会让小团队也能训练特定用途模型。个性化将成为核心:模型可以学习一个人的照片、文字、语气、宠物和产品素材,生成替代现实的家庭照、商品图、插图或带有个人声音的草稿。写作软件也可能不再只是上传图片,而是根据上下文自动生成配图提示,并在浏览器端实时渲染。更深层的变化来自持续学习:未来模型不只在训练后静态推理,而是在使用中更新理解。难点是避免新信息覆盖旧知识,但一旦解决,软件会更像长期协作伙伴。
人工智能的下一个阶段会成为新的技术平台,而不只是若干好玩的工具。大型语言模型、多模态模型、代码生成、图像生成和代理式界面,正在把自然语言变成操作软件、获取服务和完成工作的入口。真正的商业机会不只在文案、客服或教育小工具,而在搜索、医疗、学习、企业软件和科学研发这些基础领域被重新组织。基础模型可能由少数公司提供,但持久价值会出现在中间层:企业用独特数据、专业流程和行业知识,把通用模型调成医疗、编程、科研、办公或个人助理等专用能力。更深的变化在科学上。人工智能不仅能帮科学家写代码、找方向、处理数据,还可能参与提出假设、设计实验和改进模型本身。最大的风险是对齐:强系统必须符合人类利益,避免误用、滥用和目标偏离。乐观并不等于忽略风险,而是把人工智能看作扩展人类能力的基础设施,并尽早建设约束它的制度和技术。