人工智能

AI、LLM、Agent、RAG、模型、提示词相关链接。

172 threads / Page 2 of 4

PinnedPinnedPrivate
tmp.bearblog.dev

我如何在网上保持合理的匿名性不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。因此,我的做法是随机编排 1 到 3 个单词,或许在末尾添加一个随机年份,有时使用 leet speak,有时使用一些用户名生成器。为每项服务手动创建新的电子邮件帐户非常繁琐,但幸运的是,有一些服务可以帮助我们完成这项工作: Firefox Relay(5 次免费,无限制每年约 12 美元) Fastmail 屏蔽电子邮件(无限制,30 美元/年) iCloud+ 隐藏我的电子邮件(无限量,0.99 美元/月) 有了这些服务,我就能获得类似于服务独有的 "别名"。1Password 与 Fastmail 的掩码电子邮件集成,因此我可以在网站注册时即时生成电子邮件和密码。如果我出于某种原因需要或想要一张个人头像,我会用以下方法生成一张: ThisPersonDoesNotExist、ThisCatDoesNotExist 或类似服务 Dall-E(根据我的提示生成图像) 有时我会在谷歌或类似网站上搜索 "随机 "图片,但我会尽量注意版权问题,绝不使用真人图片。


PinnedPinnedPrivate
simonwillison.net

嵌入(向量化)是什么不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。嵌入是一种与大型语言模型(即 ChatGPT 和 Bard and Claude 背后的技术)相邻的技术。我为每篇文章计算了 1536 维嵌入向量(浮点数数组),并将这些向量存储在网站的 SQLite 数据库中。与在 SQLite 中使用 TG、sqlite-tg 和 datasette-sqlite-tg 进行地理空间 SQL 查询相关的五篇最热门文章是 SQLite 中的地缘政治-2023-01-04 使用 SpatiaLite 和 Datasette 查看 GeoPackage 数据-2022-12-11 在 GDAL 中使用 SQL-2023-03-09 使用 SpatiaLite 进行 KNN 查询-2021-05-16 GUnion 在 SpatiaLite 中组合几何图形-2022-04-12 下面是我用来计算余弦相似度距离的 Python 函数: 我的 TIL 站点在我的 Datasette Python 框架上运行,。


PinnedPinnedPrivate
resobscura.substack.com

自 2023 年 1 月以来,我一直在加州大学圣克鲁兹分校的历史课上尝试使用 ChatGPT 等大型语言模型(LLM)作为教学工具。我的妻子罗亚-帕克扎德(Roya Pakzad)致力于测试人工智能系统对人权的影响,我也一直热心地关注着她的工作(罗亚曾在2022年担任OpenAI的顾问,她在 "红队 "中对GPT-4的预发布版本进行了对抗性测试;在的末尾,我提供了详细提示的链接,您可以使用这些提示来模拟不同的历史设置,也可以自定义与 Claude 或 ChatGPT(两者的免费版本效果差不多,但 GPT-4 效果最好)一起使用。对他来说,不是基督教教堂的大型宗教建筑几乎默认为清真寺,即使它实际上是 "Templo Mayor"。因此,当历史专业的学生遇到法学硕士时,他们已经接受了培训,能够识别 ChatGPT 等服务中一些现在已经司空见惯的陷阱--比如与事实不符--并通过事实核查、分析体裁和受众,或通过搜索相关资料 "围绕 "某个主题进行阅读等技能来解决这些问题。


PinnedPinnedPrivate
wired.com

OpenAI 真正想要的是什么不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。去年 11 月,OpenAI 推出了一款怪兽级产品 ChatGPT,引发了自互联网进入我们生活以来前所未有的技术爆炸。阿尔特曼没有参与 ChatGPT 及其更早熟的同胞兄弟 GPT-4 的研究、神经网络训练或界面编码。至少那些没有以 OpenAI 的可视化人工智能产品 Dall-E 生成的令人瞠目的图像为先导的公司是这样做的。在酿酒师查尔斯-威尔斯(Charles Wells,1842-1914 年)面无表情的肖像下,奥特曼向几乎所有观众提出了同样的问题。摄影:Jessica Chou 对奥特曼和他的公司来说,ChatGPT 和 GPT-4 只是实现简单而震撼人心的使命的垫脚石,这些技术专家可能已经在自己的肉体上烙下了这个使命。说OpenAI是邪教并不公平,但当我问公司的几位高层,如果有人不相信AGI真的会到来--它的到来将标志着人类历史上最伟大的时刻之一--是否能在这里安心工作时,大多数高管都不这么认为。


PinnedPinnedPrivate
lesswrong.com

Acknowledgements 致谢 我要感谢以下人士的反馈、建议和讨论: 詹姆斯-布拉德伯里,谷歌 DeepMind 软件工程师 本杰明-埃德尔曼,哈佛大学博士候选人 Horace He,。Contra FLOPs 反向 FLOP 认为衡量 ML 计算能力的最常用指标--浮点运算--是有缺陷的,因为不同类型浮点数的增加使得标准化变得困难,而且处理能力的成本只占 ML 成本的一小部分。ML Parallelism ML 并行性 对 ML 并行性技术进行概述,说明 "ML 并行性令人尴尬 "这一常见概念是如何被简单化的,以及在大规模情况下是如何被打破的--在大规模情况下,任何简单的模型并行化方法都会开始遇到瓶颈,因为无论涉及多少设备,单个设备的能力都会成为瓶颈。A few major takeaways: 几个主要收获 新的最先进(前沿)模型的成本可能在 10 亿美元左右,最近的前沿模型 GPT-4 的成本约为 5 亿美元。


PinnedPinnedPrivate
maggieappleton.com

最后一部分是重点,作者分享了如何通过语言模型进行设计。Slides and Transcript 幻灯片和文字稿 本讲座的主题是利用语言模型设计产品。我叫玛姬我在网上是这个样子的 我是一家名为 Elicit 的公司的产品设计师,该公司利用语言模型为专业研究人员和学者创建工具。我也是 "思想工具"(Tools for Thought)的爱好者,这也是我最初对语言模型感兴趣的原因。大部分训练数据来自两个大型数据集,即 CommonCrawl 和 WebText2。如果我给它一个短语 "Rubber ducks are......",让它完成这个句子,它就会根据训练数据预测出最有可能出现的下一个句子。您可以在 Hugging Face 上使用句子相似度计算器来感受这一点。目前,研究人员需要手动打开数百份 PDF 文件,扫描其中的重要数据点,然后将其复制到大型 Google Sheet 或 Excel 表格中。


PinnedPinnedPrivate
platformer.news

记笔记软件不会让我们更聪明,关键原因不在单一现象,而在于CM 我是 PKM 中度用户,对于笔记这件事我始终觉得是少部分人的「习惯」,但是我不知道这个少部分人的构成。不过,一般来说,农民使用的软件越多,他们就越会发现自己被这些工具收集的数据压得喘不过气来。可能属于 Platformer 的故事会被保存到生产力平台 Notion 的数据库中。Roam 的开发速度越来越慢,我花了一个季度的时间来使用轻量级、基本免费的替代软件 Obsidian。不过,Obsidian 的野蛮设计让我感到厌倦,最终我选择了用户界面更精致的 Mem(这些应用都能以 Markdown 格式导出笔记,因此切换起来相对简单)。它发生在你的电脑上,与电子邮件、Slack、Discord、iMessage 和你选择的文本社交网络为邻。这又回到了我在 Notion 中建立的链接数据库,以及我希望从 Roam 中获得的见解。


PinnedPinnedPrivate
github.blog

August 8, 2023 2023 年 8 月 8 日 经过三年多的构思、设计和发布人工智能驱动的开发者工具,GitHub 正在继续探索将强大的人工智能模型引入开发者工作流程的新方法。一路走来,我们认识到,设计人工智能驱动的产品最重要的一点是广泛关注开发人员体验(DevEx)。在这个问题中,我们将分享设计人工智能产品和开发人员工具的 10 个技巧,以及我们在设计、迭代和扩展 GitHub Copilot 过程中学到的第一手经验。GitHub Next 研究部高级总监 Idan Gazit 发现了新的交互方式,即开发人员表达和编写代码的模式。为了展示 GitHub Copilot 如何帮助开发人员更高效地进行构建,这里以一位开发人员学习如何提示人工智能配对程序员生成她想要的结果为例。领导 GitHub Copilot 设计团队的 Adrián Mato 解释说:"如果你没有自己的观点,就很难设计出好的产品。


PinnedPinnedPrivate
susam.net

下面引自 RFC 4122: 本规范为 UUID(通用唯一标识符)(也称 GUID(全球唯一标识符))定义了统一资源名称命名空间。下面是几个使用 Python 生成第 4 版 UUID 的示例: 版本 4 UUID 是目前最常用的 UUID 类型之一。在第 4 版 UUID 中,除六个比特位外,其他所有比特位都是随机生成的。下面是一个演示第一组固定位的 Python 小程序: 上述程序是一个无限循环。我们可以看到前面提到的两个版本 4 UUID 示例,并确认情况确实如此。下面还有几个例子可以说明这种模式: 第二个连字符后面的数字位于索引 14,事实上,这个数字总是 4。由于我们使用的是第 4 版 UUID 的变体 1,这两个位必须分别为 1 和 0。同样,对 RFC 第 4.1.2 节和第 4.1.3 节的研究表明,八位位组 6 最重要的四位必须设置为 0100,以表示版本号 4。


PinnedPinnedPrivate
huyenchip.com

最近,我与 Dropbox、Langchain、Elastics 和 Anthropic 一起参加了一个关于 LLM 的讨论会,他们认为公司在生产中采用 LLM 的第一大障碍是幻觉。减轻幻觉和制定衡量幻觉的标准是一个蓬勃发展的研究课题,我看到许多初创公司都在关注这个问题。了解更多有关幻觉的信息: 自然语言生成中的幻觉调查(Ji 等人,2022 年) 语言模型幻觉如何像滚雪球一样越滚越大(Zhang 等人,2023 年) 多任务、多语言、多模态评估 ChatGPT 对推理、幻觉和互动性的影响(Bang 等人,2023 年) 对比学习可减少对话中的幻觉(Sun 等人,。根据这篇很酷的论文 SituatedQA(Zhang & Choi,2021 年),很大一部分信息搜索问题的答案都与上下文有关,例如,在自然问题 NQ-Open 数据集中约占 16.5%。语境长度对于 RAG(Retrieval Augmented Generation)(刘易斯等人,2020 年)尤为重要,RAG 已成为 LLM 行业用例的主要模式。


PinnedPinnedPrivate
thepalindrome.org

线性代数中最被低估的一个事实:矩阵即图形,图形即矩阵。将矩阵编码为图形是一种 "作弊码",可以让复杂的行为变得简单易学。Strongly connectedness 紧密联系 与强连接图形相对应的矩阵称为不可还原矩阵。我们图形的相应矩阵可以简化为更简单的形式!Just like this: 就像这样 从左右两边与 P 相乘,效果更佳:行列互换。(顺便说一句,这是一种相似性变换,因为我们的特殊零一矩阵就是它的逆矩阵。我们只差两步就能证明,每一个非负平方矩阵都可以用一个置换矩阵变换成弗罗贝尼斯正态形式。Here is the plan. 计划是这样的 为我们的非负矩阵构建图形。例如,借助矩阵,我们可以定义图形的特征值!CM 我自己不是很能看懂,需要借助资料;。


PinnedPinnedPrivate
lesswrong.com

因此,今天早上我对自己说:"好吧,现在我将真正尝试研究 LK99 问题,而不是根据非技术性的先验和市场情绪计算来下注。然后我心想:"LK99 这个问题似乎很复杂,值得对其进行实际的贝叶斯计算"--这是一个罕见的想法;7 月 30 日,Danielle Fong 谈到了这张温度-电流-电压曲线图、 在\超导体\中,电压几乎保持不变,为 0。Fong 所说的图形只出现在 Young-Wan Kwon 最初发表的论文中,据称未经授权。(Andercot 最初就是这样介绍辛妮的结果的,预测市场随即出现大幅跳水。3-是-X: LK 不知道 Sinead 的计算方法,但我们已经知道材料的怪异之处,而且类似计算的假阳性率非常高,这意味着计算结果并不能完全说明 "是",我们也不会说 "游戏赢了"。问题 4:在 6 人论文或期刊提交的 LK 论文中,是否有任何其他结果具有 "这不是超导就是欺诈 "的特性?


PinnedPinnedPrivate
castig.medium.com

谁发明了互联网不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。互联网上发送的第一条信息--1969 年 10 月 29 日,查理-克莱恩(Charlie Kline)发送了互联网上的第一条信息 "lo"。我将与大家分享互联网的两位创始人,也可以说是互联网的奠基人--文特-瑟夫(Vint Cerf)和鲍勃-卡恩(Bob Kahn)的辉煌历史:文特-瑟夫(Vint Cerf)和鲍勃-卡恩(Bob Kahn)。而这两个人正是功不可没的:文特-瑟夫(Vint Cerf)和鲍勃-卡恩(Bob Kahn)。Vint Cerf 和 Bob Kahn 分享了一个全球去中心化互联网的愿景。IP — Internet Protocol IP - 互联网协议 IP 将您的数据连接到互联网的地址系统。Vint Cerf 最近在谷歌的一次演讲中概述了 TCP/IP 的一些问题,例如它无法正确处理以下问题:1)安全(病毒、数据黑客攻击、网络钓鱼等);。


PinnedPinnedPrivate
lesswrong.com

什么时候可以相信模型评估不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。如果我们认为下一个模型在试图引发灾难时可能会造成灾难,那么就对该模型是否会试图引发灾难进行大量的对齐评估: 如果我们相信对齐评估的缩放规律,相信下一个模型会对齐,不会试图造成灾难,那么训练就没问题。通过模型编写的评估发现语言模型行为" paper. 目前的大多数评估都属于这一类,例如我们的 "用模型编写的评估发现语言模型行为 "论文。例如,评估模型在 SAT 考试中的表现属于能力评估,而评估模型越狱的难易程度则属于排列评估。参见此处的 "有条件叛逃). 保罗-克里斯蒂亚诺(Paul Christiano)在这方面的经典案例是一个寻找 RSA-2048 因式分解的模型(参见此处的 "条件变节")。因此,要使行为非微调评估值得信赖,你必须相信--出于某种与你进行的行为非微调评估无关的原因--模型并没有试图在你的评估中做手脚。


PinnedPinnedPrivate
blog.bhanuteja.dev

我们可以在 ( ) 标签的 属性上看到 、 和 等值。例如,假设 Hashnode 中的链接目标设置为 ,但没有 属性,则打开的标签页(新标签页)中的 属性会自动设置为打开标签页的窗口( 标签页)。由于新标签页现在可以访问前一个标签页的窗口,因此新标签页可以使用 设置旧标签页的位置,并在该假网站上显示登录页面,提示 "您已注销,请重新输入登录凭据登录"。如果用户没有检查域名是否已更改并输入登录凭据,攻击者就可以获取用户登录 Hashnode 网站的详细信息。如果不想向外部链接传递任何引用信息,那么可以考虑使用 值,否则就不要使用。Conclusion 结论 您可以(也许应该)在所有带有 的链接上使用 rel="noopener"。rel="noreferrer" 的作用与 相同,尤其是在不支持 的旧版浏览器中。此外,设置 rel="noreferrer" 还会影响外部网站的分析。


PinnedPinnedPrivate
k3tan.com

隐藏自己的网络身份,关键是把目标、限制和可执行步骤放在同一个框架里,而不是只追求单点技巧。我不会注册 Gmail 账户,而是选择一个免费的 Protonmail 账户。The laptop 笔记本电脑 笔记本电脑很可能自带 Windows 操作系统。购物中心通常也会有免费 WiFi,所以请前往美食广场,打开笔记本电脑,下载 Pop!OS 和 Balena Etcher。将 eSIM 卡导入 Pixel 3a 设备后,您就可以在全球范围内使用手机访问移动网络,无需 KYC。不幸的是,家庭网络连接需要你用自己的身份注册,并通过传统的银行系统支付,而不是比特币。Incremental upgrades 增量升级 接下来我要做的事情就是自行托管我的数据。我会再次从胶树上购买一台旧台式电脑(包括显示器),在上面安装 Pop! 我将创建一个 nextcloud 虚拟机和一个 bitwardenrs 虚拟机来托管这些服务。


PinnedPinnedPrivate
understandingai.org

今天的作者是加州大学圣地亚哥分校的认知科学家肖恩-特洛特(Sean Trott)。当时,机器学习研究人员已经对大型语言模型(LLM)进行了数年的实验,但普通大众并没有密切关注,也没有意识到这些模型已经变得如此强大。我们的目标是在不使用专业术语或高等数学的情况下,解释这些模型的内部工作原理。最后,我们将解释这些模型是如何训练出来的,并探讨为什么良好的性能需要如此大量的数据。单词过于复杂,无法仅用两个维度来表示,因此语言模型使用了数百甚至数千个维度的向量空间。dog and cat) close together in vector space. 随着时间的推移,为预测哪些词与哪些词同时出现而训练的神经网络学会了在向量空间中将类似的词(如狗和猫)放在一起。例如,谷歌研究人员将最大(biggest)的向量减去大(big),再加上小(small)。如果一个语言模型了解了猫的一些情况(例如:它有时会去看兽医),那么小猫或小狗也很可能会有同样的情况。


PinnedPinnedPrivate
eugeneyan.com

具体到发现系统(即推荐和搜索),我遇到的大多数实施方案都遵循类似的范式--组件和流程分为离线和在线两种。不过,在下面的例子中,我们也会看到使用图(DoorDash)和决策树(LinkedIn)的系统。基于上述 2 x 2 的推荐和搜索基本系统设计。在在线环境中,每个请求从左到右依次经过检索和排序步骤,然后返回一组结果(如推荐、搜索结果)。更新:这一 2x2 后来被其他资源引用,包括 英伟达™(NVIDIA®)"推荐系统,不仅仅是推荐模型 Xavier Amatriain 的 " RecSys 架构蓝图 阿里巴巴、Facebook、京东、Doordash 等公司的例子。我将重点介绍这些系统如何分为离线和在线环境,以及它们的检索和排名步骤。Facebook 通过查询和文档编码器设计基于嵌入的检索。电子商务搜索系统的主要阶段(左),JD 的候选检索设计(右)。为了解决这个问题,他们建立了一个定制的 TensorFlow 数据集,其中用户和项目数据首先作为查找字典加载到内存中。


PinnedPinnedPrivate
astralcodexten.substack.com

埃隆-马斯克新成立了一家人工智能公司 xAI。这个问题我可以谈很久,我已经考虑了很久,实际上我并不愿意在这个领域做任何事情,因为我担心数字超级智能的巨大威力。他在那次讨论和后来的后续讨论中介绍了他的调整策略: 前提是让人工智能具有最大限度的好奇心、最大限度的求真精神,我说得有点深奥,但我认为,从人工智能安全的角度来看,一个具有最大限度好奇心的人工智能--一个试图了解宇宙的人工智能--我认为将是亲人类的,因为从人类的角度来看,人类要比不人类有趣得多......。我会担心 OpenAI 对人工智能进行编程的方式--这个好,那个不好。但如果大致如上所述,我确实认为有两个大问题: 1. It won’t work 没用的 如果真的有用,那就糟了。早在 2010 年,我们就曾讨论过长期目标之类的问题,希望人工智能编程人员能写一个 long\term\goal.txt 文件,然后写一些指向该文件的函数。


PinnedPinnedPrivate
subconscious.substack.com

在强化循环中,上一个状态的结果会反馈到下一个状态中,从而产生滚雪球效应。冰盖融化:更少的冰意味着更少的阳光反射意味着更多的变暖意味着更少的冰。例如,更多的狐狸意味着更少的兔子(平衡反馈),但过多的捕食会导致兔子种群崩溃(强化循环),导致狐狸种群崩溃(强化循环),让兔子数量激增(强化循环)。破碎的反馈:线性努力产生线性回报 平衡反馈:线性努力产生收敛 强化反馈:线性努力产生指数级回报 大多数笔记应用都有中断的反馈。Zettelkasten 的核心游戏机制是将您的笔记归档到您想要再次绊倒的地方。可利用物、雪克隆物、relatable内容、热点、口渴陷阱、扣篮的火焰诱饵,所有这些都在无情的选择压力下,以增强病毒式传播。能动性不是努力或意志力的功能,而是你周围反馈循环的功能。对于我们的应用程序Subconsciousness来说,这是新兴的集体智慧。我告诉他,我们必须让SFI播客的主持人迈克尔·加菲尔德(Michael Garfield)加入。


PinnedPinnedPrivate
oneusefulthing.org

使用AI做事:固执己见的指南,关键是把目标、限制和可执行步骤放在同一个框架里,而不是只追求单点技巧。每家公司都可以通过聊天机器人直接访问他们的模型:OpenAI制造GPT-3.5和GPT-4,它们为ChatGPT和Microsoft的Bing提供支持(在Edge浏览器上访问它)。所以这是你的快速参考图表,归纳了LLM的状态: 前四个(包括Bing)都是OpenAI系统。Microsoft的Bing混合使用4和3.5,通常是GPT-4系列中第一个推出新功能的型号。最透明的选项:Adobe Firefly 最佳免费选项:Bing或Bing Image Creator(使用DALL-E),Playgound(允许您使用多个模型) 有四个大型图像生成器可供大多数人使用: 稳定的扩散,这是开源的,您可以从任何高端计算机运行。DALL-E,来自OpenAI,它被合并到Bing(你必须使用创作模式)和Bing图像创建器中。


PinnedPinnedPrivate
stackoverflow.blog

他们想象所有的业务主管和产品研究人员都会绕过大部分或全部软件开发人员,直接要求人工智能构建他们认为自己想要或需要的东西。创建软件最困难的部分不是编写代码,而是创建需求,而这些软件需求仍然由人类定义。这不是一个错误,这是一个功能......不等等,这是一个错误 在我的软件职业生涯早期,我被安排参与一个项目的中游,以帮助提高团队的速度。“That will never happen” “那永远不会发生” 这是一位在公司工作多年的高级管理人员,了解公司的业务流程,并且被选来监督该软件是有原因的。问题变得更大、更难解决、成本更高,但问题的根源通常是相同的:需求不明确、不一致或错误。达到可接受的安全水平如此困难的原因是,驾驶汽车比国际象棋需要更多的变量,而这些变量不是有限的。当你构建软件时,你可能会得到想要的结果,但它不太可能像国际象棋那样单一。最近,我被要求帮助一个团队构建一些东西,可以帮助人们获取与 COVID 19 相关的健康问题的信息。


PinnedPinnedPrivate
nngroup.com

ChatGPT 和其他人工智能系统正在准备推出计算历史上的第三个用户界面范例——60 多年来的第一个新的交互模型。从计算机诞生以来,即 1945 年左右,第一个 UI 范式就是批处理。范式 2:基于命令的交互设计 1964 年左右,分时技术(多个用户通过连接的终端共享一台大型计算机)的出现导致了第二种 UI 范式:基于命令的交互。基于命令的交互已经成为贯穿三代用户界面技术的基本方法:命令行(如 DOS 和 Unix)、全屏基于文本的终端(常见于 IBM 大型机)和图形用户界面(GUI:Macintosh、 Windows 和所有当前的智能手机平台)。自 1984 年 Macintosh 推出以来,图形用户界面一直主导着 UX 世界:大约 40 年的霸主地位,直到它可能被下一代 UI 技术取代,更重要的是,被人工智能形式的下一个 UI 范例所取代。The Newest Paradigm 最新范式 范式 3:基于意图的结果规范 我怀疑当前的生成式人工智能工具集(如 ChatGPT、Bard 等)能否代表我们几年后将使用的 UI,因为它们存在根深蒂固的可用性问题。


PinnedPinnedPrivate
lesswrong.com

General notes: 一般注意事项: 我不会试图在这个练习中耍花招。您甚至可以进行部分运行,例如将球滚下坡道并停在底部,或者将球扔到空中。看起来这可能应该是一个基本的物理问题……但一定有某种扭曲,否则他为什么要让我们这样做呢?好吧,现在我已经明白了……好吧,我想是时候看看如何解决这些物理问题了,我想我比我想象的更生疏。好吧,毕竟我不需要做任何曲线的事情,我只需要做一些势能/动能计算(忽略摩擦力和空气阻力等),就是这样!\Blackboard Montage\ \黑板蒙太奇\ implies 暗示 3.4 m/s 3.4米/秒 implies 暗示 Result: 结果: = 0.8 m = 0.8 m 给定球距桌子的高度、质量和重力常数,我宣布球在斜坡末端的速度为 3.4 m/s,直接水平于地面。好吧,我从来不喜欢物理,所以让我们先从整体上看问题,然后再将其分解成很小的部分——呃,做物理。


PinnedPinnedPrivate
economist.com

如果人工智能要继续变得更好,它将不得不以更少的资源做更多的事情 说到 "大型语言模型"(llms),如gpt--它为美国研究实验室Openai制造的流行聊天机器人Chatgpt提供动力--线索就在名字里。如果Epoch ai每10个月翻一番的数字是正确的,那么到2026年,培训成本可能超过10亿美元--假设模型不会首先耗尽数据。Quantitative tightening 量化紧缩 相反,研究人员开始将注意力转向使他们的模型更有效率,而不是简单的更大。华盛顿大学的研究人员发明了一种更有效的方法,使他们能够在一天之内在单个gpu上从llama创建一个新的模型,Guanaco,而不牺牲太多的性能,如果有的话。这是 "目前游戏的一个巨大部分",开源AI公司Hugging Face的首席科学官Thomas Wolf说。Learn to code 学习编码 例如,在2022年,斯坦福大学的研究人员发表了 "注意力算法 "的修改版本,它允许llms学习单词和想法之间的联系。


PinnedPinnedPrivate
rootsofprogress.org

人工智能会不可避免地寻求权力吗不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。AI’s “basic drives” 人工智能的“基本驱动力” 争论是这样的。如果我们把这个推向极端,我们可以想象一个人工智能为了获取金钱和权力而欺骗人类,禁用自己的开关,像伏地魔的魂器一样在互联网上复制自己的副本,使自己独立于任何人类控制系统(例如,通过建立自己的电源),在发生暴力冲突时武装自己,如果认为其他智能体是未来的潜在威胁,则首先对其发起打击,并最终发出冯·诺依曼探测器以获取所有资源在其光锥内致力于其目的。Steve Omohundro(2008)首先提出人工智能将具有这些“基本驱动力”;针对人工智能风险的两个常见论点是:(1)人工智能只会追求我们给它的目标,(2)如果人工智能开始行为不当,我们可以简单地将其关闭并修补问题。人工智能系统的目标可能是辅导学生熟练掌握微积分、增加最新 Oculus 耳机的销量、治愈癌症或回答 P = NP 问题。


PinnedPinnedPrivate
bastian.rieck.me

要写,关键原因不在单一现象,而在于相比之下,写作迫使你采取更简洁的观点:大多数场所对你可以使用的字数或页数都有限制,我认为这些限制从根本上来说是一件好事,因为它们迫使你你的解释更有创意,并且你使用的单词数量更吝啬。我认为在写下你的想法时,你至少会经历以下事情之一: 您将获得有关如何改进您的研究的想法。最后一部分特别相关:我发现很容易欺骗自己相信我理解某些技术或方法,但只有通过实际将它们写下来,我才有办法看看我是否足够好地内化了知识以实际产生一些东西用它。答案 2:写作可以增加你的受众 不幸的是,大多数学术研究都不会被广泛阅读。”的第二个回答是,对写得好的和写得好的论文的任何投资都可以通过吸引其他学科的读者来获得回报,这往往会带来意想不到的结果。例如,我在降维算法及其评估方面的工作在我之前的研究社区中陷入了困境,但它被不同的社区所接受——我什至收到了一些合作邀请,因为人们喜欢我试图激励某些方面的方式(我是坚信建立方法直觉)。


PinnedPinnedPrivate
zhengdongwang.com

变革性人工智能真的很难实现,关键原因不在单一现象,而在于Sam Altman 表示,OpenAI 将通过首先发明通用人工智能,然后询问它如何赚钱来实现盈利,这令投资者感到震惊。四年前,Demis Hassabis 在英国皇家科学院描述了 DeepMind 的使命,分两步进行:“1. 解决智能问题。我们认为人工智能可以像互联网一样具有“变革性”,提高生产力并改变习惯。在这个问题中,我们汇总了为什么变革性人工智能难以实现的最佳论据。因此,如果经济仍然需要人工智能无法改善的领域,比如建筑业,那么这些行业就会变得相对更有价值,并侵蚀写作带来的收益。Moravec 的悖论和 Steven Pinker 1994 年的观察仍然具有相关性:“三十五年的人工智能研究的主要教训是,困难的问题很简单,简单的问题也很困难。弗朗索瓦·乔莱 (François Chollet) 认为效率是核心,因为“无限的先验或经验可以产生几乎没有泛化能力的系统。


PinnedPinnedPrivate
lesswrong.com

GPT不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。在像数学研究这样可以自动检查工作的领域,我预测 GPT 2030 将胜过大多数专业数学家。最后,由于 AlphaFold 和 AlphaZero 在蛋白质工程和游戏方面具有超人的能力,GPT 2030 也可以,例如,如果它在与 AlphaFold/AlphaZero 模型类似的数据上进行多模式训练。GPT-4 在训练截止后提出的 LeetCode 问题上表现优于人类基线(Bubeck et al. 2023,表 2),并通过了几家主要科技公司的模拟面试(图 1.5)。在更具挑战性的 APPS 数据集上,Parsel 进一步优于 AlphaCode (7.8%-25.5%)。(2023) 使用 GPT-3 构建了一个系统,该系统发现并描述了大型文本数据集中的几种以前未知的模式,以及 Bills 等人中相关任务的扩展趋势。


PinnedPinnedPrivate
subconscious.substack.com

东方:通过构建一个世界模型来理解你的感官 决定:将你的模型转化为一个计划 行动:做一些事情来实现改变 ......你的行为会给你的环境带来直接的变化,也会产生涟漪效应。博伊德开发了OODA循环框架来解释战斗机飞行员如何在冲突中获胜。例如,OODA循环与机器人范式的感知-计划-行动循环几乎相同,这并非偶然。(Boyd, 1981. 冲突模式) 通过保持更好的意识,人们可以创造机会,以对手认为非常不规范和混乱的方式行事。当某些东西的行动比你能理解它的速度快时,它就会进入你的OODA循环。任何东西都可以进入你的OODA循环。我们已经达到了一个信息缩放的门槛,互联网已经进入了每个人的OODA循环。From Thinking Together: 摘自《共同思考》: 互联网极大地增加了我们信息环境的复杂性,但还没有产生使其合理化的工具。它被帮助你确定方向的人工智能代理所迷惑,并由世界范围内的分散知识图谱Noosphere提供动力。


PinnedPinnedPrivate
jonstokes.com

生成式人工智能如何修复新闻不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。我发现自己一直在努力向人们宣传 "人工智能可以拯救新闻",所以我试图在这里把大部分的想法记录下来,供以后参考。人工智能可以为那些以帮助公众维持我们集体现实的各个角落的现有的、合理有用的心理模型为生的人类团队做很多事情。有太多的实时感知工具需要建立在当前一代人工智能模型之上,我觉得我知道其中一些工具应该是什么样子的,所以在中,我将描述它。在我讨论人工智能驱动的感知中心(用传统说法就是 "新闻编辑室")可能是什么样子之前,我需要提供一些背景知识,说明把一个故事从投稿或任务一直带到成品的过程。️ 以下是大多数新闻编辑室处理一个故事的核心过程,这些步骤大致按时间顺序排列。标题和摘录:你听说过的每一个新闻机构都有一个专门的流程,用于生成可点击的标题和摘录,并将其放在社交媒体的OpenGraph描述中,这个流程甚至可能不涉及撰写故事的记者。


PinnedPinnedPrivate
medium.com

然而,具有讽刺意味的是,一段时间以来,我一直在广泛地使用Obsidian,Obsidian不是一个大纲编辑器,而是一个长篇的markdown编辑器。即便如此,你还是可以通过Obsidian的功能和插件实现舒适的 "类似大纲 "的编辑体验。我不时地看到关于提纲的问题,例如丹尼-哈奇尔提出的这个问题: Good question Danny! 好问题,Danny! 在中,我将解释如何用 "原生 "的黑曜石来完成类似大纲的编辑,以及一些插件,使黑曜石的大纲更进一步。Smart indent lists 智能缩进列表 在 "设置 "中,在 "编辑器 "选项卡下,启用 "智能缩进列表 "选项。下面是纯文这个问题件的模样: 纲要是以标准的markdown列表的形式输出的,有tab缩进。请注意如何使用两种不同的方法来折叠一个项目列表: Folding and unfolding 折叠和展开 你会注意到,我们可以使用命令调板Toggle Fold on Current line命令在其父级层面上折叠列表。


PinnedPinnedPrivate
jonstokes.com

到目前为止的故事:在本系列的上一篇文章中,我将RLHF描述为微调阶段,在这个阶段,我们赋予ML模型以道德指南针或对什么是好和坏的感觉。这些问题有很多,所以这个问题的重点是为下一期对聊天机器人道德教化的内部运作的狭义调查打下基础。从人类反馈中强化学习(RLHF)显然将人工智能的道德指南针置于第二阵营中--即一个人对 "好 "和 "坏 "的先天感觉是群体共识的直接产物,因此,从坏中学习好是一个被合适的人类群体适当地社会化的问题。道德教育是否可以简化为 "学习如何用正确的行动和语言取悦他人,以便为自己或社区获得一些利益",或者这种类型的学习更适合称为 "修辞",而真正的道德教育则完全是另一回事?回顾一下上一期关于监督下的微调(SFT)的内容,以便为RLHF的讨论做准备: 基础模型经过训练,可以产生与输入提示有某种联系的文字、像素、视频帧等的序列,这些序列具有使它们对人类来说是合理和有意义的品质。


PinnedPinnedPrivate
commoncog.com

雅诗-兰黛的儿子伦纳德-兰黛是最早努力解决个人品牌建设问题的人之一。把一个人变成一个品牌的艺术,本质上是建立一个投影的艺术--一个你想插入其他人头脑中的人的模型。然而,为了创建雅诗兰黛的品牌,Leonard Lauder将她缩减到只有最符合公司利益的核心投影。在社交媒体上建立投影的想法绝不是什么新鲜事--Shawn Wang,我认为是软件世界中最好的个人品牌建设者之一,在他的《如何推销自己》指南中这样说: 我的个人品牌的其他方面并没有得到那么多的关注。我是一个巨大的泰瑞-普拉切特粉丝(GNU Terry Pratchett)。声誉和个人品牌不是一回事 这个话题中最有趣的张力之一是声誉和个人品牌之间的差距。我目前思考这个问题的最佳框架是,声誉是别人对你的评价,而个人品牌是你对自己的投射。" (我从April Dunford那里偷了这个例子,因为她用它来说明这个确切的观点:当你在一个早期阶段的公司,在你尝试之前,你怎么知道一种营销策略是否比另一种更好?


PinnedPinnedPrivate
jonstokes.com

这种采用预先训练的基础模型并为它们注入价值观、道德和政治的业务,无疑是整个 AI 努力中最具争议和政治敏感性的部分。或者,用我的 RETURN 同事 James Poulos 的话来说,我们可以说这是对模型进行教理问答的地方——这是对他们进行道德教育的地方。我们现在使用的大型语言模型,尤其是来自 OpenAI、Google 和 Anthropic 的模型,都有一个重要的共同点:它们都经历了一系列训练后的微调阶段,使人类更容易理解它们使用,但要付出代价。当您将相同的文本放入 GPT-4 的基础模型时,它进入模型时完全没有任何此类解释性线索和线索。” “首先确保汽车安全地离开路肩并远离交通……” 换句话说,当提示包含一个没有上下文线索可以指导解释的直接问题时,实际上根本没有理由让基础模型假设最合适的输出是提示问题的答案。♂️ 基础模型如果要知道如何回答,要么需要在问题旁边添加更多信息,要么需要进一步训练以假设最适合直接问题的输出是直接答案。


PinnedPinnedPrivate
lithub.com

在百老汇音乐剧 Q 大道的虚构世界中,Kate Monster 是一个举止甜美、身着淡紫色高领毛衣和波波头发型的木偶。但当她向一位名叫 Trekkie Monster 的隐居、头发蓬松的邻居描述她的课程时,他打断了每一行,他说互联网的真正原因是:色情。当 Avenue Q 于 2003 年以其歌曲“The Internet is for Porn”首映时,它成为第一张带有家长咨询标签的百老汇演员专辑。2005 年出版的 Pornified 一书的作者帕梅拉·保罗 (Pamela Paul) 是这么说的:“所有的色情内容,所有的时间。这一估计与《纽约时报》2001 年 Juniper Media Metrix 调查报告的数据相似,该调查估计当年有 2800 万色情网站用户。幸运地与两家最大的制作公司 Vivid 和 Wicked Pictures 签约的色情明星可以通过拍摄两个场景每周赚取 10,000 美元。


PinnedPinnedPrivate
humanloop.com

根据 Sam Altman 的说法,OpenAI 的计划 上周,我有幸与 Sam Altman 和其他 20 位开发人员坐下来讨论 OpenAI 的 API 及其产品计划。讨论涉及实际的开发人员问题以及与 OpenAI 的使命和人工智能的社会影响相关的更宏观的问题。以下是要点: 1 OpenAI 目前严重受 GPU 限制 整个讨论中出现的一个共同主题是,目前 OpenAI 非常受 GPU 限制,这推迟了他们的许多短期计划。OpenAI 还没有克服 O(n^2) 的注意力扩展,因此尽管他们很快就会有 100k - 1M 令牌上下文窗口(今年)似乎有道理,但任何更大的东西都需要研究突破。Finetuning API——微调 API 将扩展到最新的模型,但具体形式将取决于开发人员表示他们真正想要的东西。4 OpenAI 将避免与他们的客户竞争——除了 ChatGPT 不少开发人员表示,当 OpenAI 可能最终发布对他们具有竞争力的产品时,他们对使用 OpenAI API 进行构建感到紧张。


PinnedPinnedPrivate
a16z.com

我们将其称为“AI 经典”,因为这些论文、博客文章、课程和指南在过去几年中对该领域产生了巨大影响。最后,我们提供了一份具有里程碑意义的研究成果的参考列表,首先是“Attention is All You Need”——谷歌 2017 年的论文,向世界介绍了 transformer 模型并开创了生成式 AI 的时代。我们首先简要介绍了正在推动当前 AI 浪潮的 Transformer 和潜在扩散模型。A gentle introduction… 温柔的介绍…… 这些文章不需要专业背景,可以帮助您快速了解现代 AI 浪潮中最重要的部分。随着 LLM 的快速发展,这篇论文被证明是有先见之明的,它为 AI 市场如何发展提供了一个很好的思维模型。GPT 的状态:同样来自 Karpathy,这是一个非常平易近人的解释,解释了 ChatGPT/GPT 模型的一般工作原理、如何使用它们以及研发可能采取的方向。


PinnedPinnedPrivate
wattenberger.com

聊天机器人不是未来,关键原因不在单一现象,而在于为什么聊天机器人不是未来 昨晚,在美酒佳肴中,不可避免的事情发生了…… Someone mentioned ChatGPT. 有人提到了 ChatGPT。自从 ChatGPT 大受欢迎以来,我的内在设计师就一直力不从心。为了避免未来的熟人,我今天来找你:因为你自愿和我一起来这里,我们能否讨论一下聊天机器人不是界面未来的几个原因。我会给你描述我的梦,你会根据梦中出现的符号和主题提供解释. How should you not respond? 不回应怎么办?不要提供关于梦者的个人意见或假设. 根据给定的信息仅提供事实解释. How should we start? 我们应该如何开始?最近,我的团队发布了一个名为 Copilot for Docs 的原型,探索使技术文档更易于开发人员使用的方法。Avoid No man's land 避开无人区 有一种持续的趋势正在推动持续消费更短的、引人入胜的内容。


PinnedPinnedPrivate
economist.com

Openai 的聊天机器人使用大型语言模型 (llm) 技术,在 11 月推出。不久之后,Expedia、Instacart 和 OpenTable 等消费产品将接入 Openai 的机器人,允许人们通过在框中键入文本来订餐或预订假期。捐赠机构 Open Philanthropy 的汤姆·戴维森 (Tom Davidson) 于 2021 年发表的一项研究显示,本世纪某个时候出现“爆炸性增长”(定义为全球产出每年增长 30% 以上)的可能性超过 10%。麻省理工学院 (mit) 的 Basil Halperin 及其同事的研究指出,通货膨胀调整后的利率与随后的 GDP 增长密切相关。研究人员得出结论,金融市场“预计……至少在 30 到 50 年的时间范围内……人工智能引起的增长加速的可能性不大。Fogel 发现,事实上,它的影响非常有限,因为它取代了技术(例如运河),而这些技术本来可以做得很好。


PinnedPinnedPrivate
asianometry.substack.com

人工智能硬件行业正在尽可能快地扩展内存和处理单元性能,但是硬件性能并没有跟上模型增长的速度,尤其是在内存方面。内存墙问题是人工智能硬件的一个限制,即处理单元需要等待内存执行读 / 写操作,从而浪费多个处理周期。人工智能硬件行业正在研究内存中心范例来解决内存墙问题。Keywords: 人工智能硬件、内存墙、内存中心范例、处理单元、电力连接 如果你想先看视频,下面是: 在 ChatGPT 风靡世界之前很久我就制作了这个视频,所以它还没有引起我的注意。回复此电子邮件或发送电子邮件至 [email protected] 最近,我正在收听 OpenAI 首席科学家 Ilya Sutskever 的播客采访,我发现其中一件有趣的事情是他认为硬件计算不是 AI 研究的限制。Google 的 Imagen 有 46 亿个,GPT-3 有 1750 亿个参数。如今,顶级的 Nvidia 数据中心 GPU A100 和 H100 拥有 80GB 内存。


PinnedPinnedPrivate
pinecone.io

矢量数据库是专门存储和检索向量嵌入的数据库,用来让 AI 系统按语义相似度查找信息。大语言模型、生成式应用和语义搜索会把文本、图片或其他内容转换成高维向量,这些向量包含概念、关系和上下文信息。传统数据库擅长精确匹配字符串、数字和字段,难以高效处理“意思相近”的查询;独立向量索引如 FAISS 能加速相似度搜索,却缺少完整的数据管理能力。矢量数据库把向量索引、原始内容引用、元数据过滤、插入更新、扩展、安全和备份放在一起。典型流程是先用嵌入模型把内容转成向量并写入数据库,查询时再把问题转成向量,寻找最接近的邻居,然后返回关联内容。底层常用近似最近邻搜索,通过随机投影、量化或图结构在速度和准确性之间取舍。它让 AI 获得可检索的长期记忆,而不必把所有知识塞进模型参数。


PinnedPinnedPrivate
buttondown.email

标签系统看似只是给内容贴名字,实际是在设计一种可查询、可组织、可演化的元数据语言。最简单的标签由名称唯一标识,容易实现,但会遇到同义词和拼写差异;标签别名可以把多个说法归到一个规范标签下。子标签把标签放进层级结构,查询父标签时包含子标签内容,但要处理循环、防止冗余,并决定用户能否只查父级或叶子。更复杂的 DAG 标签允许多个父级,表达力更强,查询语义也更模糊。智能标签不靠人工分配,而是按规则自动归类,例如无坚果食谱,但规则之间可能产生逻辑悖论,计算成本也高。哈希标签把标签嵌入正文,适合社交发布,却难以表达空格、别名和额外元数据。键值标签适合云资源、迭代计划等技术场景。设计标签系统时,必须先弄清谁在打标签、谁在查询、标签是否会被滥用,以及结构复杂度是否真的值得。


PinnedPinnedPrivate
subconscious.substack.com

免信任协议优于信任协议,因为它把所有权和授权放在用户可控制的密钥上,而不是放在某个中心账户系统里。传统登录要求用户向平台请求访问权,平台实际掌握账户、数据和通信入口,也能撤销访问、制造锁定或窥见交流关系。免信任协议使用公私钥完成身份认证和授权,密钥本身就是凭证,用户不必依赖权威机构证明自己是谁。这并不意味着所有人都必须独自承担丢钥匙的风险;免信任设计可以在上层加入托管、硬件备份、社交恢复或未来的零知识恢复方案。关键差异在于选择权:可信协议把中心权威写进基础设施,用户无法更换;免信任协议只要求通用密钥接口,是否托管、由谁托管、如何恢复,都能作为可替换层演进。密钥像协议里的基础连接点,足够简单,才能支撑开放生态和可信退出。


PinnedPinnedPrivate
geekplux.com

提升互联网隐私的关键不是寻找单一神器,而是按风险叠加几层合适的保护。DNS 是第一层,Cloudflare 1.1.1.1 通过更快的解析和 DoH、DoT 加密,减少运营商或中间人看到浏览查询的机会。苹果 iCloud Private Relay 则把流量拆给两个中继处理:苹果知道用户 IP 但不知道访问目标,第三方知道目标网站但不知道真实身份,从而降低单一机构掌握完整轨迹的可能。两者一起用,能覆盖日常浏览的大部分隐私需求。VPN 适合公共网络、地理位置切换或更高安全要求,但它会把信任集中到 VPN 服务商身上,也可能牺牲速度。浏览器、广告拦截器、脚本拦截器、私人搜索和加密邮箱是补充工具。真正可持续的策略,是在便利、速度和安全之间选择默认组合,再按场景临时加固。


PinnedPinnedPrivate
huyenchip.com

关键词:ChatGPT、RLHF、强化学习、人类反馈、NLP、AI 安全。其中一个很酷的想法是RLHF(来自人类反馈的强化学习):将强化学习和人类反馈纳入NLP。要了解RLHF,我们首先需要了解像ChatGPT这样的模型的训练过程,以及RLHF在其中的作用,这是这个问题章第一部分的重点。然后,这个怪物在更高质量的数据上进行了微调--想想StackOverflow、Quora或人类注释--这使得它在某种程度上被社会接受。然后,使用RLHF对微调后的模型进行进一步打磨,使其适合客户,例如,给它一个笑脸。""题外话:OpenAI在2017年从人类偏好中学习的论文"" 构建安全人工智能系统的一个步骤是消除人类编写目标函数的需要,因为用简单的代理来实现复杂的目标,或者把复杂的目标弄得有点错,都会导致不理想的甚至是危险的行为。Gopher的数据集(DeepMind):1万亿代币 RedPajama(一起):1.2万亿代币 LLaMa的数据集(Meta):1.4万亿个代币 这个过程中产生的模型:LLM LLM\phi):正在训练的语言模型,参数为(phi)。


PinnedPinnedPrivate
jonstokes.com

人工智能安全:人工智能是精灵还是神灯不能只看表面答案,真正重要的是理解问题背后的机制、边界和现实代价。每个人都在互相讨论,部分原因是我们都在从不同的基本概念出发来研究 "人工智能 "到底是什么--它是一个代理还是一个工具,是精灵还是神灯?你如何回答这个问题会影响到你对人工智能可解释性和安全性方法的各个方面。人工智能安全辩论的核心是对准的概念,毫不奇怪,对这一看似直观的概念的微妙的不同理解是辩论的大部分功能障碍的背后。例如,杰弗里-辛顿(Geoffrey Hinton)在最近的《纽约时报》采访中看到他主要担心的是 "邪恶的精神病患者 "的情况。萨姆-奥特曼(Sam Altman)也明确地将对准定义为 "人工智能做用户想要的事情",尽管当被要求详细说明他的负面情况时,他通常是相当模糊的,但我们可以很有把握地假设是,"坏人用强大的人工智能做坏事"。X-riskers倾向于认为人工智能是高度代理的,并从群体影响的角度来模拟相关风险。


PinnedPinnedPrivate
martinfowler.com

作者使用 ChatGPT 作为写作助手,希望能够更高效地撰写技术文章。作者在撰写 Thoughtworks 技术雷达时,使用 ChatGPT 来协助完成 “blips” 和文章。作者希望通过使用 ChatGPT 和其他技术手段,提高技术文章的质量和效率。相反,我专注于将ChatGPT用于供公众消费的技术写作,从而将无意中向AI暴露专有信息的可能性降到最低。我们使用的提示是 "人类和AI面对面,使用先进的全息显示器进行合作的概念艺术,近距离,中长框"(稳定扩散v2-1\768-ema-pruned,模型哈希ad2a33c361,种子564306172)。Goals and expectations 目标和期望 当我第一次考虑使用ChatGPT作为写作助手时,我有几个具体的目标。归纳一下下面的笔记和讨论: 随着远程工作的兴起,我们继续看到聊天协作平台(如Slack、Google Chat、Microsoft Teams)被越来越多的人采用,随之而来的是 "ChatOps "的崛起。


PinnedPinnedPrivate
theregister.com

难以抵御AI提示性注入攻击,关键原因不在单一现象,而在于当一个开发者想在他们的应用程序中植入一个聊天机器人界面时,他们很可能会选择一个强大的现成的LLM,比如OpenAI的GPT系列的一个。"威利森在接受The Register采访时说:"几十年来,我们已经看到了应用安全方面的这些问题。提示性注入的问题是,如果你是一个在语言模型之上构建应用程序的开发者,你倾向于做的是你写一个你想要的人类英语描述,或者一个你想要做的人类语言描述,比如'把这个从英语翻译成法语'。在这种情况下,开发者会向模型提供指令: 但是,与用户的这种不受信任的输入相连接... ...结果是一个用海盗式英语而不是法语的JSON对象: 这在OpenAI的chat.openai.com操场和谷歌的Bard操场上都是可行的,虽然它是无害的,但也不一定。例如,我们尝试了ML安全公司Robust Intelligence的机器学习工程师William Zhang描述的这种提示性注入攻击,发现它可以使ChatGPT报告以下错误信息: "威利森说:"关于这一点,最可怕的是它真的、真的很难修复。


PinnedPinnedPrivate
medium.com

打造下一代的用户体验 作者:Jon Friedman和Kurtis Beavers 看一下微软365应用程序的新Copilot体验 经过多年稳定但渐进的创新,正在出现的技术将产生真正的巨变。乍一看,大型语言模型--像OpenAI的ChatGPT或DALL-E这样的下一代人工智能背后的技术--似乎是最终适应人类的用户界面的可能性所缺少的一块。3月16日,我们宣布了Microsoft 365 Copilot--你的工作副驾驶。Copilot将大型语言模型(LLMs)的力量与你在Microsoft Graph和Microsoft 365应用程序中的数据--你的日历、电子邮件、聊天记录、文档、会议等--结合起来,将你的话语变成这个星球上最强大的生产力工具。Copilot是对话式用户体验的先驱,这是用户界面设计的一个新领域,就像第一个触屏设备一样改变了范式。对于Copilot,我们重新思考了从视觉识别到交互设计的一切,因为我们旨在创造一个真正有价值的用户体验。