模型基础理论围绕模型理论展开,核心内容包括介绍目录模型基础理论,包括工具下载、clip等三大件、VAE和clip问题解决、模型同质化及C站评价、图片模糊和EasyNegative Emba影响。
今天的作者是加州大学圣地亚哥分校的认知科学家肖恩-特洛特(Sean Trott)。当时,机器学习研究人员已经对大型语言模型(LLM)进行了数年的实验,但普通大众并没有密切关注,也没有意识到这些模型已经变得如此强大。我们的目标是在不使用专业术语或高等数学的情况下,解释这些模型的内部工作原理。最后,我们将解释这些模型是如何训练出来的,并探讨为什么良好的性能需要如此大量的数据。单词过于复杂,无法仅用两个维度来表示,因此语言模型使用了数百甚至数千个维度的向量空间。dog and cat) close together in vector space. 随着时间的推移,为预测哪些词与哪些词同时出现而训练的神经网络学会了在向量空间中将类似的词(如狗和猫)放在一起。例如,谷歌研究人员将最大(biggest)的向量减去大(big),再加上小(small)。如果一个语言模型了解了猫的一些情况(例如:它有时会去看兽医),那么小猫或小狗也很可能会有同样的情况。
ChatGPT 的工作方式可以理解为:它接收一组有结构的符号,再输出另一组与之相关的有结构符号。难点不在“把文字变成文字”,而在捕捉复杂、抽象、带概率的关系。简单规则可以处理固定转换,例如把一个词按规则改写;但当“猫”“死亡”“成熟”“不成熟”等词同时出现时,可能涉及生物、情感、文学引用和上下文含义,关系会迅速变得庞大且不确定。大型语言模型用训练数据形成概率空间,提示词像一次观察,把输出压到某个更可能的区域。它不是按人类方式持有真假信念,而是在可能文本集合中选择高概率延续。理解这一点,能减少把聊天机器人拟人化,也能解释为什么同一提示有时可靠、有时偏离。
ChatGPT并不是一次凭空出现的技术跃迁,而是OpenAI把已有的GPT-3.5能力重新包装成更容易对话、更符合人类意图的产品。关键做法是在人类反馈强化学习基础上加入对话数据,让模型学会给出有帮助、较真实、较少有害的回答,并在请求不清楚时追问,在越界任务前拒绝。团队原本只把它当作研究预览,用公开使用来收集缺陷,却意外触发大规模传播。发布后最重要的工作变成持续对齐:观察用户如何越狱、制造偏见或虚假回答,再用对抗训练把成功攻击加入训练数据,推动下一轮修正。它的成功说明,模型能力之外,界面、可用性和反馈循环同样会改变技术的社会影响。马虎不得的是,事实性、偏见和拒绝边界仍是核心难题。OpenAI选择先发布再迭代,本质上是在真实世界压力下训练系统。
关键词:ChatGPT、RLHF、强化学习、人类反馈、NLP、AI 安全。其中一个很酷的想法是RLHF(来自人类反馈的强化学习):将强化学习和人类反馈纳入NLP。要了解RLHF,我们首先需要了解像ChatGPT这样的模型的训练过程,以及RLHF在其中的作用,这是这个问题章第一部分的重点。然后,这个怪物在更高质量的数据上进行了微调--想想StackOverflow、Quora或人类注释--这使得它在某种程度上被社会接受。然后,使用RLHF对微调后的模型进行进一步打磨,使其适合客户,例如,给它一个笑脸。""题外话:OpenAI在2017年从人类偏好中学习的论文"" 构建安全人工智能系统的一个步骤是消除人类编写目标函数的需要,因为用简单的代理来实现复杂的目标,或者把复杂的目标弄得有点错,都会导致不理想的甚至是危险的行为。
OpenAI 在其 GPT-4V 系统卡中指出,"将其他模式(如图像输入)纳入 LLM,被一些人视为人工智能研发的关键前沿"。在 LLM(大型语言模型)中加入额外的模态,就形成了 LMM(大型多模态模型)。第 2 部分以 CLIP 和 Flamingo 为例,讨论了多模态系统的基本原理,前者为许多未来的多模态系统奠定了基础,而后者的出色表现则催生了 LMM。第 3 部分讨论了 LMM 的一些活跃研究领域,包括生成多模态输出和适配器以实现更高效的多模态训练,涵盖了 BLIP-2、LLaVA、LLaMA-Adapter V2、LAVIN 等较新的多模态系统。多模态数据也可指多模态分布,例如 双模态分布,与本帖中的多模态数据不同。第 1 部分.了解多模式 许多使用案例都离不开多模态技术,尤其是那些需要处理多种数据模态的行业,如医疗保健、机器人、电子商务、零售、游戏等。图片来自多模态生物医学人工智能(Acosta 等人,《自然医学》,2022 年) 不仅如此,结合其他模式的数据也有助于提高模型性能。
1974 年,出现了 OCR 和更先进的智能字符识别技术(ICR),随后诞生了 ABBYY 开发的 OCR 应用程序 FineReader。资料来源计算机视觉深度学习入门 2010 年,ImageNet 数据集可用。由 Olga Russakovsky 和 Jia Deng 等研究人员领导的 ImageNet 项目包含数百万张手工标记的图像,涉及上千个对象类别。作为当今模型的基础,ImageNet 不仅能够比较更多对象的检测进展,还有助于衡量计算机视觉领域用于检索和注释的大规模图像索引的进展。2012 年,多伦多大学的一个团队开发了 AlexNet 模型,大大降低了图像识别的错误率。利用基于图像和文本的 CAPTCHAs(用于区分计算机和人类的完全自动化公共图灵测试),谷歌开始积累大量标注示例的数据集。二值图像可视化资料来源经典 CNN 基础知识 简而言之,CNN 在识别物体及其关系、模式和整体图像结构之前,需要经过一个训练过程。