用最少的数学和行话解释大型语言模型

今天的作者是加州大学圣地亚哥分校的认知科学家肖恩-特洛特（Sean Trott）。当时，机器学习研究人员已经对大型语言模型（LLM）进行了数年的实验，但普通大众并没有密切关注，也没有意识到这些模型已经变得如此强大。我们的目标是在不使用专业术语或高等数学的情况下，解释这些模型的内部工作原理。最后，我们将解释这些模型是如何训练出来的，并探讨为什么良好的性能需要如此大量的数据。单词过于复杂，无法仅用两个维度来表示，因此语言模型使用了数百甚至数千个维度的向量空间。dog and cat) close together in vector space. 随着时间的推移，为预测哪些词与哪些词同时出现而训练的神经网络学会了在向量空间中将类似的词（如狗和猫）放在一起。例如，谷歌研究人员将最大（biggest）的向量减去大（big），再加上小（small）。如果一个语言模型了解了猫的一些情况（例如：它有时会去看兽医），那么小猫或小狗也很可能会有同样的情况。