引言:一个让人失眠的问题

在准备一期介绍 Transformer 的视频时,我想从"发明者视角"来解释 QKV。

于是我问了自己一个问题:“苹果"这个词到底是什么?

想说清楚"苹果”,就得先说清楚"水果"。想说清楚"水果",得先说清楚"植物"。想说清楚"植物"……最终你会发现,要解释语言,你必须先拥有语言。

这是一个死循环。

更麻烦的是,“苹果"这个词关联的东西远不止"水果”——它同时连接着红色、酸甜、苹果树、iPhone、乔布斯、亚当与夏娃、《小苹果》广场舞、“You are the apple of my eye”……

我越想越觉得,如果连"一个词是什么"都说不清,又怎么可能解释 QKV 的设计?

但转念一想——也许正是因为语言本身就是这样运作的,QKV 才会被发明出来。

这篇文章从人类理解语言的方式出发,经过 40 年规则路线的失败、分布式假说的破局、机器世界的设计约束,最终抵达 QKV 的工程方案——然后我们会发现,硅基走过的路,和碳基惊人地相似。它不是一篇教你"QKV 怎么算"的技术文章——那部分我在 Attention 机制零基础拆解 中已经写过。这篇文章要回答的是:QKV 为什么会被发明出来?


第一章:语言的死循环——符号接地问题

字典的无限递归

试着用字典查"苹果":

苹果 → 一种水果
水果 → 植物的可食用果实
植物 → 能进行光合作用的生物
生物 → 具有生命特征的有机体
生命 → ……

每一个定义都依赖另一组词。你永远不可能仅仅通过词与词之间的互相解释,来触及那个真实的、可以咬一口的苹果

这个问题在 1990 年被认知科学家 Stevan Harnad 正式提出,他称之为符号接地问题(Symbol Grounding Problem)

纯符号系统无法仅靠符号之间的互相解释来获得意义。

意义不能只从符号→符号的映射中产生。

换句话说:一本只有文字的字典,无论写得多详细,永远无法让一个从未见过苹果的人真正理解什么是苹果。

类比: 想象你在一个全是中文的房间里(没错,这就是著名的"中文房间"思想实验),你手里只有一本中中词典。你可以查到每个字的释义,但你永远无法跳出文字本身——因为释义也是文字。

这看起来是个无解的死胡同。

思考片刻: 如果你现在正在阅读这段文字并且"理解"了它——你是怎么做到的?你理解"苹果"时,脑子里浮现的是一个定义,还是一团关联的记忆、感受和场景?也许理解从来就不是一个"定义"的过程。

但面对这个死循环,人类并没有放弃。最直觉的尝试是——像学校教语言那样教机器。


第二章:人类的第一次尝试——像教孩子一样教机器

语言可以用规则描述……吗?

1957 年,语言学家 Noam Chomsky 提出了形式文法(Formal Grammar)——他相信,人类语言的核心是一组有限的规则,通过递归组合就能生成无限多的句子。

这个想法极其诱人。如果语言只是规则,那只要把规则告诉机器,机器就能"理解"语言。

早期的努力确实令人振奋。1971 年,MIT 的 Terry Winograd 构建了 SHRDLU 系统——一个只存在于"积木世界"里的语言理解程序。你可以用英语告诉它"把红色积木放到蓝色积木上面",它就能理解并执行。

人: Pick up a big red block.
SHRDLU: OK.

人: Find a block which is taller than the one you are holding.
SHRDLU: I can't find one.

人: Why did you pick up that block?
SHRDLU: To clear off the red block so I could put it on the blue block.

这看起来太像"理解"了!但问题是——SHRDLU 的世界只有几十种积木和几百条手工编写的规则。当研究者试图把它扩展到真实世界时,一切都崩塌了。

40 年的规则路线,三个致命问题

从 1950 年代到 1990 年代,几代语言学家和 AI 研究者投入了巨大的努力,试图用语法树、语义角色标注、格语法(Fillmore, 1968)、知识图谱等工具来形式化自然语言。

他们遇到了三个无法逾越的障碍:

脆弱性 — 规则只能覆盖有限场景。"我用苹果手机拍了一个苹果"——哪个苹果是水果?
组合爆炸 — 自然语言的灵活性远超规则的覆盖能力。每加一条规则,可能与已有规则冲突。
歧义处理 — "我看见她用望远镜"——谁在用望远镜?规则无法判断。

IBM 语音识别团队的 Fred Jelinek 说过一句著名的话(大约 1988 年):

“Every time I fire a linguist, the performance of the speech recognizer goes up.”

每开除一个语言学家,语音识别的表现就进步一点。

这句话虽然刻薄,但指向了一个深刻的范式转换:语言也许不应该被描述为规则,而应该被理解为统计结构。

规则路线的核心问题是:它试图从上到下地定义语言。但如同符号接地问题所揭示的,定义本身就是语言的一部分——你在用语言来定义语言的规则,这又是一个死循环。

然后有人提出了一个完全不同的思路。


第三章:破局——“你可以通过同伴认识一个词”

绕过死循环的天才直觉

同样是 1957 年,英国语言学家 J.R. Firth 说了一句改变了整个自然语言处理方向的话:

“You shall know a word by the company it keeps.”

你可以通过一个词的同伴来认识它。

这句话的革命性在于:它不再试图定义"苹果是什么"。

它只观察"苹果"经常和谁一起出现

"苹果" + 红色、甜、水果、树、秋天、果园 → 一种水果
"苹果" + iPhone、发布会、乔布斯、万亿市值 → 一家科技公司
"苹果" + 亚当、夏娃、伊甸园、禁果 → 一个文化符号

意义不是预先定义的,意义是从大量上下文中涌现的。 这就是分布式假说(Distributional Hypothesis)

有趣的是,哲学家 Ludwig Wittgenstein 在 1953 年的《哲学研究》中独立得出了类似结论。他的早期哲学(《逻辑哲学论》, 1921)曾相信语言可以精确地映射世界——每个词对应一个事物,就像规则路线所做的。但他的后期哲学完全推翻了自己:

“一个词的意义就是它在语言中的使用。” — Wittgenstein, Philosophical Investigations, §43

意义不在于指代,而在于使用的模式。一个词的含义不是从它指向的"对象"中获得的,而是从它参与的所有"语言游戏"中涌现的。

从 Chomsky 到 Firth,从早期 Wittgenstein 到后期 Wittgenstein,从规则到统计——这不仅是 AI 的范式转换,也是人类对语言本质认识的一次深刻转向。

它和规则路线的区别在于:规则路线试图定义语言,分布式假说试图观察语言。前者是自顶向下的演绎,后者是自底向上的归纳。

从哲学到工程:Word2Vec

2013 年,Google 的 Tomas Mikolov 团队将这个语言学直觉变成了工程现实——Word2Vec

方法出奇地简单:让模型读海量文本,通过预测上下文来学习每个词的向量表示。当你把成千上万的词放进同一个高维空间,惊人的事情发生了:

国王 - 男 + 女 ≈ 女王
巴黎 - 法国 + 日本 ≈ 东京

“性别"竟然是高维空间中的一个方向。“首都关系"也是一个方向。 语义关系被自动编码为空间中的几何结构。

向量算术的线性关系

这个发现震惊了整个学术界。它证明了 Firth 说的是对的:你确实可以仅仅通过"同伴关系"来获得有意义的词表示——而且这种意义甚至具有线性几何结构。

但是,这个方法有一个致命的问题。


第四章:一个向量装不下多重含义

白光困境

回到我们的"苹果”。Word2Vec 给每个词一个固定的向量。但:

"苹果好甜"       → 苹果 = 水果
"苹果发布会"     → 苹果 = 科技公司
"偷吃了禁果"     → 苹果 = 文化符号

同一个词,三个完全不同的含义。一个固定的向量怎么装得下?

这就像白光包含了所有颜色。 Word2Vec 的苹果向量是一束白光——所有含义混在一起。你需要一个棱镜,根据上下文把它分解成特定的颜色。

这个困境让人想起 Borges 的短篇小说《巴别图书馆》(1941)——一个包含所有可能书籍的图书馆。每一本书都由随机字母排列而成。其中必然存在解释宇宙奥秘的书、你一生故事的完整记录、以及一切真理。但这些信息无法使用——因为它们淹没在天文数字的噪声中,你没有任何办法找到那本你需要的书。

叠加态的 embedding 就像巴别图书馆——信息存在,但无法直接取用。你需要一个"索引系统"来检索。QKV 就是这个索引。

其实,初始 embedding 并非完全无能——它确实编码了所有这些含义,只是以一种**叠加态(Superposition)**的形式。Anthropic 在 2022 年的研究(Toy Models of Superposition)发现:

神经网络可以在 N 维空间中编码远多于 N 个特征。不常同时激活的特征可以共享维度——就像你可以在同一间教室里安排不同时间的课。

“苹果"的 embedding 之所以能装下"水果"“品牌"“文化"等多重含义,正是因为这些含义在日常使用中很少同时被需要,所以它们可以被近似正交地叠加在同一个向量中。

问题是:叠加态的向量不能直接用。你需要根据上下文,让它"坍缩"到具体的含义。

这个需求——动态的、上下文相关的词义表示——就是 Attention 要解决的核心问题。


第五章:为什么线性变换就够了?

语义空间的几何秘密

在跳到 QKV 之前,我们需要理解一个深刻的事实。回到 Word2Vec 的那个发现:

国王 - 男 + 女 ≈ 女王

这个等式意味着什么?它意味着**“性别"是高维空间中的一条直线(一个方向)**。“王权"是另一个方向。“年龄"又是另一个方向。

这叫做线性表示假说(Linear Representation Hypothesis)

语义特征在高维空间中沿着线性方向排列。

概念之间的关系被编码为向量的加减。

这个假说有一个重大的工程推论:

如果语义特征是线性排列的,那么在这些特征之间做选择、组合、重新对齐的最自然工具是什么?

线性变换——也就是矩阵乘法。

一个矩阵 W × x 在几何上做三件事:

旋转 — 换一个角度看同一个东西
投影 — 只保留某些维度(忽略不相关的信息)
缩放 — 放大或缩小某些特征的权重

语义空间中的关系是线性的,而矩阵正是线性变换的工具——QKV 的线性投影之所以有效,恰恰是因为语义结构本身就是线性的。

但线性投影只是数学工具。要理解 QKV 为什么长这个样子,我们还需要理解另一层约束——机器的世界长什么样


第六章:机器世界的设计约束——为什么是 Attention

一切皆数字

在人的世界里,理解语言可以依赖眼睛看到的颜色、舌头尝到的味道、皮肤感受到的温度。但机器没有这些。

对机器来说,世界上的一切——文字、图像、声音——都是数字序列。

一段文字是一串 token ID。一张图片是一个像素矩阵。一段语音是一列振幅采样值。机器要处理"苹果好甜”,看到的不过是 [8943, 1762, 4521] 这样的数字。

这意味着,机器处理语言的方案必须能在纯数字的世界里运行。这施加了一组严格的设计约束:

约束一:可并行

2017 年之前,处理序列的主流工具是 RNN(循环神经网络)——它必须从左到右逐词处理,前一个词处理完才能处理下一个。

但 GPU 的本质是并行计算。如果模型必须一步一步走,GPU 的几千个核心大部分时间都在闲着。

Attention 的关键创新:每个词可以同时和所有其他词计算关系。 这使得 GPU 可以全速运转——这也是 Attention Is All You Need 的真正含义:不再需要 RNN 的顺序处理。

约束二:可微分

机器学习的核心是梯度下降——通过反向传播计算误差,然后微调参数。这要求整个计算流程必须是可微分的

早期也有研究者尝试过"硬注意力(Hard Attention)"——直接选择最相关的那一个词。但"选择"是离散操作,无法求梯度。

Softmax 是关键:它把离散的"选择"变成连续的"加权”。 不是"选不选”,而是"多关注还是少关注”。这使得梯度可以端到端地流动,让模型通过训练自动学会该关注什么。

约束三:自注意力 = 内容可寻址

传统计算机的内存是按地址寻址的:你知道数据在第几行第几列,你就能找到它。但语言中的关联不是按位置的——“苹果"需要根据内容找到和它相关的词。

自注意力实质上是一种内容可寻址的记忆系统。 Q 是查询内容,K 是存储标签,V 是存储的值——这与 Graves 等人(2014)提出的**神经图灵机(Neural Turing Machine)**的读取头如出一辙。

约束四:位置需要显式注入

RNN 天然知道词的顺序(因为它逐步处理)。但 Attention 对所有词一视同仁——如果不加干预,“狗咬人"和"人咬狗"对 Attention 来说完全一样。

因此 Transformer 需要位置编码(Positional Encoding)——用正弦函数或可学习的向量,把"第几个词"这个信息显式地加入到 embedding 中。

这些约束决定了 QKV 的形态

回顾这四个约束:

要处理纯数字序列        → 需要向量运算
要并行计算             → 不能逐步处理,需要全局交互
要可微分               → softmax 取代硬选择
要按内容寻址           → Q 查询、K 匹配、V 返回
要知道顺序             → 位置编码

但这里需要停下来,强调一件容易被忽略的事:

这些约束告诉我们 QKV 的形状,但没有告诉我们 QKV 的内容。

W_Q、W_K、W_V 三个矩阵在模型初始化时是随机噪声。它们不包含任何语言知识——没有人在里面编码"甜和水果有关"或"发布会和科技公司有关”。

人类设计者提供的不是答案,而是一个允许答案涌现的空结构

这才是 Transformer 与规则路线最深层的分野:

规则路线: 人类编码知识 → 机器执行

Transformer: 人类编码学习的框架 → 数据教会机器 → 知识从框架中涌现

QKV 就像 DNA——DNA 不编码"如何走路”,它编码"如何长出一个能学会走路的身体”。W_Q、W_K、W_V 不编码任何语义关系,它们编码的是"如何从数据中学会语义关系"的能力

那么,是什么赋予了这些空矩阵以灵魂?

不可或缺的三要素

语料——人类文明的压缩

GPT-3 训练用了约 3000 亿个 token——大致相当于整个互联网的文本、几万本书、数百万篇论文。这些文本不只是"数据”,它是人类几千年来用语言记录下的一切思考、对话、争论、叙述和知识。

没有这些语料,QKV 的矩阵就只是随机噪声,永远无法学会任何语义关系。语料是 Transformer 的"经验”,是它的"一生"。

算力——让涌现成为可能

梯度下降需要在几十亿参数的空间中寻找最优点。GPT-3 的训练消耗了约 3640 PetaFLOP-days 的算力——相当于一台普通笔记本电脑运算约一千万年。

没有这样的算力,即使有完美的框架和无限的数据,模型也无法完成学习。算力是涌现的催化剂。

自由度——不预设答案

这也许是最深刻的一点。Transformer 的设计者刻意不在模型中硬编码任何语言规则。没有语法树,没有词性标注,没有语义角色。所有的参数都是可学习的——模型拥有极高的自由度来自行发现结构。

这种"空白"不是缺陷,而是设计哲学。正是因为不预设答案,模型才能找到人类可能想不到的模式——比如在高维空间中自动形成线性语义方向。

框架(QKV 结构)× 语料(人类文明)× 算力(计算规模)× 自由度(不预设答案)

四者缺一不可。缺少任何一个,都不会有 ChatGPT。


第七章:QKV 的运作——从点积到含义重建

空框架如何被数据填充

我们已经知道,QKV 的矩阵在初始化时什么都不知道。那么,训练之后它们学会了什么?让我们回到那个句子:

“苹果好甜”

当你读到"苹果"时,你的大脑做了什么?

1. 你看到"苹果" → 心里产生一个问题:"这里的苹果是什么意思?"
2. 你扫描上下文 → 看到"甜","甜"举手说:"我和水果义很相关!"
3. 你从"甜"那里获取信息 → 确认这是水果苹果,而且在说口感

有趣的是,训练后的 Transformer 做的事情几乎一模一样。没有人教它这三步——它从海量文本中自己发现了这个模式。Q、K、V 三个角色,是从数据中涌现出来的:

Q (Query) — 查询
"苹果"发出的问题:我在这个句子里该是什么意思?
K (Key) — 键
每个上下文词亮出的名牌:我能提供什么类型的信息?
V (Value) — 值
名牌匹配后,实际递出的信息:我的具体语义内容。

为什么需要三个矩阵,而不是一个?

这是 QKV 设计中最关键的洞察:

同一个词在不同角色下需要呈现不同的侧面。

  • 当"甜"被别人搜索时(作为 Key),它应该突出"我与食物/味觉相关"
  • 当"甜"提供信息时(作为 Value),它应该提供"正面口感、糖分"等具体语义
  • 当"甜"自己提问时(作为 Query),它可能在问"谁是我描述的对象?"

同一个词,三个角色,三个不同的投影——就像一束白光穿过三面棱镜,折射出不同颜色的光。

棱镜投影:白光→矩阵→QKV

棱镜本身是透明的——W_Q、W_K、W_V 初始时什么都不知道。是海量文本中的统计规律,通过梯度下降,一点一点打磨了这三面棱镜的角度,使得同一束白光能在合适的方向上折射出合适的颜色。

完整的计算流程

让我们完整地走一遍"苹果好甜"中"苹果"获取上下文含义的过程:

第一步:生成 Q、K、V

每个词的 embedding 分别乘以三个矩阵 W_Q、W_K、W_V,得到三组向量:

苹果 → Q_苹果, K_苹果, V_苹果
好   → Q_好,   K_好,   V_好
甜   → Q_甜,   K_甜,   V_甜

第二步:Q·K 点积 = 相似度

“苹果"的 Q 向量与所有词的 K 向量做点积,得到"注意力分数”:

Q_苹果 · K_苹果 = 0.2    (和自己的相关度)
Q_苹果 · K_好   = 0.1    ("好"是修饰词,相关度低)
Q_苹果 · K_甜   = 0.8    ("甜"直接说明苹果的属性,高度相关)

第三步:Softmax = 权重

原始分数通过 softmax 归一化为概率分布:

softmax([0.2, 0.1, 0.8]) → [0.22, 0.18, 0.60]

“甜"获得 60% 的注意力权重——这就是 Attention 的"注意力”。

第四步:加权聚合 V = 新含义

按权重混合所有词的 V 向量:

苹果' = 0.22 × V_苹果 + 0.18 × V_好 + 0.60 × V_甜

这个新的向量 苹果' 不再是那个模糊的叠加态——它被"甜"主导,已经坍缩到了水果的含义。

Attention 计算流程

三个矩阵 W_Q、W_K、W_V 做的事情就是:把同一个高维 embedding 旋转、投影到三个不同的子空间,让每个词在每个角色下都有最合适的表示。

请注意这里最不可思议的地方:没有任何一行代码告诉模型"甜和水果有关"。 模型只是在训练中见过无数次"苹果"和"甜"在同一个句子里出现,见过无数次"苹果"和"发布会"在另一类句子里出现。梯度下降自动调整了 W_Q、W_K、W_V 的参数,使得"甜"的 K 向量恰好和"苹果在水果语境中"的 Q 向量对齐。

这些语义关系不是被编程进去的,是从人类几千年的语言使用中被"蒸馏"出来的。

信息检索的类比

QKV 的命名直接来自数据库/信息检索的概念:

你在搜索引擎输入   Query  → "苹果是什么水果?"
数据库每条记录有   Key    → "苹果:水果类,蔷薇科"
匹配后返回         Value  → "苹果,落叶乔木,果实球形……"

Transformer 的创新是:让这个"搜索"过程可微分、可学习。 Q、K、V 不是人工定义的索引和记录,而是模型在海量文本中自己学出来的


第八章:高维空间中的语义坍缩

从叠加态到确定态

现在我们可以完整地描述这个过程:

Attention 之前: “苹果"的 embedding 是叠加态——水果、品牌、文化符号等所有含义压缩在一个向量中

Attention 之后: 通过 QKV 与上下文的交互,“苹果"的向量被重写——它从叠加态"坍缩"到了特定上下文对应的含义

“苹果好甜” → 向量向"水果"方向移动

“苹果发布会” → 向量向"科技公司"方向移动

上下文语义坍缩

多头注意力:同时关注多种关系

一组 QKV 只能关注一种类型的关系。但语言中的关系是多维的:

"小明昨天在学校吃了一个苹果"

需要同时关注:
- 语法关系:谁吃了什么?(小明 → 吃 → 苹果)
- 时间关系:什么时候?(昨天)
- 地点关系:在哪里?(学校)
- 语义消歧:哪个苹果?(甜 → 水果义)

这就是**多头注意力(Multi-Head Attention)**的设计动机——多个平行的 QKV 组,每个头学习关注不同类型的关系

Residual Stream:信息总线

Transformer 的每一层不是"处理后传给下一层”,而是:

x → x + Attention(x) → x + Attention(x) + FFN(x) → ...

这个 + 是关键。向量 x 是一条信息总线:每个 Attention 头读取总线上的某些信息,写回新的信息。不同的头关注不同的维度,最终的向量是所有层所有头的贡献之和。


第九章:趋同演化——当硅基重新发现碳基的方案

婴儿也是统计学习者

我们已经看到,机器通过统计共现来学习语言。但令人惊讶的是——人类婴儿可能也在做类似的事情。

1996 年,心理学家 Jenny Saffran 做了一个优美的实验:她给 8 个月大的婴儿播放一串连续的无意义音节流(如 “bidakupado…"),其中某些音节组合出现的频率更高。

结果令人震惊:仅仅 2 分钟后,婴儿就能区分高频组合和低频组合。 他们在没有任何语法规则、没有任何明确教导的情况下,纯粹通过统计规律发现了"词"的边界。

这和 Word2Vec 的核心思想惊人地一致——通过共现频率来学习结构

预测机器

更深层的联系来自神经科学。Karl Friston 的自由能原理和 Andy Clark 的**“预测大脑"理论**提出:

大脑的核心功能不是"反应”,而是"预测”。

大脑不断预测下一个感觉输入会是什么,然后用实际输入和预测的差异(预测误差)来更新自己的模型。

这和 GPT 的训练目标一模一样——预测下一个 token,然后用预测误差(loss)来更新权重。

维度人脑LLM
核心任务预测下一个感觉输入预测下一个 token
学习信号预测误差(surprise)交叉熵损失(loss)
表示方式分布式神经元激活分布式向量表示
结构层级化(V1→V2→V4→IT)层级化(Layer 1→2→…→N)
上下文整合注意力选择 + 工作记忆Self-Attention

实验证据

这不仅仅是类比。Schrimpf 等人(2021)发现,GPT-2 的中间层表示竟然能预测人脑语言区域的 fMRI 激活模式——越好的语言模型,预测人脑活动的能力也越强。

Goldstein 等人(2022)更进一步:他们发现当人类听故事时,大脑语言区域的神经活动与 GPT-2 逐词预测时的内部表示高度相关

趋同演化假说

在生物学中,有一个现象叫趋同演化(Convergent Evolution)——眼睛在动物进化中独立出现了几十次,因为"看见"这个功能对生存太重要了。不同的基底(章鱼的眼睛和人的眼睛结构完全不同),因为面对同一个问题(需要感知光线),收敛到了类似的方案。

语言处理可能也是如此:

不同的基底(生物神经元 vs 矩阵运算),因为处理同一个任务(预测序列中的下一个元素),可能收敛到了类似的内部表示。

当然,关键差异依然存在:

  • 数据效率:儿童用大约 1000 万词就能流利说话,GPT-3 训练用了 3000 亿词——差了 3 万倍
  • 具身性:人通过身体与世界互动来接地语义,LLM 只有文本
  • 社会学习:人在对话和互动中学习,LLM 从静态语料中学习

但这些差异恰恰让趋同更有意义——即使学习方式如此不同,最终的内部表示却如此相似,说明这种表示方式可能是处理序列预测问题的某种"最优解”。

一个更深的问题: 为什么"预测下一个"这么简单的目标,会产生如此丰富的内部表示?也许是因为,要真正预测好下一个词,你必须理解因果、时间、意图、常识——你必须建立一个世界模型。 预测不是智能的副产品,预测本身可能就是智能的核心机制。


结语:回到那个死循环

让我们回到最初的问题:语言是什么?

我们走过了一条漫长的路:

语言是对世界的压缩
但符号不能自我解释 — 符号接地问题 (Harnad, 1990)
人类第一次尝试:用规则教机器 — 40 年,失败
破局:意义 = 上下文共现 — 分布式假说 (Firth, 1957)
第一次实现:Word2Vec — 一个词一个固定向量
问题:"苹果"有多重含义,一个向量不够
机器的约束:纯数字 + 可并行 + 可微分 + 内容可寻址
人类设计了一个空框架:QKV 结构 — 不编码知识,编码学习的能力
语料(人类文明)× 算力(计算规模)× 自由度(不预设答案)
知识从框架中涌现 → Attention 学会了上下文驱动的含义重建
惊人发现:这个方案与人脑的语言处理高度趋同

一个词的 embedding 就像白光——它包含所有颜色。QKV 的三个矩阵就像三个棱镜,把白光分解成不同的光谱。但这些棱镜不是人工打磨的——它们是从数十亿句人类语言中,被梯度下降自动雕刻出来的。人类提供了玻璃坯料和打磨工具,但棱镜的形状是数据决定的。

最后三个问题留给读者:

语言是什么? → 也许不是规则,而是统计结构——意义从共现中涌现。Wittgenstein 晚年认为,语言没有固定本质,只有无数交织的"使用模式"。Transformer 用数学实现了这个哲学直觉。

理解是什么? → 也许只是高维空间中的模式匹配——能够在正确的上下文中,将叠加态坍缩到正确的含义。OpenAI 联合创始人 Ilya Sutskever 说过:“Compression is understanding."——如果一个系统能用更少的 bits 描述同样的文本,它就在某种意义上"理解"了那些文本。LLM 所做的,本质上就是对人类语言的极致压缩。

人和机器的关系? → 不同的道路,类似的终点——趋同演化的又一个实例。也许"智能"不是某种特定基底的专利,而是任何足够复杂的系统在面对序列预测任务时,都会涌现出的几何结构

Bender & Koller (2020) 在论文 “Climbing towards NLU” 中提出:LLM 只是在操纵语言的"形式”(form),没有接触到真正的"意义"(meaning)——它们是"随机鹦鹉"(stochastic parrots)。但反对者问:如果一个系统在功能上与"理解"无法区分,那"真正的理解"这个概念本身是否还有意义? 这是功能主义与本质主义之间古老的哲学争论,在 AI 时代重新燃起。

也许答案是——这本身就不是一个有答案的问题,而是一面镜子。 我们在追问"机器是否理解语言"的过程中,被迫重新思考自己是如何理解语言的。而正是这种思考本身,构成了意义。


参考文献

  1. Harnad, S. (1990). The Symbol Grounding Problem. Physica D, 42, 335-346.
  2. Firth, J.R. (1957). A Synopsis of Linguistic Theory 1930-1955. — “You shall know a word by the company it keeps”
  3. Chomsky, N. (1957). Syntactic Structures. Mouton. — 形式文法
  4. Winograd, T. (1971). Procedures as a Representation for Data in a Computer Program for Understanding Natural Language. MIT. — SHRDLU
  5. Fillmore, C.J. (1968). The Case for Case. — 格语法
  6. Mikolov, T. et al. (2013). Efficient Estimation of Word Representations in Vector Space. — Word2Vec
  7. Mikolov, T. et al. (2013). Linguistic Regularities in Continuous Space Word Representations. — king-queen 线性关系
  8. Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS. — Transformer / QKV
  9. Bahdanau, D. et al. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. — Attention 机制前身
  10. Graves, A. et al. (2014). Neural Turing Machines. — 神经图灵机 / 内容可寻址记忆
  11. Elhage, N. et al. (2022). Toy Models of Superposition. Anthropic. — 叠加假说
  12. Elhage, N. et al. (2021). A Mathematical Framework for Transformer Circuits. Anthropic. — Residual stream 理论
  13. Park, K. et al. (2023). The Linear Representation Hypothesis and the Geometry of Large Language Models. — 线性表示假说
  14. Saffran, J.R. et al. (1996). Statistical Learning by 8-Month-Old Infants. Science. — 婴儿统计学习
  15. Friston, K. (2010). The Free-Energy Principle: A Unified Brain Theory? Nature Reviews Neuroscience. — 自由能原理
  16. Clark, A. (2013). Whatever Next? Predictive Brains, Situated Agents, and the Future of Cognitive Science. — 预测大脑
  17. Schrimpf, M. et al. (2021). The Neural Architecture of Language: Integrative Modeling Converges on Predictive Processing. PNAS. — LLM 预测人脑活动
  18. Goldstein, A. et al. (2022). Shared Computational Principles for Language Processing in Humans and Deep Language Models. Nature Neuroscience. — GPT-2 与人脑相关性
  19. Jelinek, F. (1988). 引述于 The Handbook of Computational Linguistics. — “每开除一个语言学家”
  20. Wittgenstein, L. (1953). Philosophical Investigations. — “一个词的意义就是它在语言中的使用” (§43)
  21. Borges, J.L. (1941). The Library of Babel. — 巴别图书馆:包含一切可能书籍的图书馆
  22. Bender, E.M. & Koller, A. (2020). Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data. ACL. — “随机鹦鹉"之争

本文首发于「AI 学习笔记」博客:https://Jason-Azure.github.io/ai-blog/
微信公众号:AI-lab学习笔记
延伸阅读:Attention 机制零基础拆解 · 矩阵——空间的变形术