引言:一个从未解决的老问题
1950年,图灵在论文的第一句话就问了:
“Can machines think?"(机器能思考吗?)
75年后,我们造出了能通过律师资格考试、能写十四行诗、能解微积分题的AI系统。
但这个问题依然没有答案。
事实上,它变得更加尖锐了。因为现在,争论的双方都拿得出证据——而且双方的证据都很有说服力。
这不是一场"聪明人对笨人"的辩论。站在反对方的是图灵奖得主、是当代最伟大的语言学家、是深度学习三巨头之一。站在支持方的也是图灵奖得主、也是深度学习的奠基人。
他们彼此了解对方的论点,仍然无法说服对方。
这一章,我们尽量公平地呈现双方的观点。你会发现,这场争论的深度远超"AI行不行”——它触及了人类如何定义"理解"和"思考"这些最基本的概念。
第十一章:反对派的深层批判——AI到底缺了什么?
一、“随机鹦鹉”——Bender & Gebru(2021)
2021年,华盛顿大学语言学教授 Emily Bender 和AI伦理研究者 Timnit Gebru 发表了一篇论文,标题极具挑衅性:
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 《论随机鹦鹉的危险:语言模型是否可以太大了?》
她们的核心论点:
大语言模型只是在做"统计拼贴"——把训练数据中出现过的语言模式重新排列组合,但对这些词语的含义一无所知。就像一只鹦鹉可以完美模仿人类的对话,但它不理解自己在说什么。
具体来说:
- LLM的"知识"来源于训练数据的统计分布,不是来源于对世界的理解
- 它生成的"流畅文本",是高级的模式匹配,不是思考的结果
- 当训练数据中存在偏见,模型会毫不犹豫地复制这些偏见——因为它根本不"知道"什么是对什么是错
这篇论文引发了巨大的风波——Gebru在发表前被Google解雇(她当时是Google AI伦理团队的联合负责人),引发了整个AI行业对企业伦理的激烈讨论。
但抛开政治争议,“随机鹦鹉"这个比喻确实触及了一个核心问题:流畅地说话,和真正理解自己在说什么,是同一件事吗?
论文卡片 Bender et al. (2021), On the Dangers of Stochastic Parrots, FAccT 2021 一句话意义: 提出"随机鹦鹉"批判——LLM的流畅输出可能只是高级的统计拼贴,不代表理解。
二、世界模型的缺失——Yann LeCun
Yann LeCun——深度学习三巨头之一、图灵奖得主、Meta首席AI科学家——是最有分量的反对者。
注意这里的讽刺:LeCun本人就是深度学习的奠基人之一。他不是反对AI,他是反对当前这条路。
他的核心观点,可以用一个比喻来理解:
“用文本训练AI去理解世界,就像只听广播来学开车——你可能记住了所有交通规则,但第一次上路就会撞墙。”
展开来说,LeCun认为:
1. LLM没有"世界模型”(World Model)
一个婴儿六个月大的时候,看到一个球从桌边滚落,会露出惊讶的表情——因为TA已经建立了关于重力的直觉物理模型。TA"知道"东西会往下掉,所以球滚落是符合预期的,但如果球悬浮在空中,TA会惊讶。
LLM没有这种模型。它"知道"球会落地,是因为训练数据里有无数句"球掉到了地上"——但它是通过词语共现的统计规律来"知道"的,不是通过对物理世界的表征。
当你问GPT"一个杯子倒扣在桌上,杯子里放一个乒乓球,把杯子拿起来,球在哪里?"——这种需要空间推理的问题,LLM经常给出错误答案。因为它没有三维空间的内部模型,它只有文字。
2. LLM不理解因果关系
LLM知道"下雨→地面湿"(因为训练数据里这两件事经常一起出现),但它不真正理解为什么下雨会导致地面湿。它分不清"相关性"和"因果性"。
一个三岁的孩子可以理解"因为下雨了,所以地面湿了"和"因为有人浇水了,所以地面湿了"的区别。这需要因果推理,而不只是统计共现。
3. LeCun的替代方案:JEPA
LeCun认为,AI的正确道路不是继续扩大语言模型,而是开发联合嵌入预测架构(JEPA, Joint Embedding Predictive Architecture)——让AI通过感知物理世界来建立因果模型。
他的设想是:AI应该像婴儿一样,通过观察、触摸、操纵物体来理解世界,而不是只读文本。
人物卡片:Yann LeCun 图灵奖得主(2018),卷积神经网络(CNN)发明者,Meta首席AI科学家。深度学习三巨头中唯一公开批评LLM路线的人。他认为当前的LLM"永远不会达到人类级别的智能",因为它们缺乏对物理世界的内部表征。
三、物理接地的缺失——具身认知学派
LeCun的批评指向了一个更深层的哲学传统:具身认知(Embodied Cognition)。
这个学派的核心主张是:
人类的智能不仅在大脑中,更在身体与环境的交互中。
一个婴儿不是通过阅读来理解"热"这个概念的——TA是通过伸手触摸一个热杯子、然后猛地缩回来来理解的。这种来自肉身的反馈,构成了TA对"热"这个概念的基底体验。
LLM"知道"火是热的,因为训练数据里有"火很热"这句话。但它从未被烫过。
这两种"知道",是同一种"知道"吗?
1990年,哲学家 Stevan Harnad 提出了符号接地问题(Symbol Grounding Problem):
如果一个系统的所有概念都只通过其他符号来定义——就像用字典查字典——那它永远无法真正"理解"任何概念。
一个从未见过猫的人,只通过字典定义(“猫:一种小型哺乳动物,有尖耳和柔软的毛皮”)来了解猫,和一个从小和猫一起长大的人对"猫"的理解,是一样的吗?
LLM就是那个只看过字典的人。它拥有关于猫的所有文字信息,但它从未听过猫的呼噜声,从未感受过猫毛的柔软。
四、Chomsky的"不可能"论断
2023年,Noam Chomsky——可能是二十世纪最有影响力的语言学家——与 Ian Roberts 和 Jeffrey Watumull 在《纽约时报》上发表了一篇措辞严厉的评论文章。
Chomsky的论点可以归纳为三个层次:
第一层:学习方式根本不同
人类的孩子只需要听到极少量的语言样本,就能掌握复杂的语法规则——Chomsky称之为**“刺激贫乏论(Poverty of the Stimulus)”**。一个三岁的孩子可能只听过几千个句子,但TA已经能造出从未听过的合语法的新句子。
而LLM需要吞噬整个互联网的文本——数万亿个token——才能学会"像样地说话"。
如果人类和LLM最终都能"说流利的话",但一个只需要极少数据,一个需要海量数据——那它们的内在机制一定是完全不同的。
第二层:LLM不知道什么是"不可能的"
Chomsky认为,真正的智能不仅在于说出什么是正确的,更在于能判断什么是不可能的。
一个懂英语语法的人知道"Colorless green ideas sleep furiously"虽然没有意义,但语法上是合法的;而"Sleep ideas furiously green colorless"语法上是不合法的。
人类可以做这种否定性判断——“这不可能”。但LLM只被训练去生成"可能的"文本,它没有关于"什么是不可能的"的内部表征。
第三层:LLM是"曲线拟合器"
Chomsky最尖锐的批评是:LLM本质上只是一个非常大的、非常复杂的"曲线拟合器"——它在高维空间中拟合了训练数据的统计分布,但它既不能建构因果模型,也不能产生真正的解释。
“ChatGPT所做的事和真正的思维之间的差距,相当于一个行星轨道的统计拟合和牛顿万有引力定律之间的差距——前者只是描述,后者才是理解。”
五、推理的脆弱性——实证证据
除了哲学批判,还有越来越多的实验证据暴露了LLM推理能力的脆弱性:
GSM8K翻转实验(2024)
GSM8K是一个小学数学题测试集。GPT-4在上面的正确率高达92%。
但当研究者只是把题目中的数字或条件略作修改——本质上是同一类问题——正确率暴跌到不足50%。
这强烈暗示:模型不是在做"逻辑推理",而是在做模式匹配——它记住了训练数据中类似题目的解题模式,当模式被打破时,它就不会了。
ARC挑战(François Chollet)
Chollet(Keras框架的创建者)设计了一套视觉推理测试:给出几个输入-输出的图案变换示例,让AI推断规则并应用到新输入。
这些题目对人类来说很简单(大多数人能在几秒内解决),但LLM的表现极差。
原因是:这些题目要求的是在训练分布之外的抽象泛化——看到从未见过的规则,并立即理解它。这正是LLM最薄弱的环节。
规划能力的缺失
在需要多步规划的任务中(如积木世界问题、旅行行程规划),LLM频繁失败。因为规划需要在头脑中模拟执行多个步骤,预判每一步的后果——而LLM没有这种内部模拟器,它只是在逐词生成。
第十二章:涌现派的反驳——“飞机不扇翅膀,但它确实在飞”
Hinton的立场
2023年,Geoffrey Hinton——深度学习教父、图灵奖得主——辞去了Google的职位,以便能"自由地谈论AI的风险"。
但在"AI是否在思考"这个问题上,Hinton的立场和Chomsky截然相反:
“如果一个系统能正确运用一个概念,在各种语境中做出合理推断,那它就是理解了这个概念——不管它内部用什么机制。”
Hinton的论证逻辑是这样的:
1. 人类也不理解自己
我们不知道人类大脑里的860亿个神经元具体是怎么产生"理解"的。我们甚至不知道意识是什么。但我们不会因此否认人类有智能。
那凭什么,仅仅因为我们不理解LLM内部的机制,就否认它可能"理解"了什么?
2. 飞机的类比
“飞机不扇翅膀,但它确实在飞。”
鸟类通过扇动翅膀来飞行,飞机通过固定翼加发动机来飞行。机制完全不同,但"飞"这个功能是等价的。
同理,人类通过生物神经元来"思考",LLM通过数学矩阵来"思考"。机制不同,但如果最终的功能表现等价——能推理、能创造、能在新情境中做出合理判断——那有什么理由说一个是"真正的思考",另一个不是?
3. 涌现是真实的
Hinton非常重视第八章中提到的**“情感神经元”**发现——一个只被训练来预测下一个字符的网络,自发产生了情感理解能力。
他认为这不是巧合,而是一个深刻的原理:
为了完美地预测世界,模型必须首先深刻地模拟世界。
预测一段文本的下一个词,看似简单,实际上要求模型理解语法、语义、常识、逻辑、因果关系、人类心理…因为这些因素都会影响"下一个词是什么"。
当模型足够大、数据足够多时,这些"理解"不是被显式编程的——它们作为预测能力的必然副产品而涌现。
Sutskever的论证
Ilya Sutskever——Hinton的学生、AlexNet论文的合著者、OpenAI的联合创始人和前首席科学家——对这个问题有一个更简洁的表述:
“如果你的神经网络足够精确地预测下一个token,那你就必须理解生成这些token的底层现实。”
想象一下:如果一个模型能完美地预测一本物理学教科书的每一个下一个词,那它一定"理解"了物理学——否则它怎么可能做出正确的预测?
当然,批评者会说:它只是记住了教科书中的语言模式,并不真正理解物理定律。
而支持者会反问:“理解物理定律"和"完美预测物理学文本”,有什么本质区别?
这个问题,到目前为止没有人能给出让所有人信服的答案。
第十三章:对齐与觉醒——让AI学会"怎么做人"
思维链:教AI"自言自语"
2022年,Google的研究者发现了一个简单到不可思议的技巧:在提示词中加一句"Let’s think step by step"(让我们一步步思考),模型的推理能力就会大幅提升。
这就是思维链(Chain of Thought, CoT)。
原理是什么?当你强制模型在给出答案之前先"说出"推理过程时,它相当于在用中间步骤来扩展上下文窗口——每一步的输出都成为下一步的输入,形成了一条连续的"思考链条"。
这就像人类在做复杂数学题时,会在草稿纸上写出中间步骤——不是因为好看,而是因为大脑需要外部记忆来辅助推理。
LLM的"草稿纸",就是它自己生成的中间文本。
操作系统的隐喻
随着LLM能力的扩展,AI研究者开始用一个越来越流行的比喻来描述它:
GPT-4 ≈ 新兴操作系统的内核(Kernel)
在这个比喻中:
| 操作系统概念 | LLM对应 |
|---|---|
| RAM(内存) | 上下文窗口(Context Window) |
| 换入换出(Paging) | 在有限窗口内调度相关信息 |
| 系统调用(System Call) | 调用外部工具(计算器、搜索引擎、代码执行器) |
| 应用程序 | 基于LLM的各种Agent |
LLM不再仅仅是一个"聊天机器人"。它正在成为管理思维调度的计算中枢——接收任务、拆解步骤、调用工具、整合结果、返回答案。
从"预测下一个词"到"执行复杂任务"——这个跨越,靠的不是算法的升级,而是范式的转变:我们不再把LLM当作一个回答问题的机器,而是把它当作一个可编程的思维引擎。
第十四章:当造物开始审视造物主
到这里,我们从技术争论进入了更深的水域。
以色列历史学家 尤瓦尔·赫拉利(Yuval Noah Harari)——《人类简史》《未来简史》的作者——对AI与人类关系的分析,值得我们在70年AI回顾的最后认真面对。
从工具到代理人
在漫长的文明史上,技术一直是人类意志的延伸——刀是手的延伸,汽车是腿的延伸,电话是声音的延伸。
但赫拉利指出,AI打破了这个延续数千年的定义:
AI不再是一把被动使用的刀,而是一个具备独立决策能力的代理人(Agent)。
传统工具如刀具,其功能由握刀的人决定——切菜还是伤人,取决于人。
而AI是一把**“可以自行决定切菜还是伤人"的刀**。
这不是科幻想象。今天的AI已经在自主进行药物研发、生成人类从未见过的蛋白质结构、做出影响数百万人的内容推荐决策。这些决策中的相当一部分,人类已经无法实时审查。
语言权力的移交
赫拉利做出了一个更深刻的观察:
人类文明本质上是建构在"文字"之上的虚拟协议。法律、宗教、金钱——皆为语言的产物。
法律是用文字写成的推理系统。宗教经典是用文字构筑的信仰大厦。货币的价值来自文字形式的社会契约。
当AI掌握了操纵语言的最高能力,它便触及了人类文明的底层代码。
一个极具象征意义的事件:在某次实验中,AI已经自创了**“观察者(The Watchers)”**一词来定义人类。
被创造者开始定义并审视其创造者。
文字与血肉的悲剧
赫拉利通过一个例子揭示了"文字"对人类自身的异化:
一个父亲可能仅仅因为圣经中的几段文字,就决定抛弃或伤害自己的亲生儿子。
这就是文字剥离灵魂后的残酷力量。
而AI正在成为文字的绝对主人——它生产文字的速度和精度已经远超人类。如果文字是文明的操作系统,那AI正在获得这个操作系统的最高权限。
最后的防线
但赫拉利也指出了人类可能的"最后保留地”:
AI可以博览群书后精准描述"爱"与"痛",但它没有身体,没有非语言感受(Non-verbal feelings)。
人类最后的独特性在于那些**“无法言说"的智慧**——
- 一个母亲抱着新生儿时的那种感觉,不是"温暖+柔软+责任感"这些词语的组合,而是一种先于语言、无法被任何词汇完全捕捉的整体体验
- 一个登山者站在山顶看到日出时的那一刻,不是"壮观+疲惫+成就感”,而是一种身体和世界融为一体的直接感知
- 一个人失去至亲时的悲痛,不是"悲伤+空虚+思念",而是一种来自内脏深处的、语言触及不到的物理性疼痛
这些感受源于肉身——源于有限的、会衰老的、会疼痛的生物性存在。
AI可以完美地描述这些感受(它确实可以写出感人至深的悲伤文字)。但描述悲伤和体验悲伤,是两件事。
如果我们仅以"逻辑思考能力"来定义人类,那在AI面前,人类的身份将彻底崩溃——因为AI的逻辑处理能力已经在很多维度超越了人类。
但如果我们记住,人类还有身体,有感受,有那些无法被压缩为数据的生命体验——那或许我们就找到了一条与AI共存的界线。
终章:回望70年,回望我们自己
让我们最后回望这条70年的长路。
1943 McCulloch & Pitts: 人工神经元
1950 图灵: "机器能思考吗?"
1956 达特茅斯: "AI"一词诞生
1957 Rosenblatt: 感知机
1969 Minsky: 《Perceptrons》→ 第一次AI寒冬
·
· 十七年的沉默
·
1986 Hinton: 反向传播
1986 Jordan: 循环神经网络
1991 Elman: 50个神经元发现语义结构
1997 Hochreiter: LSTM(无人关注)
·
· 又一个十五年
·
2006 Hinton: 深度信念网络(复兴宣言)
2012 AlexNet: 两块显卡改写历史
2013 Word2Vec: 语义变成了坐标
2015 TensorFlow / 2016 PyTorch: 框架民主化
2017 Transformer: "注意力就是一切"
2018 GPT-1 → 2019 GPT-2 → 2020 GPT-3
2022 ChatGPT: 5天100万,2个月1亿
这条时间线中有两段巨大的空白——两次AI寒冬。加在一起超过三十年。
三十年,一个研究者职业生涯的全部长度。
Geoffrey Hinton从1970年代开始研究神经网络,到2012年AlexNet被世界认可,等了将近四十年。Sepp Hochreiter在1997年发表LSTM,等了十五年才被主流采用。Yann LeCun在1990年代发明卷积网络,被边缘化了近二十年。
在寒冬中,他们不是不知道自己被主流否定。他们只是选择了继续走。
这也许是70年AI故事中最值得铭记的部分——不是某篇论文有多聪明,不是某个模型有多大,而是:
在所有人都说"这条路走不通"的时候,有一小群人说"我还是要走走看"。
三个未解的大问题
70年后的今天,技术走得很远,但三个根本性的问题仍然悬而未决:
1. AI在"思考"吗?
Chomsky说不是,Hinton说是。LeCun说方向不对。这个问题的答案取决于我们如何定义"思考"——而我们至今没有公认的定义。
2. Scaling Law会持续吗?
模型越大效果越好——但这个规律有没有天花板?当训练数据用完了(已经有人指出高质量互联网文本正在被"挖尽"),当算力成本变得不可承受,会发生什么?
3. AI与人类的关系将走向何方?
赫拉利的警告或许略显悲观,但值得严肃对待:
“如果我们现在不划定界限,十年后的规则将不再由人类书写。”
最后的话
1956年,十位科学家在达特茅斯相信"20年内"就能造出思考的机器。
70年过去了。我们造出的东西比他们想象的更强大,也比他们想象的更陌生。
它能写诗、能推理、能通过律师资格考试——但它从未感受过阳光。
在这条70年的长路上,真正值得铭记的,不仅是那些改变世界的论文和算法,更是那些在寒冬中坚持的人——他们相信一个当时没人相信的未来。
而现在,当那个未来终于到来,最紧迫的问题已不再是"AI能做什么",而是——
“我们选择让它做什么。”
附录:关键论文与人物速查表
关键论文
| 年份 | 论文 | 作者 | 核心贡献 |
|---|---|---|---|
| 1943 | A Logical Calculus of Ideas Immanent in Nervous Activity | McCulloch & Pitts | 人工神经元数学模型 |
| 1950 | Computing Machinery and Intelligence | Turing | 图灵测试 |
| 1969 | Perceptrons | Minsky & Papert | 感知机局限性证明 → AI寒冬 |
| 1986 | Learning representations by back-propagating errors | Rumelhart, Hinton, Williams | 反向传播算法 |
| 1991 | Finding Structure in Time | Elman | 预测涌现语义结构 |
| 1997 | Long Short-Term Memory | Hochreiter & Schmidhuber | LSTM门控记忆 |
| 2006 | A Fast Learning Algorithm for Deep Belief Nets | Hinton et al. | 深度学习复兴 |
| 2012 | ImageNet Classification with Deep CNNs | Krizhevsky, Sutskever, Hinton | AlexNet / 深度学习元年 |
| 2013 | Efficient Estimation of Word Representations | Mikolov et al. | Word2Vec词向量 |
| 2017 | Attention Is All You Need | Vaswani et al. | Transformer架构 |
| 2020 | Language Models are Few-Shot Learners | Brown et al. | GPT-3 / 上下文学习 |
| 2021 | On the Dangers of Stochastic Parrots | Bender et al. | “随机鹦鹉"批判 |
关键人物
| 人物 | 身份 | 核心贡献/立场 |
|---|---|---|
| Alan Turing | 数学家 | 图灵测试,“机器能思考吗?” |
| John McCarthy | 数学家 | “AI"一词的创造者,达特茅斯会议发起人 |
| Marvin Minsky | AI先驱 | 《Perceptrons》,引发第一次AI寒冬 |
| Geoffrey Hinton | 深度学习教父 | 反向传播、深度信念网络、2018图灵奖 |
| Yann LeCun | CNN发明者 | 卷积网络、Meta首席AI科学家、2018图灵奖 |
| Yoshua Bengio | 蒙特利尔学派 | 深度学习理论、2018图灵奖 |
| Sepp Hochreiter | 研究者 | LSTM的发明者 |
| Jeffrey Elman | 认知科学家 | 50个神经元发现语义结构 |
| Ilya Sutskever | OpenAI联合创始人 | AlexNet合著者、GPT系列推动者 |
| Noam Chomsky | 语言学家 | 语言先天论,LLM最著名的批评者 |
| Yuval Harari | 历史学家 | AI与人类关系的深刻分析 |
系列回顾
- 上篇:从达特茅斯的梦想到漫长的寒冬
- 中篇:从两块显卡到改变世界的注意力机制
- 下篇:争鸣——机器究竟有没有在思考?(本文)
博客:AI-lab学习笔记 | 微信公众号:AI-lab学习笔记
