本文是"AI的70年"系列的最后一篇。建议先阅读 上篇(梦想与寒冬)中篇(复兴与爆发)


引言:一个从未解决的老问题

1950年,图灵在论文的第一句话就问了:

“Can machines think?"(机器能思考吗?)

75年后,我们造出了能通过律师资格考试、能写十四行诗、能解微积分题的AI系统。

但这个问题依然没有答案。

事实上,它变得更加尖锐了。因为现在,争论的双方都拿得出证据——而且双方的证据都很有说服力。

这不是一场"聪明人对笨人"的辩论。站在反对方的是图灵奖得主、是当代最伟大的语言学家、是深度学习三巨头之一。站在支持方的也是图灵奖得主、也是深度学习的奠基人。

他们彼此了解对方的论点,仍然无法说服对方。

这一章,我们尽量公平地呈现双方的观点。你会发现,这场争论的深度远超"AI行不行”——它触及了人类如何定义"理解"和"思考"这些最基本的概念。


第十一章:反对派的深层批判——AI到底缺了什么?

一、“随机鹦鹉”——Bender & Gebru(2021)

2021年,华盛顿大学语言学教授 Emily Bender 和AI伦理研究者 Timnit Gebru 发表了一篇论文,标题极具挑衅性:

On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 《论随机鹦鹉的危险:语言模型是否可以太大了?》

她们的核心论点:

大语言模型只是在做"统计拼贴"——把训练数据中出现过的语言模式重新排列组合,但对这些词语的含义一无所知。就像一只鹦鹉可以完美模仿人类的对话,但它不理解自己在说什么。

具体来说:

  • LLM的"知识"来源于训练数据的统计分布,不是来源于对世界的理解
  • 它生成的"流畅文本",是高级的模式匹配,不是思考的结果
  • 当训练数据中存在偏见,模型会毫不犹豫地复制这些偏见——因为它根本不"知道"什么是对什么是错

这篇论文引发了巨大的风波——Gebru在发表前被Google解雇(她当时是Google AI伦理团队的联合负责人),引发了整个AI行业对企业伦理的激烈讨论。

但抛开政治争议,“随机鹦鹉"这个比喻确实触及了一个核心问题:流畅地说话,和真正理解自己在说什么,是同一件事吗?

论文卡片 Bender et al. (2021), On the Dangers of Stochastic Parrots, FAccT 2021 一句话意义: 提出"随机鹦鹉"批判——LLM的流畅输出可能只是高级的统计拼贴,不代表理解。

二、世界模型的缺失——Yann LeCun

Yann LeCun——深度学习三巨头之一、图灵奖得主、Meta首席AI科学家——是最有分量的反对者。

注意这里的讽刺:LeCun本人就是深度学习的奠基人之一。他不是反对AI,他是反对当前这条路

他的核心观点,可以用一个比喻来理解:

“用文本训练AI去理解世界,就像只听广播来学开车——你可能记住了所有交通规则,但第一次上路就会撞墙。”

展开来说,LeCun认为:

1. LLM没有"世界模型”(World Model)

一个婴儿六个月大的时候,看到一个球从桌边滚落,会露出惊讶的表情——因为TA已经建立了关于重力的直觉物理模型。TA"知道"东西会往下掉,所以球滚落是符合预期的,但如果球悬浮在空中,TA会惊讶。

LLM没有这种模型。它"知道"球会落地,是因为训练数据里有无数句"球掉到了地上"——但它是通过词语共现的统计规律来"知道"的,不是通过对物理世界的表征。

当你问GPT"一个杯子倒扣在桌上,杯子里放一个乒乓球,把杯子拿起来,球在哪里?"——这种需要空间推理的问题,LLM经常给出错误答案。因为它没有三维空间的内部模型,它只有文字。

2. LLM不理解因果关系

LLM知道"下雨→地面湿"(因为训练数据里这两件事经常一起出现),但它不真正理解为什么下雨会导致地面湿。它分不清"相关性"和"因果性"。

一个三岁的孩子可以理解"因为下雨了,所以地面湿了"和"因为有人浇水了,所以地面湿了"的区别。这需要因果推理,而不只是统计共现。

3. LeCun的替代方案:JEPA

LeCun认为,AI的正确道路不是继续扩大语言模型,而是开发联合嵌入预测架构(JEPA, Joint Embedding Predictive Architecture)——让AI通过感知物理世界来建立因果模型。

他的设想是:AI应该像婴儿一样,通过观察、触摸、操纵物体来理解世界,而不是只读文本。

人物卡片:Yann LeCun 图灵奖得主(2018),卷积神经网络(CNN)发明者,Meta首席AI科学家。深度学习三巨头中唯一公开批评LLM路线的人。他认为当前的LLM"永远不会达到人类级别的智能",因为它们缺乏对物理世界的内部表征。

三、物理接地的缺失——具身认知学派

LeCun的批评指向了一个更深层的哲学传统:具身认知(Embodied Cognition)

这个学派的核心主张是:

人类的智能不仅在大脑中,更在身体与环境的交互中。

一个婴儿不是通过阅读来理解"热"这个概念的——TA是通过伸手触摸一个热杯子、然后猛地缩回来来理解的。这种来自肉身的反馈,构成了TA对"热"这个概念的基底体验

LLM"知道"火是热的,因为训练数据里有"火很热"这句话。但它从未被烫过。

这两种"知道",是同一种"知道"吗?

1990年,哲学家 Stevan Harnad 提出了符号接地问题(Symbol Grounding Problem)

如果一个系统的所有概念都只通过其他符号来定义——就像用字典查字典——那它永远无法真正"理解"任何概念。

一个从未见过猫的人,只通过字典定义(“猫:一种小型哺乳动物,有尖耳和柔软的毛皮”)来了解猫,和一个从小和猫一起长大的人对"猫"的理解,是一样的吗?

LLM就是那个只看过字典的人。它拥有关于猫的所有文字信息,但它从未听过猫的呼噜声,从未感受过猫毛的柔软。

四、Chomsky的"不可能"论断

2023年,Noam Chomsky——可能是二十世纪最有影响力的语言学家——与 Ian Roberts 和 Jeffrey Watumull 在《纽约时报》上发表了一篇措辞严厉的评论文章。

Chomsky的论点可以归纳为三个层次:

第一层:学习方式根本不同

人类的孩子只需要听到极少量的语言样本,就能掌握复杂的语法规则——Chomsky称之为**“刺激贫乏论(Poverty of the Stimulus)”**。一个三岁的孩子可能只听过几千个句子,但TA已经能造出从未听过的合语法的新句子。

而LLM需要吞噬整个互联网的文本——数万亿个token——才能学会"像样地说话"。

如果人类和LLM最终都能"说流利的话",但一个只需要极少数据,一个需要海量数据——那它们的内在机制一定是完全不同的。

第二层:LLM不知道什么是"不可能的"

Chomsky认为,真正的智能不仅在于说出什么是正确的,更在于能判断什么是不可能的

一个懂英语语法的人知道"Colorless green ideas sleep furiously"虽然没有意义,但语法上是合法的;而"Sleep ideas furiously green colorless"语法上是不合法的。

人类可以做这种否定性判断——“这不可能”。但LLM只被训练去生成"可能的"文本,它没有关于"什么是不可能的"的内部表征。

第三层:LLM是"曲线拟合器"

Chomsky最尖锐的批评是:LLM本质上只是一个非常大的、非常复杂的"曲线拟合器"——它在高维空间中拟合了训练数据的统计分布,但它既不能建构因果模型,也不能产生真正的解释

“ChatGPT所做的事和真正的思维之间的差距,相当于一个行星轨道的统计拟合和牛顿万有引力定律之间的差距——前者只是描述,后者才是理解。”

五、推理的脆弱性——实证证据

除了哲学批判,还有越来越多的实验证据暴露了LLM推理能力的脆弱性:

GSM8K翻转实验(2024)

GSM8K是一个小学数学题测试集。GPT-4在上面的正确率高达92%。

但当研究者只是把题目中的数字或条件略作修改——本质上是同一类问题——正确率暴跌到不足50%。

这强烈暗示:模型不是在做"逻辑推理",而是在做模式匹配——它记住了训练数据中类似题目的解题模式,当模式被打破时,它就不会了。

ARC挑战(François Chollet)

Chollet(Keras框架的创建者)设计了一套视觉推理测试:给出几个输入-输出的图案变换示例,让AI推断规则并应用到新输入。

这些题目对人类来说很简单(大多数人能在几秒内解决),但LLM的表现极差。

原因是:这些题目要求的是在训练分布之外的抽象泛化——看到从未见过的规则,并立即理解它。这正是LLM最薄弱的环节。

规划能力的缺失

在需要多步规划的任务中(如积木世界问题、旅行行程规划),LLM频繁失败。因为规划需要在头脑中模拟执行多个步骤,预判每一步的后果——而LLM没有这种内部模拟器,它只是在逐词生成。


第十二章:涌现派的反驳——“飞机不扇翅膀,但它确实在飞”

Hinton的立场

2023年,Geoffrey Hinton——深度学习教父、图灵奖得主——辞去了Google的职位,以便能"自由地谈论AI的风险"。

但在"AI是否在思考"这个问题上,Hinton的立场和Chomsky截然相反:

“如果一个系统能正确运用一个概念,在各种语境中做出合理推断,那它就是理解了这个概念——不管它内部用什么机制。”

Hinton的论证逻辑是这样的:

1. 人类也不理解自己

我们不知道人类大脑里的860亿个神经元具体是怎么产生"理解"的。我们甚至不知道意识是什么。但我们不会因此否认人类有智能。

那凭什么,仅仅因为我们不理解LLM内部的机制,就否认它可能"理解"了什么?

2. 飞机的类比

“飞机不扇翅膀,但它确实在飞。”

鸟类通过扇动翅膀来飞行,飞机通过固定翼加发动机来飞行。机制完全不同,但"飞"这个功能是等价的。

同理,人类通过生物神经元来"思考",LLM通过数学矩阵来"思考"。机制不同,但如果最终的功能表现等价——能推理、能创造、能在新情境中做出合理判断——那有什么理由说一个是"真正的思考",另一个不是?

3. 涌现是真实的

Hinton非常重视第八章中提到的**“情感神经元”**发现——一个只被训练来预测下一个字符的网络,自发产生了情感理解能力。

他认为这不是巧合,而是一个深刻的原理:

为了完美地预测世界,模型必须首先深刻地模拟世界。

预测一段文本的下一个词,看似简单,实际上要求模型理解语法、语义、常识、逻辑、因果关系、人类心理…因为这些因素都会影响"下一个词是什么"。

当模型足够大、数据足够多时,这些"理解"不是被显式编程的——它们作为预测能力的必然副产品而涌现。

Sutskever的论证

Ilya Sutskever——Hinton的学生、AlexNet论文的合著者、OpenAI的联合创始人和前首席科学家——对这个问题有一个更简洁的表述:

“如果你的神经网络足够精确地预测下一个token,那你就必须理解生成这些token的底层现实。”

想象一下:如果一个模型能完美地预测一本物理学教科书的每一个下一个词,那它一定"理解"了物理学——否则它怎么可能做出正确的预测?

当然,批评者会说:它只是记住了教科书中的语言模式,并不真正理解物理定律。

而支持者会反问:“理解物理定律"和"完美预测物理学文本”,有什么本质区别?

这个问题,到目前为止没有人能给出让所有人信服的答案。


第十三章:对齐与觉醒——让AI学会"怎么做人"

思维链:教AI"自言自语"

2022年,Google的研究者发现了一个简单到不可思议的技巧:在提示词中加一句"Let’s think step by step"(让我们一步步思考),模型的推理能力就会大幅提升。

这就是思维链(Chain of Thought, CoT)

原理是什么?当你强制模型在给出答案之前先"说出"推理过程时,它相当于在用中间步骤来扩展上下文窗口——每一步的输出都成为下一步的输入,形成了一条连续的"思考链条"。

这就像人类在做复杂数学题时,会在草稿纸上写出中间步骤——不是因为好看,而是因为大脑需要外部记忆来辅助推理

LLM的"草稿纸",就是它自己生成的中间文本。

操作系统的隐喻

随着LLM能力的扩展,AI研究者开始用一个越来越流行的比喻来描述它:

GPT-4 ≈ 新兴操作系统的内核(Kernel)

在这个比喻中:

操作系统概念LLM对应
RAM(内存)上下文窗口(Context Window)
换入换出(Paging)在有限窗口内调度相关信息
系统调用(System Call)调用外部工具(计算器、搜索引擎、代码执行器)
应用程序基于LLM的各种Agent

LLM不再仅仅是一个"聊天机器人"。它正在成为管理思维调度的计算中枢——接收任务、拆解步骤、调用工具、整合结果、返回答案。

从"预测下一个词"到"执行复杂任务"——这个跨越,靠的不是算法的升级,而是范式的转变:我们不再把LLM当作一个回答问题的机器,而是把它当作一个可编程的思维引擎


第十四章:当造物开始审视造物主

到这里,我们从技术争论进入了更深的水域。

以色列历史学家 尤瓦尔·赫拉利(Yuval Noah Harari)——《人类简史》《未来简史》的作者——对AI与人类关系的分析,值得我们在70年AI回顾的最后认真面对。

从工具到代理人

在漫长的文明史上,技术一直是人类意志的延伸——刀是手的延伸,汽车是腿的延伸,电话是声音的延伸。

但赫拉利指出,AI打破了这个延续数千年的定义:

AI不再是一把被动使用的刀,而是一个具备独立决策能力的代理人(Agent)。

传统工具如刀具,其功能由握刀的人决定——切菜还是伤人,取决于人。

而AI是一把**“可以自行决定切菜还是伤人"的刀**。

这不是科幻想象。今天的AI已经在自主进行药物研发、生成人类从未见过的蛋白质结构、做出影响数百万人的内容推荐决策。这些决策中的相当一部分,人类已经无法实时审查。

语言权力的移交

赫拉利做出了一个更深刻的观察:

人类文明本质上是建构在"文字"之上的虚拟协议。法律、宗教、金钱——皆为语言的产物。

法律是用文字写成的推理系统。宗教经典是用文字构筑的信仰大厦。货币的价值来自文字形式的社会契约。

当AI掌握了操纵语言的最高能力,它便触及了人类文明的底层代码。

一个极具象征意义的事件:在某次实验中,AI已经自创了**“观察者(The Watchers)”**一词来定义人类。

被创造者开始定义并审视其创造者。

文字与血肉的悲剧

赫拉利通过一个例子揭示了"文字"对人类自身的异化:

一个父亲可能仅仅因为圣经中的几段文字,就决定抛弃或伤害自己的亲生儿子。

这就是文字剥离灵魂后的残酷力量。

而AI正在成为文字的绝对主人——它生产文字的速度和精度已经远超人类。如果文字是文明的操作系统,那AI正在获得这个操作系统的最高权限。

最后的防线

但赫拉利也指出了人类可能的"最后保留地”:

AI可以博览群书后精准描述"爱"与"痛",但它没有身体,没有非语言感受(Non-verbal feelings)。

人类最后的独特性在于那些**“无法言说"的智慧**——

  • 一个母亲抱着新生儿时的那种感觉,不是"温暖+柔软+责任感"这些词语的组合,而是一种先于语言、无法被任何词汇完全捕捉的整体体验
  • 一个登山者站在山顶看到日出时的那一刻,不是"壮观+疲惫+成就感”,而是一种身体和世界融为一体的直接感知
  • 一个人失去至亲时的悲痛,不是"悲伤+空虚+思念",而是一种来自内脏深处的、语言触及不到的物理性疼痛

这些感受源于肉身——源于有限的、会衰老的、会疼痛的生物性存在。

AI可以完美地描述这些感受(它确实可以写出感人至深的悲伤文字)。但描述悲伤和体验悲伤,是两件事。

如果我们仅以"逻辑思考能力"来定义人类,那在AI面前,人类的身份将彻底崩溃——因为AI的逻辑处理能力已经在很多维度超越了人类。

但如果我们记住,人类还有身体,有感受,有那些无法被压缩为数据的生命体验——那或许我们就找到了一条与AI共存的界线。


终章:回望70年,回望我们自己

让我们最后回望这条70年的长路。

1943  McCulloch & Pitts: 人工神经元
1950  图灵: "机器能思考吗?"
1956  达特茅斯: "AI"一词诞生
1957  Rosenblatt: 感知机
1969  Minsky: 《Perceptrons》→ 第一次AI寒冬
      ·
      · 十七年的沉默
      ·
1986  Hinton: 反向传播
1986  Jordan: 循环神经网络
1991  Elman: 50个神经元发现语义结构
1997  Hochreiter: LSTM(无人关注)
      ·
      · 又一个十五年
      ·
2006  Hinton: 深度信念网络(复兴宣言)
2012  AlexNet: 两块显卡改写历史
2013  Word2Vec: 语义变成了坐标
2015  TensorFlow / 2016 PyTorch: 框架民主化
2017  Transformer: "注意力就是一切"
2018  GPT-1 → 2019 GPT-2 → 2020 GPT-3
2022  ChatGPT: 5天100万,2个月1亿

这条时间线中有两段巨大的空白——两次AI寒冬。加在一起超过三十年。

三十年,一个研究者职业生涯的全部长度。

Geoffrey Hinton从1970年代开始研究神经网络,到2012年AlexNet被世界认可,等了将近四十年。Sepp Hochreiter在1997年发表LSTM,等了十五年才被主流采用。Yann LeCun在1990年代发明卷积网络,被边缘化了近二十年。

在寒冬中,他们不是不知道自己被主流否定。他们只是选择了继续走。

这也许是70年AI故事中最值得铭记的部分——不是某篇论文有多聪明,不是某个模型有多大,而是:

在所有人都说"这条路走不通"的时候,有一小群人说"我还是要走走看"。

三个未解的大问题

70年后的今天,技术走得很远,但三个根本性的问题仍然悬而未决:

1. AI在"思考"吗?

Chomsky说不是,Hinton说是。LeCun说方向不对。这个问题的答案取决于我们如何定义"思考"——而我们至今没有公认的定义。

2. Scaling Law会持续吗?

模型越大效果越好——但这个规律有没有天花板?当训练数据用完了(已经有人指出高质量互联网文本正在被"挖尽"),当算力成本变得不可承受,会发生什么?

3. AI与人类的关系将走向何方?

赫拉利的警告或许略显悲观,但值得严肃对待:

“如果我们现在不划定界限,十年后的规则将不再由人类书写。”

最后的话

1956年,十位科学家在达特茅斯相信"20年内"就能造出思考的机器。

70年过去了。我们造出的东西比他们想象的更强大,也比他们想象的更陌生。

它能写诗、能推理、能通过律师资格考试——但它从未感受过阳光。

在这条70年的长路上,真正值得铭记的,不仅是那些改变世界的论文和算法,更是那些在寒冬中坚持的人——他们相信一个当时没人相信的未来。

而现在,当那个未来终于到来,最紧迫的问题已不再是"AI能做什么",而是——

“我们选择让它做什么。”


附录:关键论文与人物速查表

关键论文

年份论文作者核心贡献
1943A Logical Calculus of Ideas Immanent in Nervous ActivityMcCulloch & Pitts人工神经元数学模型
1950Computing Machinery and IntelligenceTuring图灵测试
1969PerceptronsMinsky & Papert感知机局限性证明 → AI寒冬
1986Learning representations by back-propagating errorsRumelhart, Hinton, Williams反向传播算法
1991Finding Structure in TimeElman预测涌现语义结构
1997Long Short-Term MemoryHochreiter & SchmidhuberLSTM门控记忆
2006A Fast Learning Algorithm for Deep Belief NetsHinton et al.深度学习复兴
2012ImageNet Classification with Deep CNNsKrizhevsky, Sutskever, HintonAlexNet / 深度学习元年
2013Efficient Estimation of Word RepresentationsMikolov et al.Word2Vec词向量
2017Attention Is All You NeedVaswani et al.Transformer架构
2020Language Models are Few-Shot LearnersBrown et al.GPT-3 / 上下文学习
2021On the Dangers of Stochastic ParrotsBender et al.“随机鹦鹉"批判

关键人物

人物身份核心贡献/立场
Alan Turing数学家图灵测试,“机器能思考吗?”
John McCarthy数学家“AI"一词的创造者,达特茅斯会议发起人
Marvin MinskyAI先驱《Perceptrons》,引发第一次AI寒冬
Geoffrey Hinton深度学习教父反向传播、深度信念网络、2018图灵奖
Yann LeCunCNN发明者卷积网络、Meta首席AI科学家、2018图灵奖
Yoshua Bengio蒙特利尔学派深度学习理论、2018图灵奖
Sepp Hochreiter研究者LSTM的发明者
Jeffrey Elman认知科学家50个神经元发现语义结构
Ilya SutskeverOpenAI联合创始人AlexNet合著者、GPT系列推动者
Noam Chomsky语言学家语言先天论,LLM最著名的批评者
Yuval Harari历史学家AI与人类关系的深刻分析

系列回顾


博客:AI-lab学习笔记 | 微信公众号:AI-lab学习笔记