本文是"AI的70年"系列的第二篇。如果你还没读过上篇,建议先看 《AI的70年(上):从达特茅斯的梦想到漫长的寒冬》
第六章:导火索——两块游戏显卡改写历史(2009—2012)
GPU:从游戏引擎到计算引擎
在讲2012年的故事之前,我们需要先理解一个关键角色:GPU(图形处理器)。
GPU原本是为了渲染3D游戏画面而设计的——它的特长是同时执行大量简单的计算。一个游戏画面有几百万个像素,每个像素的颜色计算都差不多,所以GPU被设计成拥有成百上千个小核心,可以并行处理。
而神经网络的核心运算也是大量简单计算的并行执行——矩阵乘法。
2007年,NVIDIA发布了 CUDA——一套让程序员可以用GPU做通用计算的工具包。GPU从此不再只是"游戏显卡",而是变成了一台并行计算引擎。
2009年,吴恩达(Andrew Ng) 团队在斯坦福大学发表了一个关键实验结果:
用GPU训练神经网络,比CPU快10到70倍。
一个在CPU上需要训练几周的模型,用GPU只需要一天。
这看似只是一个工程优化,但它的连锁反应是革命性的——当你的实验周期从"几周"缩短到"一天",你就可以做十倍多的尝试。 研究者可以更快地迭代、更大胆地尝试更大的模型。
硬件瓶颈,被打破了。
2012年秋天:ImageNet的震撼
2012年10月,一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)公布了结果。
ImageNet是当时最权威的计算机视觉竞赛:给你一张照片,你要识别出里面是什么——猫、狗、汽车、花瓶——从1000个类别中选出正确答案。参赛队伍来自全世界最顶尖的实验室。
此前几年,最好的方法(手工设计特征 + SVM分类器)错误率一直卡在26%左右,每年进步只有一两个百分点。
然后,多伦多大学的一支三人小队提交了他们的结果:
错误率 15.3%。
碾压第二名超过10个百分点。这不是渐进式的改进——这是断崖式的碾压。
AlexNet (2012)
| 项目 | 细节 |
|---|---|
| 论文 | Krizhevsky, Sutskever & Hinton, ImageNet Classification with Deep Convolutional Neural Networks |
| 模型 | 8层卷积神经网络,6000万参数 |
| 硬件 | 两块 NVIDIA GTX 580 GPU(每块仅3GB显存) |
| 训练时间 | 约5-6天 |
| 错误率 | 15.3%(第二名26.2%) |
三个人的名字:Alex Krizhevsky(研究生,负责编写CUDA代码)、Ilya Sutskever(Hinton的博士生,后来成为OpenAI的联合创始人和首席科学家)、Geoffrey Hinton(对,就是那个在寒冬中坚持了三十年的人)。
AlexNet的秘密武器不是什么全新的理论——卷积网络的原理LeCun在1990年代就提出了。它的核心突破在于三件事:
- GPU并行训练:用两块游戏显卡把训练时间压缩到可行的范围
- 大规模数据:ImageNet有120万张标注图片,远超以往的数据集
- ReLU激活函数 + Dropout正则化:让深层网络训练更稳定
硬件 + 数据 + 算法,三条线索在这一刻完成了历史性的交汇。
这一天被后来的历史学家称为深度学习的**“iPhone时刻”**——在此之前,深度学习是边缘研究;在此之后,它成为了AI的主流范式。全世界的实验室在几个月内纷纷转向深度学习。各大科技公司开始疯狂招聘深度学习人才。
Hinton在那个秋天一夜之间从"边缘人"变成了"先知"。
Google、百度、微软开始争相挖人。2013年,Hinton的小公司DNNresearch被Google收购——这家公司的全部资产就是Hinton和他的两个学生。
硬件演进:一条平行的关键时间线
AI的故事不能只讲算法,硬件同样是核心驱动力。每一代GPU的进步,都直接决定了AI研究者能"做多大的梦"。
| 年份 | GPU / 硬件 | 显存 | AI意义 |
|---|---|---|---|
| 2007 | NVIDIA CUDA发布 | — | GPU从游戏引擎变为计算引擎 |
| 2012 | GTX 580 | 3GB | 训练AlexNet,深度学习元年 |
| 2016 | P100 (Pascal) | 16GB | 第一款AI专用数据中心GPU |
| 2017 | V100 (Volta) | 16-32GB | Tensor Core诞生,矩阵乘法专用硬件 |
| 2020 | A100 (Ampere) | 40-80GB | 训练GPT-3的主力,第三代Tensor Core |
| 2022 | H100 (Hopper) | 80GB | Transformer Engine,FP8精度 |
| 2024 | B200 (Blackwell) | 192GB | 单卡可承载更大模型 |
一个直观的对比:2012年训练AlexNet用了两块3GB的显卡;2020年训练GPT-3用了约10,000块A100,耗资超过460万美元的纯算力费用。
算力的增长速度远超摩尔定律。AI不仅是算法的竞赛,更是算力的军备竞赛。
第七章:框架革命——深度学习的"民主化"(2013—2016)
从手搓CUDA到一行代码
在AlexNet的年代,训练一个神经网络是一件极其痛苦的事。Alex Krizhevsky为了让模型在两块GPU上并行训练,手写了大量底层的CUDA代码。这种工作需要同时精通算法和GPU底层编程——全世界能做到的人屈指可数。
如果深度学习要从"少数天才的手艺活"变成"所有研究者都能用的工具",就需要更好的软件基础设施。
| 年份 | 框架 | 开发者 | 关键特点 |
|---|---|---|---|
| 2013 | Caffe | 贾扬清 (UC Berkeley) | 第一个广泛使用的深度学习框架,C++底层 |
| 2015 | TensorFlow | 工业级部署能力,静态计算图 | |
| 2015 | Keras | François Chollet | 极简API,降低入门门槛 |
| 2016 | PyTorch | Facebook (Meta) | 动态计算图,Python原生体验,研究者首选 |
这些框架做了一件关键的事:把GPU编程的复杂性封装起来。
以前你需要手写几百行CUDA代码来实现一个卷积层;有了PyTorch之后,一行代码就够了:
layer = torch.nn.Conv2d(3, 64, kernel_size=3)
这意味着一个物理学博士、一个医学研究者、一个计算机本科生,都可以在一个下午搭建并训练一个深度神经网络。
框架降低了门槛,加速了整个领域的迭代速度。 深度学习从"贵族运动"变成了"大众运动"。
Word2Vec:词语有了坐标(2013)
2013年,Google的 Tomas Mikolov 提出了 Word2Vec,一个看似简单但意义深远的模型。
Word2Vec做的事只有一件:把每个单词映射成一个几百维的向量——一串数字。
但这些向量具有惊人的数学性质:
King - Man + Woman ≈ Queen
Paris - France + Japan ≈ Tokyo
“国王"减去"男性"加上"女性”,约等于"女王"。 词语之间的语义关系,被编码成了向量空间中的方向和距离。
这意味着什么?这意味着语义是可以计算的。
Word2Vec证明了语言中的意义可以被"捕捉"在数学空间里。这为后来Transformer的注意力机制——通过计算词向量之间的距离来判断语义关联——铺平了道路。
论文卡片 Mikolov et al. (2013), Efficient Estimation of Word Representations in Vector Space 一句话意义: King - Man + Woman = Queen —— 证明语义可以被编码为数学空间中的方向,为注意力机制奠基。
2014年的两个里程碑
2014年,两项发明进一步推动了AI的加速:
GAN(生成对抗网络):Ian Goodfellow 在蒙特利尔的一间酒吧里突发灵感——让两个网络互相对抗,一个生成假图片,一个判断真假,通过"军备竞赛"让生成质量越来越高。这开启了AI生成内容(AIGC)的先河。
Seq2Seq with Attention:Ilya Sutskever(AlexNet论文的合著者)等人提出了序列到序列模型,配合 Bahdanau注意力机制。这是第一次在机器翻译中引入"注意力"的概念——让模型在翻译每个词时,能"回看"源句子中最相关的部分,而不是把整个句子压缩成一个固定长度的向量。
Encoder-Decoder加上Attention——这正是三年后Transformer架构的直接前身。
第八章:情感神经元——预测的副作用(2017年初)
在讲Transformer之前,还有一个发现值得特别讲述。
2017年初,OpenAI基于 Andrej Karpathy 的工作,用8200万条亚马逊商品评论训练了一个当时规模最大的循环网络(基于LSTM的语言模型)。
网络的任务还是老套路:预测下一个字符。
训练完成后,研究者打开网络内部检查——然后他们惊呆了。
在网络深处的4096个神经元中,他们发现了一个特殊的神经元。这个单一的神经元,能够精准地判断一段文本的情感倾向——正面还是负面。
把这个神经元的激活值调到最大,网络就输出热情洋溢的五星好评;调到最小,就输出愤怒的一星差评。一个神经元,就是一个完整的情感分类器。
这个发现之所以意义深远,是因为——
从来没有人教过这个网络什么是"情感"。
它的训练目标只有一个:预测下一个字符。但为了更好地预测下一个字符,它不得不去理解文本的情感倾向(因为正面评论和负面评论的措辞模式完全不同)。
“情感”,是预测能力的副产品。
这暗示了一个深刻的可能性:当预测能力足够强时,“理解"会作为副产品自发涌现。 模型不需要被专门教导某个概念——为了预测得更准,它会自己"发明"所需的概念。
但与此同时,这个实验也彻底暴露了RNN架构的致命缺陷。
由于RNN的串行处理特性,网络必须把所有历史信息强行挤入一个固定大小的内部记忆向量中。这就像试图把一整本小说的内容"压缩"进一张便签纸——随着文本越来越长,早期的信息被不可避免地"挤掉”,模型开始胡言乱语。
OpenAI的研究者把这种现象叫做**“上下文挤压(Context Squeezing)”**。
RNN走到了尽头。AI需要一种全新的架构。
第九章:范式转移——“注意力就是一切”(2017)
2017年6月,Google Brain团队的八位研究者在arXiv上发布了一篇论文。
论文标题只有五个字:
Attention Is All You Need
在AI的历史上,很少有一篇论文的标题如此精准地预言了自己的影响力。这篇论文提出的Transformer架构,在此后的七年里,成为了几乎所有AI突破的基础——GPT、BERT、Claude、DeepSeek、Stable Diffusion、AlphaFold——全部基于Transformer或其变体。
RNN的致命缺陷
为了理解Transformer为什么重要,我们需要先理解它替代了什么。
RNN(包括LSTM)处理文本的方式是串行的——像读书一样,一个词一个词地读。读到第100个词的时候,对第1个词的记忆已经非常模糊了。
这导致了两个问题:
- 长距离依赖失效:一篇文章开头提到"张三是医生",到了结尾写"他拿起了手术刀"——RNN很难把"他"和几百个词之前的"张三"联系起来
- 无法并行计算:必须处理完第1个词才能处理第2个词,第99个词必须等前面98个词都处理完——GPU的并行算力被完全浪费了
Transformer的解法:自注意力
Transformer的核心创新是自注意力机制(Self-Attention)——它彻底抛弃了串行结构。
自注意力的工作方式可以这样理解:对于序列中的每一个词,它同时看到所有其他词,然后计算"我应该关注哪些词?"
举个例子:
“The river has a steep bank."(这条河有一个陡峭的河岸。)
当模型处理"bank"这个词时——bank既可以是"河岸”,也可以是"银行"——注意力机制会计算bank与句子中每个其他词的相关度。
它发现:bank和"river"的相关度很高,和"steep"的相关度也高。于是bank的向量表示被调整——向"河岸"的方向移动,远离"银行"的方向。
这种"测量词对之间在概念空间中的距离",就是注意力机制的本质。
多头注意力:多组镜头
Transformer不是只有一组注意力,而是有多组——论文中用了8组,后来的GPT-3用了96组。
每组注意力(称为一个"头(Head)")可以关注不同维度的关系:
- 有的头专注于语法关系(主语在哪?动词在哪?)
- 有的头专注于语义关联(哪些词在意思上相关?)
- 有的头专注于位置距离(前一个词是什么?)
多组"镜头"并行工作,就像一个侦探团队从不同角度分析同一个案件。
为什么Transformer赢了?
| RNN / LSTM | Transformer | |
|---|---|---|
| 处理方式 | 串行,逐词处理 | 并行,全局扫描 |
| 长距离依赖 | 记忆衰减严重 | 直接计算任意词对关系 |
| GPU利用率 | 低(串行瓶颈) | 高(天然适合并行计算) |
| 可扩展性 | 难以扩大规模 | 参数越多效果越好 |
| 训练速度 | 慢(无法并行化时间步) | 快(所有位置同时计算) |
最后一行是关键中的关键。Transformer的并行结构意味着它可以充分利用GPU——这正好赶上了GPU算力指数级增长的时代。RNN的串行结构在GPU面前就像试图用自行车跑高速公路。
论文的八位作者中,多位后来离开Google创办了自己的AI公司(Cohere、Adept等)。一篇论文,直接催生了一个产业。
论文卡片 Vaswani et al. (2017), Attention Is All You Need, NeurIPS 2017 一句话意义: 提出Transformer架构——用自注意力机制替代RNN,实现全局并行扫描,从此成为所有现代大语言模型的基石。
第十章:暴力美学——GPT的四级跳(2018—2022)
Transformer架构就位之后,OpenAI开始了一场史无前例的"暴力扩张"实验——把模型做到多大,性能就能好到什么程度?
GPT-1:验证方向(2018年6月)
GPT-1 | 1.17亿参数 | 12层Transformer
- 在大量未标注文本上做预训练(“预测下一个词”),然后在具体任务上做微调
- 首次验证了**零样本学习(Zero-shot Learning)**的可能性——不针对某个任务专门训练,也能完成该任务
- 证明了"预训练 + 微调"这个范式是可行的
GPT-1还很小,表现也有限。但它验证了一个关键方向:不需要为每个任务训练一个专门的模型——一个通用的大模型,通过预训练就能泛化到多种任务。
GPT-2:让OpenAI害怕的模型(2019年2月)
GPT-2 | 15亿参数 | 48层Transformer
- 比GPT-1大了约13倍
- 能生成连贯的长文本、做翻译、做摘要——全都是零样本,没有专门训练
- OpenAI一度拒绝公开完整模型,理由是担心被用来生成虚假信息
- 但批评者仍然斥之为"统计戏法"——长文本中仍然会出现逻辑"漂移"
GPT-2是第一个让AI研究者感到"不安"的模型。不是因为它有多强,而是因为它展示了一种趋势:仅仅靠增大规模,性能就在持续提升。 如果这个趋势继续下去…
GPT-3:涌现(2020年6月)
GPT-3 | 1750亿参数 | 96层Transformer
- 比GPT-2大了117倍
- 训练数据:约3000亿token(大致相当于人类一辈子阅读量的数千倍)
- 训练成本:约460万美元纯算力费用
- 首次实现了上下文学习(In-context Learning)
GPT-3是质变发生的时刻。
什么是上下文学习?简单说,不需要更新模型的任何参数,只需要在提示词(Prompt)中给出几个例子,模型就能学会新任务:
提示词:
"Gigaro" means a type of magical fruit.
Example: I ate a gigaro for breakfast and felt energized.
Now use "gigaro" in a new sentence:
GPT-3的回答:
The market vendor displayed rows of fresh gigaros,
their golden skin glowing in the morning light.
“Gigaro"是一个完全虚构的词——世界上没有任何文本包含过它。但GPT-3可以正确地理解它的含义并造出合理的句子。
这就是 “冻结网络(Frozen Network)” 下的学习:模型的权重完全不变,但它在"使用时"学到了新知识。
从这个时刻起,一种全新的编程范式诞生了:
提示词即程序(The Prompt is the Program)。
你不再需要写代码来指挥计算机——你只需要用自然语言描述你想要什么。学习不再发生在训练阶段的权重更新中,而是在推理阶段的上下文里。
Scaling Law:暴力美学的数学基础
2020年,OpenAI发表了一篇影响深远的论文:Scaling Laws for Neural Language Models。
核心发现是一个优雅到令人不安的结论:模型性能与三个因素呈幂律关系——
- 参数量(模型有多大)
- 数据量(训练数据有多少)
- 计算量(用了多少算力)
只要持续扩大这三个因素中的任何一个,性能就会可预测地、持续地提升。没有看到天花板。
这就是**“暴力美学"的数学基础**——也是各大科技公司疯狂烧钱训练更大模型的理论依据。如果你知道花两倍的钱一定能得到可量化的性能提升,那不花这个钱就是在竞争中落后。
ChatGPT:从预测者到执行者(2022年11月)
GPT-3很强大,但有一个问题:它有时候会说出令人不安的话。
你问它"如何制作炸弹”,它可能直接告诉你。你让它写一篇文章,它可能写出种族歧视的内容。这不是因为它"想要"这样做——它只是在"预测最可能的下一个词”,而互联网上的训练数据里什么都有。
一个完美的预测者,不等于一个合格的助手。
为了解决这个问题,OpenAI引入了对齐技术(Alignment):
RLHF(人类反馈强化学习)
核心思路:让人类标注员对模型的多个回答进行排序(“这个回答好,那个回答差”),然后训练一个"奖励模型"来模拟人类的偏好,最后用强化学习让GPT去优化这个奖励。
类比:训练一只鸽子,啄对了给食物,啄错了没有。GPT通过人类的"点赞"和"差评",学会了什么该说、什么不该说、怎么说更有帮助。
InstructGPT(2022年初)是这套技术的第一次大规模应用。结果惊人:一个1.3B参数的InstructGPT,在人类评估中被认为优于175B参数的原始GPT-3。对齐比规模更重要。
在InstructGPT的基础上,OpenAI用GPT-3.5作为底座模型,结合更多的RLHF训练,打造出了——
ChatGPT。
2022年11月30日。5天100万用户。2个月1亿用户。
从1956年达特茅斯的夏天到2022年的冬天——66年。
本篇小结:三条线索的交汇
回望这段从2009年到2022年的历史,三条线索的交汇解释了"为什么是现在":
第一条线索:硬件
2007 CUDA发布
↓
2012 两块GTX 580训练AlexNet
↓
2017 V100 + Tensor Core
↓
2020 A100训练GPT-3 (10,000块)
↓
2022 H100 + Transformer Engine
没有GPU革命,就没有深度学习革命。
第二条线索:算法
2012 AlexNet (CNN + GPU)
↓
2013 Word2Vec (语义向量化)
↓
2014 Attention机制 (Seq2Seq)
↓
2017 Transformer (自注意力)
↓
2018-2020 GPT-1/2/3 (规模扩张)
↓
2022 RLHF对齐 → ChatGPT
从CNN到RNN到Transformer,每一步都站在前一步的肩膀上。
第三条线索:框架与基础设施
2013 Caffe (第一个广泛使用的框架)
↓
2015 TensorFlow + Keras (Google开源)
↓
2016 PyTorch (Facebook开源)
↓
2017 Hugging Face (模型共享社区)
框架把深度学习从"少数天才的手艺活"变成了"所有人的工具"。
核心时间线一览:
| 年份 | 事件 | 关键词 |
|---|---|---|
| 2009 | 吴恩达团队证明GPU训练快10-70倍 | 硬件突破 |
| 2012 | AlexNet碾压ImageNet | 深度学习元年 |
| 2013 | Word2Vec | 语义可计算 |
| 2014 | GAN + Seq2Seq with Attention | 生成+注意力 |
| 2015-16 | TensorFlow + PyTorch开源 | 框架民主化 |
| 2017 | “情感神经元"发现 | 涌现的暗示 |
| 2017 | Transformer论文 | 范式转移 |
| 2018 | GPT-1 | 预训练时代 |
| 2019 | GPT-2 | 规模的力量 |
| 2020 | GPT-3 + Scaling Law | 涌现+暴力美学 |
| 2022 | ChatGPT | 从预测者到助手 |
现在,AI已经可以写诗、编程、考律师资格证。但一个根本性的问题仍然悬而未决——
它真的在"思考"吗?还是只是一只非常、非常聪明的鹦鹉?
下篇预告: 最有分量的反对者们在担心什么?AI到底缺了什么?70年的长路给我们什么启示?敬请期待:《AI的70年(下):争鸣——机器究竟有没有在思考?》
博客:AI-lab学习笔记 | 微信公众号:AI-lab学习笔记
