本文是"AI的70年"系列的第二篇。如果你还没读过上篇,建议先看 《AI的70年(上):从达特茅斯的梦想到漫长的寒冬》


第六章:导火索——两块游戏显卡改写历史(2009—2012)

GPU:从游戏引擎到计算引擎

在讲2012年的故事之前,我们需要先理解一个关键角色:GPU(图形处理器)

GPU原本是为了渲染3D游戏画面而设计的——它的特长是同时执行大量简单的计算。一个游戏画面有几百万个像素,每个像素的颜色计算都差不多,所以GPU被设计成拥有成百上千个小核心,可以并行处理。

而神经网络的核心运算也是大量简单计算的并行执行——矩阵乘法。

2007年,NVIDIA发布了 CUDA——一套让程序员可以用GPU做通用计算的工具包。GPU从此不再只是"游戏显卡",而是变成了一台并行计算引擎

2009年,吴恩达(Andrew Ng) 团队在斯坦福大学发表了一个关键实验结果:

用GPU训练神经网络,比CPU快10到70倍。

一个在CPU上需要训练几周的模型,用GPU只需要一天。

这看似只是一个工程优化,但它的连锁反应是革命性的——当你的实验周期从"几周"缩短到"一天",你就可以做十倍多的尝试。 研究者可以更快地迭代、更大胆地尝试更大的模型。

硬件瓶颈,被打破了。

2012年秋天:ImageNet的震撼

2012年10月,一年一度的ImageNet大规模视觉识别挑战赛(ILSVRC)公布了结果。

ImageNet是当时最权威的计算机视觉竞赛:给你一张照片,你要识别出里面是什么——猫、狗、汽车、花瓶——从1000个类别中选出正确答案。参赛队伍来自全世界最顶尖的实验室。

此前几年,最好的方法(手工设计特征 + SVM分类器)错误率一直卡在26%左右,每年进步只有一两个百分点。

然后,多伦多大学的一支三人小队提交了他们的结果:

错误率 15.3%。

碾压第二名超过10个百分点。这不是渐进式的改进——这是断崖式的碾压。

AlexNet (2012)

项目细节
论文Krizhevsky, Sutskever & Hinton, ImageNet Classification with Deep Convolutional Neural Networks
模型8层卷积神经网络,6000万参数
硬件两块 NVIDIA GTX 580 GPU(每块仅3GB显存)
训练时间约5-6天
错误率15.3%(第二名26.2%)

三个人的名字:Alex Krizhevsky(研究生,负责编写CUDA代码)、Ilya Sutskever(Hinton的博士生,后来成为OpenAI的联合创始人和首席科学家)、Geoffrey Hinton(对,就是那个在寒冬中坚持了三十年的人)。

AlexNet的秘密武器不是什么全新的理论——卷积网络的原理LeCun在1990年代就提出了。它的核心突破在于三件事:

  1. GPU并行训练:用两块游戏显卡把训练时间压缩到可行的范围
  2. 大规模数据:ImageNet有120万张标注图片,远超以往的数据集
  3. ReLU激活函数 + Dropout正则化:让深层网络训练更稳定

硬件 + 数据 + 算法,三条线索在这一刻完成了历史性的交汇。

这一天被后来的历史学家称为深度学习的**“iPhone时刻”**——在此之前,深度学习是边缘研究;在此之后,它成为了AI的主流范式。全世界的实验室在几个月内纷纷转向深度学习。各大科技公司开始疯狂招聘深度学习人才。

Hinton在那个秋天一夜之间从"边缘人"变成了"先知"。

Google、百度、微软开始争相挖人。2013年,Hinton的小公司DNNresearch被Google收购——这家公司的全部资产就是Hinton和他的两个学生。

硬件演进:一条平行的关键时间线

AI的故事不能只讲算法,硬件同样是核心驱动力。每一代GPU的进步,都直接决定了AI研究者能"做多大的梦"。

年份GPU / 硬件显存AI意义
2007NVIDIA CUDA发布GPU从游戏引擎变为计算引擎
2012GTX 5803GB训练AlexNet,深度学习元年
2016P100 (Pascal)16GB第一款AI专用数据中心GPU
2017V100 (Volta)16-32GBTensor Core诞生,矩阵乘法专用硬件
2020A100 (Ampere)40-80GB训练GPT-3的主力,第三代Tensor Core
2022H100 (Hopper)80GBTransformer Engine,FP8精度
2024B200 (Blackwell)192GB单卡可承载更大模型

一个直观的对比:2012年训练AlexNet用了两块3GB的显卡;2020年训练GPT-3用了约10,000块A100,耗资超过460万美元的纯算力费用。

算力的增长速度远超摩尔定律。AI不仅是算法的竞赛,更是算力的军备竞赛。


第七章:框架革命——深度学习的"民主化"(2013—2016)

从手搓CUDA到一行代码

在AlexNet的年代,训练一个神经网络是一件极其痛苦的事。Alex Krizhevsky为了让模型在两块GPU上并行训练,手写了大量底层的CUDA代码。这种工作需要同时精通算法和GPU底层编程——全世界能做到的人屈指可数。

如果深度学习要从"少数天才的手艺活"变成"所有研究者都能用的工具",就需要更好的软件基础设施。

年份框架开发者关键特点
2013Caffe贾扬清 (UC Berkeley)第一个广泛使用的深度学习框架,C++底层
2015TensorFlowGoogle工业级部署能力,静态计算图
2015KerasFrançois Chollet极简API,降低入门门槛
2016PyTorchFacebook (Meta)动态计算图,Python原生体验,研究者首选

这些框架做了一件关键的事:把GPU编程的复杂性封装起来。

以前你需要手写几百行CUDA代码来实现一个卷积层;有了PyTorch之后,一行代码就够了:

layer = torch.nn.Conv2d(3, 64, kernel_size=3)

这意味着一个物理学博士、一个医学研究者、一个计算机本科生,都可以在一个下午搭建并训练一个深度神经网络。

框架降低了门槛,加速了整个领域的迭代速度。 深度学习从"贵族运动"变成了"大众运动"。

Word2Vec:词语有了坐标(2013)

2013年,Google的 Tomas Mikolov 提出了 Word2Vec,一个看似简单但意义深远的模型。

Word2Vec做的事只有一件:把每个单词映射成一个几百维的向量——一串数字。

但这些向量具有惊人的数学性质:

King - Man + Woman ≈ Queen
Paris - France + Japan ≈ Tokyo

“国王"减去"男性"加上"女性”,约等于"女王"。 词语之间的语义关系,被编码成了向量空间中的方向和距离。

这意味着什么?这意味着语义是可以计算的

Word2Vec证明了语言中的意义可以被"捕捉"在数学空间里。这为后来Transformer的注意力机制——通过计算词向量之间的距离来判断语义关联——铺平了道路。

论文卡片 Mikolov et al. (2013), Efficient Estimation of Word Representations in Vector Space 一句话意义: King - Man + Woman = Queen —— 证明语义可以被编码为数学空间中的方向,为注意力机制奠基。

2014年的两个里程碑

2014年,两项发明进一步推动了AI的加速:

GAN(生成对抗网络)Ian Goodfellow 在蒙特利尔的一间酒吧里突发灵感——让两个网络互相对抗,一个生成假图片,一个判断真假,通过"军备竞赛"让生成质量越来越高。这开启了AI生成内容(AIGC)的先河。

Seq2Seq with AttentionIlya Sutskever(AlexNet论文的合著者)等人提出了序列到序列模型,配合 Bahdanau注意力机制。这是第一次在机器翻译中引入"注意力"的概念——让模型在翻译每个词时,能"回看"源句子中最相关的部分,而不是把整个句子压缩成一个固定长度的向量。

Encoder-Decoder加上Attention——这正是三年后Transformer架构的直接前身。


第八章:情感神经元——预测的副作用(2017年初)

在讲Transformer之前,还有一个发现值得特别讲述。

2017年初,OpenAI基于 Andrej Karpathy 的工作,用8200万条亚马逊商品评论训练了一个当时规模最大的循环网络(基于LSTM的语言模型)。

网络的任务还是老套路:预测下一个字符。

训练完成后,研究者打开网络内部检查——然后他们惊呆了。

在网络深处的4096个神经元中,他们发现了一个特殊的神经元。这个单一的神经元,能够精准地判断一段文本的情感倾向——正面还是负面。

把这个神经元的激活值调到最大,网络就输出热情洋溢的五星好评;调到最小,就输出愤怒的一星差评。一个神经元,就是一个完整的情感分类器。

这个发现之所以意义深远,是因为——

从来没有人教过这个网络什么是"情感"。

它的训练目标只有一个:预测下一个字符。但为了更好地预测下一个字符,它不得不去理解文本的情感倾向(因为正面评论和负面评论的措辞模式完全不同)。

“情感”,是预测能力的副产品

这暗示了一个深刻的可能性:当预测能力足够强时,“理解"会作为副产品自发涌现。 模型不需要被专门教导某个概念——为了预测得更准,它会自己"发明"所需的概念。

但与此同时,这个实验也彻底暴露了RNN架构的致命缺陷。

由于RNN的串行处理特性,网络必须把所有历史信息强行挤入一个固定大小的内部记忆向量中。这就像试图把一整本小说的内容"压缩"进一张便签纸——随着文本越来越长,早期的信息被不可避免地"挤掉”,模型开始胡言乱语。

OpenAI的研究者把这种现象叫做**“上下文挤压(Context Squeezing)”**。

RNN走到了尽头。AI需要一种全新的架构。


第九章:范式转移——“注意力就是一切”(2017)

2017年6月,Google Brain团队的八位研究者在arXiv上发布了一篇论文。

论文标题只有五个字:

Attention Is All You Need

在AI的历史上,很少有一篇论文的标题如此精准地预言了自己的影响力。这篇论文提出的Transformer架构,在此后的七年里,成为了几乎所有AI突破的基础——GPT、BERT、Claude、DeepSeek、Stable Diffusion、AlphaFold——全部基于Transformer或其变体。

RNN的致命缺陷

为了理解Transformer为什么重要,我们需要先理解它替代了什么。

RNN(包括LSTM)处理文本的方式是串行的——像读书一样,一个词一个词地读。读到第100个词的时候,对第1个词的记忆已经非常模糊了。

这导致了两个问题:

  1. 长距离依赖失效:一篇文章开头提到"张三是医生",到了结尾写"他拿起了手术刀"——RNN很难把"他"和几百个词之前的"张三"联系起来
  2. 无法并行计算:必须处理完第1个词才能处理第2个词,第99个词必须等前面98个词都处理完——GPU的并行算力被完全浪费了

Transformer的解法:自注意力

Transformer的核心创新是自注意力机制(Self-Attention)——它彻底抛弃了串行结构。

自注意力的工作方式可以这样理解:对于序列中的每一个词,它同时看到所有其他词,然后计算"我应该关注哪些词?"

举个例子:

“The river has a steep bank."(这条河有一个陡峭的河岸。)

当模型处理"bank"这个词时——bank既可以是"河岸”,也可以是"银行"——注意力机制会计算bank与句子中每个其他词的相关度

它发现:bank和"river"的相关度很高,和"steep"的相关度也高。于是bank的向量表示被调整——向"河岸"的方向移动,远离"银行"的方向。

这种"测量词对之间在概念空间中的距离",就是注意力机制的本质。

多头注意力:多组镜头

Transformer不是只有一组注意力,而是有多组——论文中用了8组,后来的GPT-3用了96组。

每组注意力(称为一个"头(Head)")可以关注不同维度的关系:

  • 有的头专注于语法关系(主语在哪?动词在哪?)
  • 有的头专注于语义关联(哪些词在意思上相关?)
  • 有的头专注于位置距离(前一个词是什么?)

多组"镜头"并行工作,就像一个侦探团队从不同角度分析同一个案件。

为什么Transformer赢了?

RNN / LSTMTransformer
处理方式串行,逐词处理并行,全局扫描
长距离依赖记忆衰减严重直接计算任意词对关系
GPU利用率低(串行瓶颈)高(天然适合并行计算)
可扩展性难以扩大规模参数越多效果越好
训练速度慢(无法并行化时间步)快(所有位置同时计算)

最后一行是关键中的关键。Transformer的并行结构意味着它可以充分利用GPU——这正好赶上了GPU算力指数级增长的时代。RNN的串行结构在GPU面前就像试图用自行车跑高速公路。

论文的八位作者中,多位后来离开Google创办了自己的AI公司(Cohere、Adept等)。一篇论文,直接催生了一个产业。

论文卡片 Vaswani et al. (2017), Attention Is All You Need, NeurIPS 2017 一句话意义: 提出Transformer架构——用自注意力机制替代RNN,实现全局并行扫描,从此成为所有现代大语言模型的基石。


第十章:暴力美学——GPT的四级跳(2018—2022)

Transformer架构就位之后,OpenAI开始了一场史无前例的"暴力扩张"实验——把模型做到多大,性能就能好到什么程度?

GPT-1:验证方向(2018年6月)

GPT-1 | 1.17亿参数 | 12层Transformer

  • 在大量未标注文本上做预训练(“预测下一个词”),然后在具体任务上做微调
  • 首次验证了**零样本学习(Zero-shot Learning)**的可能性——不针对某个任务专门训练,也能完成该任务
  • 证明了"预训练 + 微调"这个范式是可行的

GPT-1还很小,表现也有限。但它验证了一个关键方向:不需要为每个任务训练一个专门的模型——一个通用的大模型,通过预训练就能泛化到多种任务。

GPT-2:让OpenAI害怕的模型(2019年2月)

GPT-2 | 15亿参数 | 48层Transformer

  • 比GPT-1大了约13倍
  • 能生成连贯的长文本、做翻译、做摘要——全都是零样本,没有专门训练
  • OpenAI一度拒绝公开完整模型,理由是担心被用来生成虚假信息
  • 但批评者仍然斥之为"统计戏法"——长文本中仍然会出现逻辑"漂移"

GPT-2是第一个让AI研究者感到"不安"的模型。不是因为它有多强,而是因为它展示了一种趋势:仅仅靠增大规模,性能就在持续提升。 如果这个趋势继续下去…

GPT-3:涌现(2020年6月)

GPT-3 | 1750亿参数 | 96层Transformer

  • 比GPT-2大了117倍
  • 训练数据:约3000亿token(大致相当于人类一辈子阅读量的数千倍)
  • 训练成本:约460万美元纯算力费用
  • 首次实现了上下文学习(In-context Learning)

GPT-3是质变发生的时刻。

什么是上下文学习?简单说,不需要更新模型的任何参数,只需要在提示词(Prompt)中给出几个例子,模型就能学会新任务

提示词:
"Gigaro" means a type of magical fruit.
Example: I ate a gigaro for breakfast and felt energized.
Now use "gigaro" in a new sentence:

GPT-3的回答:
The market vendor displayed rows of fresh gigaros,
their golden skin glowing in the morning light.

“Gigaro"是一个完全虚构的词——世界上没有任何文本包含过它。但GPT-3可以正确地理解它的含义并造出合理的句子。

这就是 “冻结网络(Frozen Network)” 下的学习:模型的权重完全不变,但它在"使用时"学到了新知识。

从这个时刻起,一种全新的编程范式诞生了:

提示词即程序(The Prompt is the Program)。

你不再需要写代码来指挥计算机——你只需要用自然语言描述你想要什么。学习不再发生在训练阶段的权重更新中,而是在推理阶段的上下文里。

Scaling Law:暴力美学的数学基础

2020年,OpenAI发表了一篇影响深远的论文:Scaling Laws for Neural Language Models

核心发现是一个优雅到令人不安的结论:模型性能与三个因素呈幂律关系——

  1. 参数量(模型有多大)
  2. 数据量(训练数据有多少)
  3. 计算量(用了多少算力)

只要持续扩大这三个因素中的任何一个,性能就会可预测地、持续地提升。没有看到天花板。

这就是**“暴力美学"的数学基础**——也是各大科技公司疯狂烧钱训练更大模型的理论依据。如果你知道花两倍的钱一定能得到可量化的性能提升,那不花这个钱就是在竞争中落后。

ChatGPT:从预测者到执行者(2022年11月)

GPT-3很强大,但有一个问题:它有时候会说出令人不安的话。

你问它"如何制作炸弹”,它可能直接告诉你。你让它写一篇文章,它可能写出种族歧视的内容。这不是因为它"想要"这样做——它只是在"预测最可能的下一个词”,而互联网上的训练数据里什么都有。

一个完美的预测者,不等于一个合格的助手。

为了解决这个问题,OpenAI引入了对齐技术(Alignment)

RLHF(人类反馈强化学习)

核心思路:让人类标注员对模型的多个回答进行排序(“这个回答好,那个回答差”),然后训练一个"奖励模型"来模拟人类的偏好,最后用强化学习让GPT去优化这个奖励。

类比:训练一只鸽子,啄对了给食物,啄错了没有。GPT通过人类的"点赞"和"差评",学会了什么该说、什么不该说、怎么说更有帮助。

InstructGPT(2022年初)是这套技术的第一次大规模应用。结果惊人:一个1.3B参数的InstructGPT,在人类评估中被认为优于175B参数的原始GPT-3。对齐比规模更重要。

在InstructGPT的基础上,OpenAI用GPT-3.5作为底座模型,结合更多的RLHF训练,打造出了——

ChatGPT。

2022年11月30日。5天100万用户。2个月1亿用户。

从1956年达特茅斯的夏天到2022年的冬天——66年。


本篇小结:三条线索的交汇

回望这段从2009年到2022年的历史,三条线索的交汇解释了"为什么是现在":

第一条线索:硬件

2007 CUDA发布
2012 两块GTX 580训练AlexNet
2017 V100 + Tensor Core
2020 A100训练GPT-3 (10,000块)
2022 H100 + Transformer Engine

没有GPU革命,就没有深度学习革命。

第二条线索:算法

2012 AlexNet (CNN + GPU)
2013 Word2Vec (语义向量化)
2014 Attention机制 (Seq2Seq)
2017 Transformer (自注意力)
2018-2020 GPT-1/2/3 (规模扩张)
2022 RLHF对齐 → ChatGPT

从CNN到RNN到Transformer,每一步都站在前一步的肩膀上。

第三条线索:框架与基础设施

2013 Caffe (第一个广泛使用的框架)
2015 TensorFlow + Keras (Google开源)
2016 PyTorch (Facebook开源)
2017 Hugging Face (模型共享社区)

框架把深度学习从"少数天才的手艺活"变成了"所有人的工具"。


核心时间线一览:

年份事件关键词
2009吴恩达团队证明GPU训练快10-70倍硬件突破
2012AlexNet碾压ImageNet深度学习元年
2013Word2Vec语义可计算
2014GAN + Seq2Seq with Attention生成+注意力
2015-16TensorFlow + PyTorch开源框架民主化
2017“情感神经元"发现涌现的暗示
2017Transformer论文范式转移
2018GPT-1预训练时代
2019GPT-2规模的力量
2020GPT-3 + Scaling Law涌现+暴力美学
2022ChatGPT从预测者到助手

现在,AI已经可以写诗、编程、考律师资格证。但一个根本性的问题仍然悬而未决——

它真的在"思考"吗?还是只是一只非常、非常聪明的鹦鹉?

下篇预告: 最有分量的反对者们在担心什么?AI到底缺了什么?70年的长路给我们什么启示?敬请期待:《AI的70年(下):争鸣——机器究竟有没有在思考?》


博客:AI-lab学习笔记 | 微信公众号:AI-lab学习笔记