AI的70年（中）：从两块显卡到改变世界的注意力机制

本文是"AI的70年"系列的第二篇。如果你还没读过上篇，建议先看《AI的70年（上）：从达特茅斯的梦想到漫长的寒冬》

第六章：导火索——两块游戏显卡改写历史（2009—2012）

GPU：从游戏引擎到计算引擎

在讲2012年的故事之前，我们需要先理解一个关键角色：GPU（图形处理器）。

GPU原本是为了渲染3D游戏画面而设计的——它的特长是同时执行大量简单的计算。一个游戏画面有几百万个像素，每个像素的颜色计算都差不多，所以GPU被设计成拥有成百上千个小核心，可以并行处理。

而神经网络的核心运算也是大量简单计算的并行执行——矩阵乘法。

2007年，NVIDIA发布了 CUDA——一套让程序员可以用GPU做通用计算的工具包。GPU从此不再只是"游戏显卡"，而是变成了一台并行计算引擎。

2009年，吴恩达（Andrew Ng） 团队在斯坦福大学发表了一个关键实验结果：

用GPU训练神经网络，比CPU快10到70倍。

一个在CPU上需要训练几周的模型，用GPU只需要一天。

这看似只是一个工程优化，但它的连锁反应是革命性的——当你的实验周期从"几周"缩短到"一天"，你就可以做十倍多的尝试。 研究者可以更快地迭代、更大胆地尝试更大的模型。

硬件瓶颈，被打破了。

2012年秋天：ImageNet的震撼

2012年10月，一年一度的ImageNet大规模视觉识别挑战赛（ILSVRC）公布了结果。

ImageNet是当时最权威的计算机视觉竞赛：给你一张照片，你要识别出里面是什么——猫、狗、汽车、花瓶——从1000个类别中选出正确答案。参赛队伍来自全世界最顶尖的实验室。

此前几年，最好的方法（手工设计特征 + SVM分类器）错误率一直卡在26%左右，每年进步只有一两个百分点。

然后，多伦多大学的一支三人小队提交了他们的结果：

错误率 15.3%。

碾压第二名超过10个百分点。这不是渐进式的改进——这是断崖式的碾压。

AlexNet (2012)

项目	细节
论文	Krizhevsky, Sutskever & Hinton, ImageNet Classification with Deep Convolutional Neural Networks
模型	8层卷积神经网络，6000万参数
硬件	两块 NVIDIA GTX 580 GPU（每块仅3GB显存）
训练时间	约5-6天
错误率	15.3%（第二名26.2%）

三个人的名字：Alex Krizhevsky（研究生，负责编写CUDA代码）、Ilya Sutskever（Hinton的博士生，后来成为OpenAI的联合创始人和首席科学家）、Geoffrey Hinton（对，就是那个在寒冬中坚持了三十年的人）。

AlexNet的秘密武器不是什么全新的理论——卷积网络的原理LeCun在1990年代就提出了。它的核心突破在于三件事：

GPU并行训练：用两块游戏显卡把训练时间压缩到可行的范围
大规模数据：ImageNet有120万张标注图片，远超以往的数据集
ReLU激活函数 + Dropout正则化：让深层网络训练更稳定

硬件 + 数据 + 算法，三条线索在这一刻完成了历史性的交汇。

这一天被后来的历史学家称为深度学习的**“iPhone时刻”**——在此之前，深度学习是边缘研究；在此之后，它成为了AI的主流范式。全世界的实验室在几个月内纷纷转向深度学习。各大科技公司开始疯狂招聘深度学习人才。

Hinton在那个秋天一夜之间从"边缘人"变成了"先知"。

Google、百度、微软开始争相挖人。2013年，Hinton的小公司DNNresearch被Google收购——这家公司的全部资产就是Hinton和他的两个学生。

硬件演进：一条平行的关键时间线

AI的故事不能只讲算法，硬件同样是核心驱动力。每一代GPU的进步，都直接决定了AI研究者能"做多大的梦"。

年份	GPU / 硬件	显存	AI意义
2007	NVIDIA CUDA发布	—	GPU从游戏引擎变为计算引擎
2012	GTX 580	3GB	训练AlexNet，深度学习元年
2016	P100 (Pascal)	16GB	第一款AI专用数据中心GPU
2017	V100 (Volta)	16-32GB	Tensor Core诞生，矩阵乘法专用硬件
2020	A100 (Ampere)	40-80GB	训练GPT-3的主力，第三代Tensor Core
2022	H100 (Hopper)	80GB	Transformer Engine，FP8精度
2024	B200 (Blackwell)	192GB	单卡可承载更大模型

一个直观的对比：2012年训练AlexNet用了两块3GB的显卡；2020年训练GPT-3用了约10,000块A100，耗资超过460万美元的纯算力费用。

算力的增长速度远超摩尔定律。AI不仅是算法的竞赛，更是算力的军备竞赛。

第七章：框架革命——深度学习的"民主化"（2013—2016）

从手搓CUDA到一行代码

在AlexNet的年代，训练一个神经网络是一件极其痛苦的事。Alex Krizhevsky为了让模型在两块GPU上并行训练，手写了大量底层的CUDA代码。这种工作需要同时精通算法和GPU底层编程——全世界能做到的人屈指可数。

如果深度学习要从"少数天才的手艺活"变成"所有研究者都能用的工具"，就需要更好的软件基础设施。

年份	框架	开发者	关键特点
2013	Caffe	贾扬清 (UC Berkeley)	第一个广泛使用的深度学习框架，C++底层
2015	TensorFlow	Google	工业级部署能力，静态计算图
2015	Keras	François Chollet	极简API，降低入门门槛
2016	PyTorch	Facebook (Meta)	动态计算图，Python原生体验，研究者首选

这些框架做了一件关键的事：把GPU编程的复杂性封装起来。

以前你需要手写几百行CUDA代码来实现一个卷积层；有了PyTorch之后，一行代码就够了：

layer = torch.nn.Conv2d(3, 64, kernel_size=3)

这意味着一个物理学博士、一个医学研究者、一个计算机本科生，都可以在一个下午搭建并训练一个深度神经网络。

框架降低了门槛，加速了整个领域的迭代速度。 深度学习从"贵族运动"变成了"大众运动"。

Word2Vec：词语有了坐标（2013）

2013年，Google的 Tomas Mikolov 提出了 Word2Vec，一个看似简单但意义深远的模型。

Word2Vec做的事只有一件：把每个单词映射成一个几百维的向量——一串数字。

但这些向量具有惊人的数学性质：

King - Man + Woman ≈ Queen
Paris - France + Japan ≈ Tokyo

“国王"减去"男性"加上"女性”，约等于"女王"。 词语之间的语义关系，被编码成了向量空间中的方向和距离。

这意味着什么？这意味着语义是可以计算的。

Word2Vec证明了语言中的意义可以被"捕捉"在数学空间里。这为后来Transformer的注意力机制——通过计算词向量之间的距离来判断语义关联——铺平了道路。

论文卡片 Mikolov et al. (2013), Efficient Estimation of Word Representations in Vector Space 一句话意义： King - Man + Woman = Queen —— 证明语义可以被编码为数学空间中的方向，为注意力机制奠基。

2014年的两个里程碑

2014年，两项发明进一步推动了AI的加速：

GAN（生成对抗网络）：Ian Goodfellow 在蒙特利尔的一间酒吧里突发灵感——让两个网络互相对抗，一个生成假图片，一个判断真假，通过"军备竞赛"让生成质量越来越高。这开启了AI生成内容（AIGC）的先河。

Seq2Seq with Attention：Ilya Sutskever（AlexNet论文的合著者）等人提出了序列到序列模型，配合 Bahdanau注意力机制。这是第一次在机器翻译中引入"注意力"的概念——让模型在翻译每个词时，能"回看"源句子中最相关的部分，而不是把整个句子压缩成一个固定长度的向量。

Encoder-Decoder加上Attention——这正是三年后Transformer架构的直接前身。

第八章：情感神经元——预测的副作用（2017年初）

在讲Transformer之前，还有一个发现值得特别讲述。

2017年初，OpenAI基于 Andrej Karpathy 的工作，用8200万条亚马逊商品评论训练了一个当时规模最大的循环网络（基于LSTM的语言模型）。

网络的任务还是老套路：预测下一个字符。

训练完成后，研究者打开网络内部检查——然后他们惊呆了。

在网络深处的4096个神经元中，他们发现了一个特殊的神经元。这个单一的神经元，能够精准地判断一段文本的情感倾向——正面还是负面。

把这个神经元的激活值调到最大，网络就输出热情洋溢的五星好评；调到最小，就输出愤怒的一星差评。一个神经元，就是一个完整的情感分类器。

这个发现之所以意义深远，是因为——

从来没有人教过这个网络什么是"情感"。

它的训练目标只有一个：预测下一个字符。但为了更好地预测下一个字符，它不得不去理解文本的情感倾向（因为正面评论和负面评论的措辞模式完全不同）。

“情感”，是预测能力的副产品。

这暗示了一个深刻的可能性：当预测能力足够强时，“理解"会作为副产品自发涌现。 模型不需要被专门教导某个概念——为了预测得更准，它会自己"发明"所需的概念。

但与此同时，这个实验也彻底暴露了RNN架构的致命缺陷。

由于RNN的串行处理特性，网络必须把所有历史信息强行挤入一个固定大小的内部记忆向量中。这就像试图把一整本小说的内容"压缩"进一张便签纸——随着文本越来越长，早期的信息被不可避免地"挤掉”，模型开始胡言乱语。

OpenAI的研究者把这种现象叫做**“上下文挤压（Context Squeezing）”**。

RNN走到了尽头。AI需要一种全新的架构。

第九章：范式转移——“注意力就是一切”（2017）

2017年6月，Google Brain团队的八位研究者在arXiv上发布了一篇论文。

论文标题只有五个字：

Attention Is All You Need

在AI的历史上，很少有一篇论文的标题如此精准地预言了自己的影响力。这篇论文提出的Transformer架构，在此后的七年里，成为了几乎所有AI突破的基础——GPT、BERT、Claude、DeepSeek、Stable Diffusion、AlphaFold——全部基于Transformer或其变体。

RNN的致命缺陷

为了理解Transformer为什么重要，我们需要先理解它替代了什么。

RNN（包括LSTM）处理文本的方式是串行的——像读书一样，一个词一个词地读。读到第100个词的时候，对第1个词的记忆已经非常模糊了。

这导致了两个问题：

长距离依赖失效：一篇文章开头提到"张三是医生"，到了结尾写"他拿起了手术刀"——RNN很难把"他"和几百个词之前的"张三"联系起来
无法并行计算：必须处理完第1个词才能处理第2个词，第99个词必须等前面98个词都处理完——GPU的并行算力被完全浪费了

Transformer的解法：自注意力

Transformer的核心创新是自注意力机制（Self-Attention）——它彻底抛弃了串行结构。

自注意力的工作方式可以这样理解：对于序列中的每一个词，它同时看到所有其他词，然后计算"我应该关注哪些词？"

举个例子：

“The river has a steep bank."（这条河有一个陡峭的河岸。）

当模型处理"bank"这个词时——bank既可以是"河岸”，也可以是"银行"——注意力机制会计算bank与句子中每个其他词的相关度。

它发现：bank和"river"的相关度很高，和"steep"的相关度也高。于是bank的向量表示被调整——向"河岸"的方向移动，远离"银行"的方向。

这种"测量词对之间在概念空间中的距离"，就是注意力机制的本质。

多头注意力：多组镜头

Transformer不是只有一组注意力，而是有多组——论文中用了8组，后来的GPT-3用了96组。

每组注意力（称为一个"头（Head）"）可以关注不同维度的关系：

有的头专注于语法关系（主语在哪？动词在哪？）
有的头专注于语义关联（哪些词在意思上相关？）
有的头专注于位置距离（前一个词是什么？）

多组"镜头"并行工作，就像一个侦探团队从不同角度分析同一个案件。

为什么Transformer赢了？

	RNN / LSTM	Transformer
处理方式	串行，逐词处理	并行，全局扫描
长距离依赖	记忆衰减严重	直接计算任意词对关系
GPU利用率	低（串行瓶颈）	高（天然适合并行计算）
可扩展性	难以扩大规模	参数越多效果越好
训练速度	慢（无法并行化时间步）	快（所有位置同时计算）

最后一行是关键中的关键。Transformer的并行结构意味着它可以充分利用GPU——这正好赶上了GPU算力指数级增长的时代。RNN的串行结构在GPU面前就像试图用自行车跑高速公路。

论文的八位作者中，多位后来离开Google创办了自己的AI公司（Cohere、Adept等）。一篇论文，直接催生了一个产业。

论文卡片 Vaswani et al. (2017), Attention Is All You Need, NeurIPS 2017 一句话意义： 提出Transformer架构——用自注意力机制替代RNN，实现全局并行扫描，从此成为所有现代大语言模型的基石。

第十章：暴力美学——GPT的四级跳（2018—2022）

Transformer架构就位之后，OpenAI开始了一场史无前例的"暴力扩张"实验——把模型做到多大，性能就能好到什么程度？

GPT-1：验证方向（2018年6月）

GPT-1 | 1.17亿参数 | 12层Transformer

在大量未标注文本上做预训练（“预测下一个词”），然后在具体任务上做微调
首次验证了**零样本学习（Zero-shot Learning）**的可能性——不针对某个任务专门训练，也能完成该任务
证明了"预训练 + 微调"这个范式是可行的

GPT-1还很小，表现也有限。但它验证了一个关键方向：不需要为每个任务训练一个专门的模型——一个通用的大模型，通过预训练就能泛化到多种任务。

GPT-2：让OpenAI害怕的模型（2019年2月）

GPT-2 | 15亿参数 | 48层Transformer

比GPT-1大了约13倍
能生成连贯的长文本、做翻译、做摘要——全都是零样本，没有专门训练
OpenAI一度拒绝公开完整模型，理由是担心被用来生成虚假信息
但批评者仍然斥之为"统计戏法"——长文本中仍然会出现逻辑"漂移"

GPT-2是第一个让AI研究者感到"不安"的模型。不是因为它有多强，而是因为它展示了一种趋势：仅仅靠增大规模，性能就在持续提升。 如果这个趋势继续下去…

GPT-3：涌现（2020年6月）

GPT-3 | 1750亿参数 | 96层Transformer

比GPT-2大了117倍
训练数据：约3000亿token（大致相当于人类一辈子阅读量的数千倍）
训练成本：约460万美元纯算力费用
首次实现了上下文学习（In-context Learning）

GPT-3是质变发生的时刻。

什么是上下文学习？简单说，不需要更新模型的任何参数，只需要在提示词（Prompt）中给出几个例子，模型就能学会新任务：

提示词：
"Gigaro" means a type of magical fruit.
Example: I ate a gigaro for breakfast and felt energized.
Now use "gigaro" in a new sentence:

GPT-3的回答：
The market vendor displayed rows of fresh gigaros,
their golden skin glowing in the morning light.

“Gigaro"是一个完全虚构的词——世界上没有任何文本包含过它。但GPT-3可以正确地理解它的含义并造出合理的句子。

这就是 “冻结网络（Frozen Network）” 下的学习：模型的权重完全不变，但它在"使用时"学到了新知识。

从这个时刻起，一种全新的编程范式诞生了：

提示词即程序（The Prompt is the Program）。

你不再需要写代码来指挥计算机——你只需要用自然语言描述你想要什么。学习不再发生在训练阶段的权重更新中，而是在推理阶段的上下文里。

Scaling Law：暴力美学的数学基础

2020年，OpenAI发表了一篇影响深远的论文：Scaling Laws for Neural Language Models。

核心发现是一个优雅到令人不安的结论：模型性能与三个因素呈幂律关系——

参数量（模型有多大）
数据量（训练数据有多少）
计算量（用了多少算力）

只要持续扩大这三个因素中的任何一个，性能就会可预测地、持续地提升。没有看到天花板。

这就是**“暴力美学"的数学基础**——也是各大科技公司疯狂烧钱训练更大模型的理论依据。如果你知道花两倍的钱一定能得到可量化的性能提升，那不花这个钱就是在竞争中落后。

ChatGPT：从预测者到执行者（2022年11月）

GPT-3很强大，但有一个问题：它有时候会说出令人不安的话。

你问它"如何制作炸弹”，它可能直接告诉你。你让它写一篇文章，它可能写出种族歧视的内容。这不是因为它"想要"这样做——它只是在"预测最可能的下一个词”，而互联网上的训练数据里什么都有。

一个完美的预测者，不等于一个合格的助手。

为了解决这个问题，OpenAI引入了对齐技术（Alignment）：

RLHF（人类反馈强化学习）

核心思路：让人类标注员对模型的多个回答进行排序（“这个回答好，那个回答差”），然后训练一个"奖励模型"来模拟人类的偏好，最后用强化学习让GPT去优化这个奖励。

类比：训练一只鸽子，啄对了给食物，啄错了没有。GPT通过人类的"点赞"和"差评"，学会了什么该说、什么不该说、怎么说更有帮助。

InstructGPT（2022年初）是这套技术的第一次大规模应用。结果惊人：一个1.3B参数的InstructGPT，在人类评估中被认为优于175B参数的原始GPT-3。对齐比规模更重要。

在InstructGPT的基础上，OpenAI用GPT-3.5作为底座模型，结合更多的RLHF训练，打造出了——

ChatGPT。

2022年11月30日。5天100万用户。2个月1亿用户。

从1956年达特茅斯的夏天到2022年的冬天——66年。

本篇小结：三条线索的交汇

回望这段从2009年到2022年的历史，三条线索的交汇解释了"为什么是现在"：

第一条线索：硬件

2007 CUDA发布
  ↓
2012 两块GTX 580训练AlexNet
  ↓
2017 V100 + Tensor Core
  ↓
2020 A100训练GPT-3 (10,000块)
  ↓
2022 H100 + Transformer Engine

没有GPU革命，就没有深度学习革命。

第二条线索：算法

2012 AlexNet (CNN + GPU)
  ↓
2013 Word2Vec (语义向量化)
  ↓
2014 Attention机制 (Seq2Seq)
  ↓
2017 Transformer (自注意力)
  ↓
2018-2020 GPT-1/2/3 (规模扩张)
  ↓
2022 RLHF对齐 → ChatGPT

从CNN到RNN到Transformer，每一步都站在前一步的肩膀上。

第三条线索：框架与基础设施

2013 Caffe (第一个广泛使用的框架)
  ↓
2015 TensorFlow + Keras (Google开源)
  ↓
2016 PyTorch (Facebook开源)
  ↓
2017 Hugging Face (模型共享社区)

框架把深度学习从"少数天才的手艺活"变成了"所有人的工具"。

核心时间线一览：

年份	事件	关键词
2009	吴恩达团队证明GPU训练快10-70倍	硬件突破
2012	AlexNet碾压ImageNet	深度学习元年
2013	Word2Vec	语义可计算
2014	GAN + Seq2Seq with Attention	生成+注意力
2015-16	TensorFlow + PyTorch开源	框架民主化
2017	“情感神经元"发现	涌现的暗示
2017	Transformer论文	范式转移
2018	GPT-1	预训练时代
2019	GPT-2	规模的力量
2020	GPT-3 + Scaling Law	涌现+暴力美学
2022	ChatGPT	从预测者到助手

现在，AI已经可以写诗、编程、考律师资格证。但一个根本性的问题仍然悬而未决——

它真的在"思考"吗？还是只是一只非常、非常聪明的鹦鹉？

下篇预告： 最有分量的反对者们在担心什么？AI到底缺了什么？70年的长路给我们什么启示？敬请期待：《AI的70年（下）：争鸣——机器究竟有没有在思考？》

博客：AI-lab学习笔记｜微信公众号：AI-lab学习笔记

第六章：导火索——两块游戏显卡改写历史（2009—2012）#

GPU：从游戏引擎到计算引擎#

2012年秋天：ImageNet的震撼#

硬件演进：一条平行的关键时间线#

第七章：框架革命——深度学习的"民主化"（2013—2016）#

从手搓CUDA到一行代码#

Word2Vec：词语有了坐标（2013）#

2014年的两个里程碑#

第八章：情感神经元——预测的副作用（2017年初）#

第九章：范式转移——“注意力就是一切”（2017）#

RNN的致命缺陷#

Transformer的解法：自注意力#

多头注意力：多组镜头#

为什么Transformer赢了？#

第十章：暴力美学——GPT的四级跳（2018—2022）#

GPT-1：验证方向（2018年6月）#

GPT-2：让OpenAI害怕的模型（2019年2月）#

GPT-3：涌现（2020年6月）#

Scaling Law：暴力美学的数学基础#

ChatGPT：从预测者到执行者（2022年11月）#

本篇小结：三条线索的交汇#

第一条线索：硬件#

第二条线索：算法#

第三条线索：框架与基础设施#