从餐馆到 ImageNet:李飞飞的路

一个洗碗的女孩

1992 年,一个 16 岁的中国女孩跟着父母来到新泽西州的帕西帕尼。

她叫李飞飞。出生在北京,在成都长大。到美国的时候,几乎不会说英语。

她的父母都受过高等教育——父亲是工程师,母亲是教师。但在美国,学历不被承认。父亲去修相机,母亲去做收银员。而她,放学之后在中餐馆洗碗,周末在干洗店熨衣服。

这是一个在美国每年发生几万次的移民故事。它之所以值得讲,不是因为后来她成了斯坦福教授——而是因为在这种处境下,她身上有一样东西没有被磨掉。

她后来在自传 The Worlds I See 里回忆过一件事。高中时,她在干洗店一边熨衣服一边在想一个问题:人是怎么"看见"东西的?眼睛看到的是像素,但大脑理解的是"猫"“椅子"“妈妈的脸”——中间发生了什么?

一个在干洗店打工的移民少女,在想这种问题。

这就是好奇心。它不挑环境。

普林斯顿

她考上了普林斯顿。全额奖学金——否则她上不起。

学的是物理。她后来说选物理是因为"它试图理解世界最基本的运行方式”。

但大学期间,她父亲生病,母亲身体也不好。她一边上课,一边每周坐好几个小时的大巴回家照顾父母。她依然在打工——中餐馆、洗衣店、辅导学生。

在那种状态下读完了普林斯顿。然后去了加州理工读博士,研究计算神经科学——用计算模型理解大脑如何处理视觉信息。

在干洗店熨衣服时想的那个问题,她认真地追了下去。

一个所有人都觉得不重要的想法

2006 年,李飞飞到了斯坦福,做助理教授。她开始构思一件事——

当时的计算机视觉领域,大家都在做什么?在很小的数据集上调算法。几百张图片,也许几千张。每个研究组花大量时间在模型上——换一个特征提取器、试一种新的分类器、调参数。

李飞飞看到了一件别人没太在意的事:也许问题不在模型,在数据。

如果给计算机足够多的、标注好的图片——几百万张,覆盖几万个类别——也许不需要更聪明的算法,更简单的算法也能涌现出能力。

这个想法在 2006 年听起来不太靠谱。学术界的主流共识是:算法为王,数据是次要的。花几年时间去标注几百万张图片?这不是研究,这是苦力。

但她做了。

ImageNet 从 2007 年开始建设。她动员了几十个学生,后来用了亚马逊 Mechanical Turk 众包平台,组织全世界的人标注图片。每一张图片都要回答一个问题:这张图里是什么?是猫、是狗、是椅子、是山?

3 年时间,1400 多万张图片,2 万多个类别。

2009 年,她在 CVPR 上发表了 ImageNet 的论文。反响平淡。引用很少。学术界的态度大致是:不错,但就是一个数据集,有什么了不起的?

那一年

2010 年,她做了一件后来改变历史的事——把 ImageNet 做成了一个年度竞赛:ILSVRC(ImageNet Large Scale Visual Recognition Challenge)。每年请全世界的团队来比:谁的算法在这 100 多万张图片上分类最准?

前两年,进步缓慢。错误率从 28% 降到 26%,再降到 25%。

然后是 2012 年。

多伦多大学的 Geoffrey Hinton,和他的两个学生 Alex Krizhevsky 和 Ilya Sutskever,提交了一个叫 AlexNet 的模型。它不是传统的特征工程——它是一个深层卷积神经网络,直接从原始像素中学习。

结果:错误率从上一年的 25.8% 直接跌到 16.4%。碾压所有对手。

这个数字震动了整个领域。不是因为"赢了",而是因为赢的方式——不是更聪明的手工特征,是更大的数据 + 更深的网络 + GPU 算力。

那一刻,李飞飞六年前那个"也许问题在数据"的直觉,被证明了。

AlexNet 是点燃深度学习革命的那根火柴。而 ImageNet,是它脚下的那堆干柴。

没有 ImageNet,就没有 AlexNet。没有 AlexNet,也许就没有后面的 AlphaGo、GPT、Stable Diffusion、自动驾驶——至少不会这么快。

李飞飞不是发明了更聪明的算法的人。她是那个意识到"数据才是关键"的人。 在所有人都在磨刀的时候,她花了三年去种树。

她选择了什么

故事到这里,按照通常的叙事,应该是——功成名就,名利双收,故事完了。

但接下来发生的事,让我想了很久。

2017 年,她去了 Google Cloud,担任首席科学家。这是学术界到工业界的典型路径——影响力更大,资源更多,薪水也更高。

2018 年,她回到了斯坦福。然后创办了 HAI(Human-Centered AI Institute)——一个强调 AI 应该以人为中心的研究机构。

同时,她一直在做 AI4ALL——一个把 AI 教育带到资源不足的学校的公益项目。对象不是斯坦福的学生,是那些和她当年一样、在中餐馆洗碗的移民孩子。

2024 年,她又做了一件事——创办 World Labs,一家做"空间智能"的公司。目标是让 AI 不只读文字,还能理解三维世界——从一张图重建一个可以走进去、可以交互的空间。

你看到她的路径了吗?

好奇心(看见是怎么回事)→ 学术坚持(ImageNet 六年冷板凳)→ 商业经历(Google Cloud)→ 回到好奇心(World Labs:让 AI 看见世界)

这条弧线和我们在《好奇心去了哪里》里画的那条路一模一样——只是她在商业化阶段没有走丢,而是在某个时刻选择了回来。

为什么是她

你可能会想:为什么是李飞飞看到了"数据比算法重要"这件事?当时全世界那么多计算机视觉研究者,为什么只有她花三年去建 ImageNet?

我想过这个问题。我的感觉是——

也许恰恰因为她不是"纯技术人"。

她学过物理。她从计算神经科学入门——研究的是大脑怎么处理视觉,不是算法怎么跑得更快。她思考的起点不是"怎么让模型更聪明",而是"人是怎么学会看东西的"。

人是怎么学的?不是靠更聪明的算法。是靠从小到大看了几亿张图片——婴儿的视觉皮层在出生后的头几年里,处理了天量的视觉数据,从中提取出了"猫"“椅子"“妈妈的脸"这些概念。

数据在先,能力在后。 这是大脑的学习方式,也是她给 AI 指出的路。

这件事的启示超越了技术——

一个人的跨领域背景(物理 + 神经科学 + 计算机),让她看到了单一领域的人看不到的东西。

这和我们在教育文章里反复说的那件事是同一件事:真正有价值的,不是在一个领域里做到最熟练,是在领域之间看到别人看不到的连接。

一句话

李飞飞在很多场合说过同一句话:

“语言只是智能的薄薄一层皮。”

这句话现在读起来不只是技术判断。它也在说另一件事——

我们的教育,几乎全部建立在语言上:考试是语言的,作业是语言的,评价是语言的。但智能远远不只是语言。空间感、身体经验、视觉直觉、动手能力——这些在我们的评分标准里几乎不存在。

李飞飞的整个职业生涯都在用一种具体的方式说同一件事:看见这个世界,比描述这个世界更底层。

从干洗店里想"人怎么看见东西”,到 ImageNet 让机器看见,到 World Labs 让机器看见三维世界——她追的始终是同一个问题,三十年没有换过。

她带出来的那个学生

2011 年前后,一个叫 Andrej Karpathy 的年轻人来到斯坦福,加入了李飞飞的实验室读博士。

Karpathy 出生在斯洛伐克,在加拿大长大。和李飞飞一样,也是移民的孩子。他的研究方向是把视觉和语言连起来——让机器不只"看见"一张图片,还能用自然语言描述它看见了什么。这个方向今天叫做"图文理解”,是多模态 AI 的根基之一。而在当时,这还是一个小众的、不那么被看好的课题。

他在斯坦福做了一件对后来影响极大的事——和李飞飞一起开设了 CS231n:卷积神经网络与视觉识别。这门课把李飞飞实验室的研究,变成了一门面向所有人的公开课。它后来成为斯坦福最受欢迎的 CS 课程之一,视频在 YouTube 上的播放量超过千万。

CS231n 本质上是在做一件事:把李飞飞用 ImageNet 打开的那扇门,变成一条所有人都能走的路。

拿到博士学位之后,Karpathy 的路是这样的:

2015 年,加入 OpenAI,成为创始成员之一。2017 年,去了特斯拉,担任 AI 总监,主导了 FSD(全自动驾驶)的核心视觉系统——把摄像头拍到的画面变成驾驶决策。这件事的本质,和他博士期间做的事是同一件:让机器看懂它看到的东西。

2022 年离开特斯拉,短暂回到 OpenAI,然后在 2024 年 7 月做了一个让很多人意外的选择——离开所有大厂,创办了 Eureka Labs,一家 AI 教育公司。

现在把师生两人的路径放在一起看:

李飞飞:好奇心(干洗店的问题)→ 学术(ImageNet)→ 商业(Google Cloud)→ 回到好奇心与教育(World Labs + AI4ALL)
Karpathy:好奇心(图像与语言)→ 学术(CS231n)→ 商业(OpenAI、Tesla)→ 回到好奇心与教育(Eureka Labs)

同一条弧线。好奇心出发,经历商业化,然后在某个时刻选择回来。

而且两个人回来之后做的事,都指向同一个方向——教育。李飞飞做 AI4ALL,把 AI 课程带到资源不足的中学。Karpathy 做 Eureka Labs,亲手写 200 行的教学版 GPT,免费开源。

是导师影响了学生?还是同频的人在同一个实验室里遇到了彼此?

也许两者都是。

但有一件事是确定的:一个好的导师,不是教学生怎么发论文,是让学生的好奇心在学术体制里活下来。 李飞飞自己的好奇心从干洗店活到了斯坦福;Karpathy 的好奇心,从斯坦福活到了特斯拉,又活回了教育。

这中间有一条看不见的线,连着师生两代人。

两代人,同一个选择

再拉远一点看,这不只是李飞飞和 Karpathy 的故事。

Hinton 在多伦多坐了三十年冷板凳,然后在功成名就之后从 Google 离开,回到"自由地想问题"。他的学生 Ilya Sutskever 参与创建了 OpenAI,然后也离开了,创办了一家只做"安全的超级智能"的公司——没有产品,只有一个问题。

LeCun 在所有人放弃神经网络的年代坚持了下来。Bengio 在蒙特利尔安静地研究了二十年。

这些人的共同点不是"成功"——成功的路径各不相同。共同点是:他们的好奇心,在体制里没有被磨掉。

而他们带出来的学生——Karpathy、Sutskever、一代又一代——身上也带着同样的东西。

这也许是教育最深层的作用:不是传授知识,不是训练技能——

是让好奇心在一个人身上多活一代。

她的故事在说什么

我写这篇,不是为了讲一个"寒门出贵子"的励志故事——虽然她的经历确实令人敬佩。

我想说的是另一件事。

在《好奇心去了哪里》里,我们画了两条平行的路:AI 的路和一个人的路。好奇心在两条路上都被磨掉了。

李飞飞的故事之所以值得讲,是因为它提供了一个反例——

一个在最不利条件下(移民、贫困、语言不通)长大的人,好奇心没有被磨掉。她在干洗店想"看见是怎么回事"。她在所有人都觉得数据不重要的时候,花三年建了一个数据集。她在功成名就之后,回去做 AI 教育公益,帮那些和她一样起点的孩子。

这个故事不是在说"只要努力就能成功"——那太简单了。

它在说的是:好奇心如果没有被磨掉,它能带一个人走多远。

而我们的教育系统——我们的评分标准、我们的筛选机制、我们的"考不考"问题——每天都在磨这样东西。

也许值得想一想:我们正在磨掉多少个李飞飞?

本文涉及的本博客文章

《好奇心去了哪里》
《AI 与教育:孩子今天该学什么》
《AI 的十字路口》

主要参考与延伸来源

Fei-Fei Li, The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI, Flatiron Books, 2023
Fei-Fei Li et al., ImageNet: A Large-Scale Hierarchical Image Database, CVPR 2009
Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, ImageNet Classification with Deep Convolutional Neural Networks, NeurIPS 2012
Fei-Fei Li, World Labs 2024 创立公开信
AI4ALL (ai-4-all.org) 项目介绍

一个洗碗的女孩#

普林斯顿#

一个所有人都觉得不重要的想法#

那一年#

她选择了什么#

为什么是她#

一句话#

她带出来的那个学生#

两代人,同一个选择#

她的故事在说什么#

本文涉及的本博客文章#

主要参考与延伸来源#