好奇心去了哪里
1956 年夏天,十个人在达特茅斯学院关了两个月,想回答一个问题:机器能不能思考?七十年后,这个问题撑起了万亿市值。但驱动它诞生的那样东西——好奇心——在我们的教育系统里几乎没有被认真对待过。AI 的历史和一个人受教育的历史,走的是同一条路。这一篇,我们从达特茅斯出发,经过上海的数学课堂、法国的哲学考场、芬兰的森林学校,最后回到每个人自己身上——那个被磨掉的东西,也许还在。
1956 年夏天,十个人在达特茅斯学院关了两个月,想回答一个问题:机器能不能思考?七十年后,这个问题撑起了万亿市值。但驱动它诞生的那样东西——好奇心——在我们的教育系统里几乎没有被认真对待过。AI 的历史和一个人受教育的历史,走的是同一条路。这一篇,我们从达特茅斯出发,经过上海的数学课堂、法国的哲学考场、芬兰的森林学校,最后回到每个人自己身上——那个被磨掉的东西,也许还在。
你花了十年学一门手艺,AI 用三秒钟做到了六十分。你的第一反应是——我会不会失业?但如果再往下想一层,真正让人不安的也许不是失业本身,而是一个你从来没被逼着回答的问题:如果我的技能不是’我’,那我是什么?就业问题的表面是经济问题,底下是身份问题。
1992 年,一个 16 岁的中国女孩跟着父母到了新泽西。不会英语,在中餐馆洗碗、在干洗店熨衣服,靠打工攒出了普林斯顿的生活费。三十年后,她是’给 AI 造眼睛的人’——ImageNet 改变了整个深度学习的历史,而她现在在做的事是让 AI 看见三维世界。这不是一个励志故事。这是一个关于好奇心如何在最不利的条件下存活下来的故事。
1913 年,俄国数学家马尔可夫翻开普希金的《叶甫盖尼·奥涅金》,开始数元音和辅音。他不是在做文学研究,而是在拆掉一个旧世界:下一个符号不是凭空出现的,它被前一个状态牵引。一个多世纪后,LLM 被训练去预测下一个 token,Agent 被训练去选择下一步行动。这个目标看似无聊,却把语言、知识、推理和行动都压进了一个极密的监督信号里。马尔可夫没有想到 ChatGPT,但他留下了现代 AI 最小的一条语法:状态、转移、下一步。
当 AI 开始说“我在想”“我感受到”,真正被审问的不是 AI,而是人类关于意识的定义。智能、语言、自我报告、主观体验,到底是不是一回事?
GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么’看见’图像的?答案藏在三个组件的协作中:视觉编码器把图像切成 token,对齐模块把视觉 token 翻译成语言能懂的格式,LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA,完整拆解多模态大模型的架构。
2021 年 OpenAI 发布 CLIP,让 AI 第一次’看懂’了图片。但它公开了模型权重,却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据,Google 发明了新的训练方法,Meta 证明不需要文字也能学会看……一个模型的开源,如何改变了整个视觉 AI 生态?‘开源’到底意味着什么?
多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?
1906 年,一位被整个学术界否定的物理学家在杜伊诺的度假村永远闭上了眼睛。他的墓碑上只刻了一个公式:S = k ln W。120 年后,这个公式每天在全球数十亿次 AI 推理中被执行——以 Softmax 的名义。
二战时期,数学家诺伯特·维纳研究一个残酷的问题:飞机一直在动,炮弹也需要时间飞行,防空炮到底该打向哪里?这不是简单地预测飞机下一秒的位置,而是要持续计算拦截点,并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念:反馈。智能不是一次性给出正确答案,而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶,表面上差别很大,底层却都在同一个闭环里运行:行动、观察、误差、修正。