一个加号拯救了深度学习——残差连接的前世今生
2015 年,何恺明发现了一件诡异的事:56 层的神经网络比 20 层的更差——不是过拟合,是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号:y = F(x) + x。就这一个加号,让网络从 20 层一路堆到 1000 层,让 Transformer 成为可能,让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。
2015 年,何恺明发现了一件诡异的事:56 层的神经网络比 20 层的更差——不是过拟合,是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号:y = F(x) + x。就这一个加号,让网络从 20 层一路堆到 1000 层,让 Transformer 成为可能,让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。
AlphaFold 拿了诺贝尔奖,GPT 通过了律师考试——但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界?LeCun 离开 Meta 创办 AMI Labs,李飞飞押注 World Labs,谢赛宁两次拒绝 Ilya——站在前沿的人给出了截然不同的答案。
1918 年,一位被哥廷根大学拒绝授予教职的犹太女数学家,写下了一行让物理学换骨的定理:每一个对称,都对应一个守恒量。从此能量、动量、电磁场、质量,都成了宇宙『不在乎什么』的影子。这一篇,我们用对称性把整个系列串起来,也借此向《看见物理》八篇告别——并把这副从物理里磨出来的眼睛,带到下一个十字路口。
2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。
GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么’看见’图像的?答案藏在三个组件的协作中:视觉编码器把图像切成 token,对齐模块把视觉 token 翻译成语言能懂的格式,LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA,完整拆解多模态大模型的架构。
多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?
多模态不是让 LLM 简单长出眼睛。更准确地说,是把文字、图片、声音、视频变成模型能处理的 token 或 embedding,再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频,背后其实是几种不同的数据流。
ChatGPT 让 AI 学会了聊天,VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本,走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键,所以机器人的 GPT 时刻不会是一次突然刷屏,而是一场被数据、安全和工程慢慢推开的黎明。