序:2025 年 1 月那一周

如果你只记得 2025 年开年 AI 圈的一件事,大概率是这一件:

2025 年 1 月 27 日,英伟达股价单日下跌约 17%,市值蒸发将近 6000 亿美元——美股历史上单只股票最大单日市值损失。

导火索不是新一代 GPU 跳票,不是中美再加一层制裁,也不是 OpenAI 出了什么事。是一家此前在英文世界连名字都念不顺的中国公司,在前一个周末把一个叫 R1 的推理模型按 MIT 许可证扔到了 Hugging Face 上。顺便附了一份技术报告:训练它的最后一段预训练,只花了大约 558 万美元。

那一周市场上有一种被冒犯的情绪。“不可能。““一定有 H100 在偷跑。““数据是抄的。“很快又翻转成另一种情绪——“美国领先的故事是不是要塌了。”

但如果你把镜头拉远,会发现这两种情绪都看错了重点。DeepSeek 时刻真正可怕的地方,不是某一家公司省了多少钱、追到了多近,而是它第一次在主流叙事面前把一个事实摆到了桌上:

AI 的前路不是一条,是好几条。而它们正在同时往前走。

这篇文章,我们站在这个路口往五个方向看一看,再听几位在路口站了很多年的科学家说说话,最后给你一张可以反复对照的地图。


第一岔:开源与闭源——两条曲线

R1 之前,流行的故事是这样的:大模型是富人的游戏。算力 = 护城河,数据 = 护城河,RLHF 工程 = 护城河。开源永远跟在闭源后面 12-18 个月,而且差距会越拉越大,因为前沿模型的训练成本每年翻番。

R1 在一个周末把这个故事撕开了一个口子。它没有提出新架构——还是 Transformer + MoE,《MoE 架构解析》里讲过那 256 个专家自动分诊的故事。它的贡献是把"推理能力"做成了一份可以复现的菜谱:用强化学习直接奖励『答对了』,不需要昂贵的过程标注,模型自己会学会停下来想几步。然后把权重和报告全开。

紧接着的一个月里,通义千问把 Qwen 系列继续以 Apache 2.0 推进,Moonshot 的 Kimi 把长上下文和推理 RL 揉在一起,MiniMax 把线性注意力第一次推到生产规模,智谱、阶跃、零一万物各自给出自己的解法。开源这一侧不是一家公司逼近闭源,而是一片森林同时长起来。

但故事的另一面同样真实。Anthropic 的 CEO Dario Amodei 在博客里写了一篇冷静的反驳——大意是:R1 在能力上大约相当于美国前沿实验室七到十个月前的水平,Claude 3.5 Sonnet 的训练并没有外界传说的那么贵。他没有否认 R1 的工程成就,他在提醒一件事:前沿曲线本身没有停。OpenAI、Anthropic、Google、xAI 仍然在按月迭代 o 系列、extended thinking、Gemini 2.5、Grok。差距确实在缩小,但差距并没有消失。

放到一张地图上是这样:

维度开源阵营状态闭源阵营护城河
知识 QA / 数学 / 代码补全基本追平持平
多模态生成(视频、实时语音)落后明显Sora、Veo、GPT-4o 实时模式
长程 Agent / 工具使用在追,但不稳Claude Code、Operator 系列工程经验
推理模型工程链路R1 / K1.5 已开o 系列、extended thinking 仍领先
训练算力规模万卡级Stargate、Colossus 十万卡级别

所以这第一个岔口的真相不是"谁赢了”,是:

AI 不再有一条曲线,有两条。一条是 Anthropic、OpenAI、Google 拉的『最前沿』,另一条是 DeepSeek、Qwen、Mistral 拉的『可获得的最好』。两条曲线都在涨,都不会消失。

《压缩即是全部》里我们说过,所有理解都是压缩。这次的 DeepSeek 时刻,本质上是把"造出一个会推理的压缩器"这件事的工程门槛,从十几亿美元的级别,压到了千万美元能起步的级别。门槛不会一直降——但门已经被推开了,关不回去。


第二岔:通用与垂直——一棵树分了枝

有了 R1 之后,有一种很顺手的乐观:既然通用模型这么强,直接拿来开机器人、开车、看片子,不就行了吗?

实际试过的人都知道,不行

先看一组数字。一个最聪明的 LLM 输出一句话,从你按回车到第一个 token 出现,在云上一般是几百毫秒到一秒;把整段答案讲完,几秒到十几秒。这在一个对话框里完全够用。

但是:

  • 一个机器人的关节控制循环,典型是 50–1000 Hz——每秒钟要做 50 到 1000 次决策。
  • 一辆 L4 自动驾驶车,从感知到规控的闭环延迟必须低于 100 毫秒,而且对每一帧都要输出。
  • 上面两件事失败的代价不是"答错了”,是摔倒、撞上、伤人。幻觉在这里不是文学问题,是物理问题。

这意味着,通用 LLM 不能直接拿来当机器人和驾驶的"大脑”。它进入这两个领域的方式,只能是当慢系统——出策略、做长程规划、读懂自然语言指令——而真正闭环的快控制,得交给另一类模型。

业内对这一类模型有专门的名字:VLA(Vision-Language-Action)。它不再只输出文字,它输出连续的关节角和扭矩。

VLA 的家谱大致是这样:

  • RT-1(Google,arXiv:2212.06817):13 万条真机轨迹,把视觉、语言、动作第一次塞进一个 Transformer。
  • RT-2(DeepMind,arXiv:2307.15818):把动作直接编码成 token,让一个视觉语言模型"顺便"输出动作,常识从语言里迁过来。
  • Open X-Embodiment / RT-X(arXiv:2310.08864):22 种本体、500 多项技能、160 万条轨迹拼一个跨本体大数据集——像极了 LLM 当年拿全网文本拼语料。
  • OpenVLA(arXiv:2406.09246):7B 全开源,效果反超此前 55B 的 RT-2-X。
  • π0(Physical Intelligence,arXiv:2410.24164):PaliGemma 视觉语言模型 + 流匹配动作头,50 Hz 实时控制。
  • Figure Helix(2025 年 2 月发布):明确的双系统架构——慢思考 7-9 Hz 的 VLM 出意图,快控制 200 Hz 的小模型出关节扭矩。

这条路线的形状已经很清楚了:视觉语言模型是『大脑』,动作模型是『小脑』,两者通过一个低维瓶颈对话。这其实是《看见物理(八·对称性)》里讲过的那个老主题——对称性=哪些维度可以被压缩掉。机器人和环境的耦合里,绝大多数高频细节(关节摩擦、地面反作用力)不需要 LLM 操心,但目标、约束、长程意图必须由 LLM 接住。

自动驾驶则是同一个母题的另一个变奏。它的"GPT 时刻"其实更早——Tesla FSD v12(2024 年初推送)第一次把过去 30 万行 C++ 规控规则,替换成了一个端到端的神经网络:摄像头进、轨迹出。Karpathy 在红杉的演讲里讲过那一刻的感受,大意是:“我们删了一半代码,效果反而更好了。“紧接着 Waymo 的 EMMA、英国 Wayve 的 GAIA-1、华为 ADS、小鹏 XNGP、蔚来 NWM、理想 MindVLA、上海 AI 实验室的 UniAD(CVPR 2023 Best Paper),纷纷把端到端做成了行业新共识。

但请注意一件事:这些自动驾驶模型,没有一个是直接拿 GPT 来开车的。它们都是为驾驶场景重新训练、重新蒸馏、重新对齐的专用模型。它们和 LLM 共享的是 Transformer/扩散这一层架构、是 scaling law 这一类直觉,但输入空间、输出空间、安全冗余、实时性约束没有一项与 LLM 重合。

所以第二个岔口的真相是:

通用 LLM 不会直接吞掉机器人和驾驶。它会作为『慢系统大脑』和『常识库』被嵌进去,但围绕它会长出一棵新的树:VLA、世界模型、扩散动作策略、专用 backbone。这棵树和 LLM 同源,但不同种。

李飞飞 2024 年下半年成立 World Labs、LeCun 多年坚持的 JEPA(arXiv:2301.08243 / 2404.08471)、DeepMind 的 Genie——它们都在押同一件事:这棵新树的根,不是文本,是视频


第三岔:Transformer 之后

第三个岔口比前两个安静,但可能影响更深远。

《Transformer 深度拆解》系列里我们一层一层讲过:Q、K、V 是怎么从一团 embedding 里被三个棱镜分出来的;残差流是 Transformer 真正的脊梁;位置编码是给并行化付出的代价。但这套架构有一个逃不掉的代价——注意力的复杂度是 O(n²)。序列每翻一倍,算力翻四倍。

从 2023 年到现在,挑战者从来没缺席过:

  • Mamba / 状态空间模型(arXiv:2312.00752):线性时间复杂度,在长序列上大幅省算力。已经出现了 Codestral Mamba、AI21 Jamba 这样的混合商用模型。
  • RWKV:把 RNN 重新设计成可并行训练,开源社区有 7B、14B 在跑端侧。
  • JEPA 系列(LeCun):放弃"预测每一个像素”,改成在抽象表征空间里做预测——目标不是文字续写,是世界建模。
  • TTT (Test-Time Training)(arXiv:2407.04620):让模型在推理时也保留少量权重更新,把"记忆"从 KV cache 里挪到权重里。
  • Diffusion-LM / LLaDA:把扩散模型用到文本上,试图绕开自回归的串行瓶颈。
  • xLSTM(arXiv:2405.04517):Hochreiter 本人——LSTM 的发明者——亲自下场,把 LSTM 重新做了一遍。
  • Liquid Neural Networks:从 C. elegans 这种线虫的神经元动力学得到灵感,小、快、连续时间。

三年过去了,这些挑战者没有一个真正取代 Transformer。但同样真实的是,没有一个被证伪。它们各自占住了一小块生态位:Mamba 在长上下文上有戏,RWKV 在端侧推理上轻巧,JEPA 在视频世界建模上代表了另一条路,xLSTM 给了 RNN 派重新证明自己的机会,Diffusion-LM 在并行解码场景上还在试。

业内逐渐形成的共识是:下一个范式不会是单点替换,会是分叉

  • 文本对话——Transformer + MoE 仍然是主力。
  • 长上下文检索——Mamba 这类线性注意力会蚕食一部分。
  • 端侧实时——RWKV、xLSTM、Liquid 各有优势。
  • 视频和具身世界建模——JEPA 路线和扩散路线各押一边。
  • 数学和代码长程推理——MoE + 思维链 + RL 自验证仍是 R1/o 系列的主战场。

这其实非常像《看见物理(六·相变)》里讲过的图像:单一相不会永远稳定,系统冷下来或热上去就会分相。AI 现在正在从一个"什么都用 Transformer"的高温熔融态,慢慢分出几个不同的相区。每个相区里 Transformer 还在,但不再是唯一。


第四岔:大不一定是答案

接着第三岔再往前推一步,会撞上一个更尖锐的问题:为什么我们一定要这么大?

GPT-4 千亿级参数,Llama 4 Behemoth 据传 2T,Grok 4 撑在十万张 H100 上。每一代旗舰都比上一代更大、更贵、更难部署。但你心里大概也有过同一个直觉——手机里跑的 1.5B 推理模型有时候答得不错,数百亿的旗舰也会犯一些低级错误。这种参数量和实际智能的脱节感,是真实的。

MIT 的 Frankle 和 Carbin 在 2018 年提了一个解释,叫彩票假说(Lottery Ticket Hypothesis):

一个大网络之所以能训练成功,不是因为它需要那么多参数,而是因为参数越多,在随机初始化里『碰巧含有一个能学好的小子网络』的概率就越高。每一组初始权重就是一张彩票。一张中奖率极低,但你有几十亿张时,中奖就是必然事件

这件事如果成立,意味着我们今天的训练范式其实非常浪费——真正在做事的,从来只是大模型里那一小撮『中奖参数』。剩下 99% 是培育那张幸运彩票时不得不带着的脚手架。《为什么把模型做大就能变聪明?》《MoE 架构解析》里我们都展开讲过这条线:MoE 把"事后剪枝中奖彩票"变成了"事前每次只激活中奖那一小部分”——256 个专家里每次只用 8 个,本质就是把彩票假说做成工程。

把这条线拉到 2025 年,再看一遍这些事,你会发现它们都在指同一个方向:

  • 知识蒸馏:把 671B 的 R1 蒸到 1.5B 的 Qwen,数学题正确率反而能保住七八成。老师傅花十年磨出来的味,徒弟尝几百顿就能学个大概
  • MoE 稀疏激活:推理时真正在算的参数只有总量的几十分之一。
  • 端侧模型:Phi、Qwen-1.5B、Gemini Nano、苹果 Foundation Models 在手机端跑日常对话,用户基本看不出和云端旗舰的差别。
  • Mamba / RWKV / Liquid:不是为了"更大”,是为了"同样能力下更小、更快、能塞进汽车和耳机”。

把这些放在一起看,一个温柔但坚硬的判断在浮现:

大模型可能从来不是终点,只是『找到那张中奖彩票』的临时手段。真正可部署、可信任、可持续的智能,很可能比我们现在以为的小一到两个数量级。

如果这个判断成立,2030 年最重要的 AI 不是参数最大的那个,而是单位参数智能密度最高的那个。前沿实验室继续往大里推,目的是探明能力上限;但真正进入你手机、汽车、家用机器人的,会是不断从前沿"摘下来"的更小、更稠密的版本。

这也呼应了《压缩即是全部》里那句话——所有理解都是压缩。大模型在做的,其实是用算力暴力搜索一个更小的有效电路;搜到之后,我们才有机会把它单独取出来。


第五岔:发明者的去向

最有意思的一个岔口,藏在论文署名页里。

2017 年 6 月,Google Brain 的八个人在 NeurIPS 投了一篇叫 Attention Is All You Need 的论文。这八个人一起改写了此后 AI 的全部叙事。但如果你今天去看他们各自的去向,会发现一件几乎是寓言性质的事情:

八个发明者,几乎每一个都站在一条不同的岔路上。

  • Ashish Vaswani(一作),离开 Google 去创业,现在做 Essential AI。
  • Noam Shazeer,创办 Character.AI,2024 年被 Google 反向收购回去,继续主导 Gemini。
  • Niki Parmar,Adept → Essential AI 联合创始人。
  • Jakob Uszkoreit,创办 Inceptive——把 Transformer 用到 mRNA 药物设计。在他看来,生物学才是更大的赌局。
  • Llion Jones,和 David Ha 在东京创办 Sakana AI——一家以"演化计算"和"小模型集合"为信念的公司,刻意不押大模型。
  • Aidan Gomez,当年还是本科实习生,如今是 Cohere 的 CEO,押注企业级 LLM。
  • Łukasz Kaiser,八人中唯一押注集中式 AGI 的——他去了 OpenAI,深度参与 GPT-4 与 o 系列。
  • Illia Polosukhin,论文同年就离开了,创办 NEAR Protocol,押的是去中心化 AI 与区块链。

把这八个人的轨迹画在一张图上,你会看到一个非常工整的发散:集中式 AGI、企业 LLM、生物学、演化小模型、对话陪伴、机器人、去中心化、推理 API——他们一人占住了一个方向。

这件事的隐喻意义大于它的事实意义。它在告诉我们:

Transformer 这篇论文不仅把 AI 推到了一个十字路口,它把它的发明者本身也推到了路口上。每个人都看见了一种未来,然后选了一种,转身就走。

而留下来的那十几万次引用、那一行 Attention Is All You Need,既是起点,也是分界线。


声音:看路口的人在想什么

岔路上各有各的走法,但几位站得最高、看得最久的科学家,他们的判断值得单独听一听。

Geoffrey Hinton(深度学习之父,2024 年诺贝尔物理学奖得主)

2023 年春天,Hinton 从 Google 辞职,理由是"想自由地谈 AI 的危险”。他后来在多次公开演讲里反复说同一句话:

“我用了一辈子把 AI 做出来。现在我开始担心,我们造的东西可能比我们更聪明,而且我们没有办法控制它。”

他的另一个核心判断是:数字智能(digital intelligence)在原理上就胜过生物智能——因为数字智能可以无损复制、并行学习,人类大脑做不到。这意味着一旦 AI 真正比人类聪明,差距会以指数速度拉开。听起来悲观,但他依然在做基础研究,推 Forward-Forward 算法,试图找到比反向传播更接近大脑的训练方式。

Yann LeCun(深度学习先驱,纽约大学教授,2018 年图灵奖得主)

LeCun 是这些人里最反"LLM 即一切"的。他的判断很清楚:

“自回归 LLM 走不到终点。它学不到世界模型,它没有规划,它没有持久记忆。给一只猫看几个小时的视频,它能比 Llama 学到的世界结构多得多。”

他的解法叫 JEPA(Joint Embedding Predictive Architecture)——不让模型预测每一个像素,只让它在抽象表征空间里预测"接下来会发生什么"。在他看来,通往 AGI 的路要靠视频,不是文字。JEPA 路线现在已经被 V-JEPA、V-JEPA 2、Genie、World Labs 接续推进,走出了一条和 LLM 平行但不同的路。

Fei-Fei Li(李飞飞,ImageNet 之母,World Labs 创始人)

ImageNet 是当年点燃深度学习的那把火。十几年后,她在 2024 年下半年创办 World Labs,押的是另一件事——空间智能(spatial intelligence)。她的论点是:

“语言只是智能的薄薄一层皮。真正的智能要能理解空间、操作物体、在三维世界里行动。LLM 看了所有的书,但它从未『见过』这个世界。”

World Labs 的产品形态是:从一张图重建一个可以走进去、可以交互的三维世界。这一路线和 LeCun 的 JEPA、DeepMind 的 Genie 实际上汇成了同一股流——视觉和空间,而不是文字,才是世界模型的根

Andrej Karpathy(OpenAI 创始成员、前特斯拉 AI 总监)

Karpathy 是最善于把复杂的事讲清楚的一个。他 2024 年的两次公开演讲(红杉 AI Ascent、Dwarkesh Patel 访谈)给整个行业留下了几个金句式的判断:

“Software 1.0 是人写代码,Software 2.0 是人写数据让模型学,Software 3.0 是人用自然语言对模型说话。我们正在从 1.0 跳到 3.0,中间那一段以后会被称为『前 LLM 时代』。”

他对端到端的信念极强(特斯拉 FSD v12 是他主导的方向),也对小模型友好——他亲自写过一个 200 行纯 Python 的 GPT 教学版,告诉所有人这套魔法没那么神秘。

Yoshua Bengio(蒙特利尔大学,2018 年图灵奖)

Bengio 这两年在做一件让外界有点意外的事——研究怎么让 AI 不撒谎。他提了一个叫 Scientist AI 的方向:不让模型试图直接当 agent 去行动,而是把它训练成一个只会输出"对世界的诚实判断 + 不确定度"的科学家式系统。然后由人类来基于这些判断做决策。

“我们在用对齐技术教 AI 别说真话以外的话。但更安全的方法,可能是从一开始就不要让它试图行动。”

Ilya Sutskever(OpenAI 前首席科学家,SSI 创始人)

2024 年 5 月离开 OpenAI 之后,Sutskever 创办了 Safe Superintelligence Inc.——一家只做一件事的公司:安全的超级智能。他对外几乎不发声,公司没有产品路线图,只有一个目标:不被商业化压力分心,把人类如何安全地造出比自己聪明的东西这件事想清楚。

把这六个人的方向并排放在一起:

科学家当下押注一句话
Hinton警告 + Forward-Forward“我们可能造了比我们聪明的东西”
LeCunJEPA / 世界模型 / 视频“自回归 LLM 不是唯一的路”
李飞飞World Labs / 空间智能“语言只是智能的薄皮”
Karpathy端到端 + 教育普及“我们正进入 Software 3.0”
BengioScientist AI / 安全“别让 AI 行动,让它诚实”
SutskeverSafe Superintelligence“把对齐想清楚再说”

注意一件事:这六个人都是同一波深度学习革命的发起者,他们今天却走进了六个不同的方向。这不是分裂,这是领域成熟到值得分头探索的标志。如果连他们都没有共识,那么"AI 只有一种未来"这个想法,本身就该被退回去重写。


一张地图:站在路口往哪儿看

讲了五个岔、六位科学家,你大概需要一张可以反复对照的图。下面这张是把今天 AI 大致分成的八个相区——每个相区里我列出代表性组织和有代表性的人(不求穷尽,只求让你下次看到一个名字时能把它放进对的格子)。

相区在做什么代表组织代表人物
① 通用 LLM 前沿(闭源)把能力上限继续往上推OpenAI, Anthropic, Google DeepMind, xAISam Altman, Dario Amodei, Demis Hassabis, Łukasz Kaiser
② 开源旗舰把"可获得的最好"做成森林DeepSeek, 通义千问(阿里), Kimi(Moonshot), MiniMax, 智谱, 阶跃, Meta(Llama), Mistral梁文锋, 周靖人, 杨植麟, 闫俊杰, 唐杰
③ Agent / 工具与编排让模型用工具完成长程任务Anthropic(Claude Code), OpenAI(Operator), Cognition(Devin), LangChain, Cursor由通用 LLM 团队主导
④ 具身 / 机器人 VLA把视觉-语言-动作合一Physical Intelligence(π0), Figure AI, 1X, Tesla Optimus, BD+TRI, 宇树, 智元, 银河通用Sergey Levine, Brett Adcock, 稚晖君, 王鹤
⑤ 自动驾驶端到端把 30 万行规则换成神经网络Tesla FSD, Waymo, Wayve, 华为 ADS, 小鹏, 蔚来, 理想, 上海 AI 实验室, 商汤Karpathy(已离开特斯拉), 王晓刚
⑥ 世界模型 / 空间智能用视频+三维当根,绕过文本Meta FAIR(JEPA), World Labs, DeepMind(Genie), Wayve(GAIA), 1X World ModelYann LeCun, 李飞飞
⑦ 替代架构 / 端侧小模型让智能更轻、更小、更近Mistral(Mamba 混合), AI21(Jamba), RWKV, NXAI(xLSTM), Liquid AI, Sakana AI, 苹果端侧Albert Gu, Sepp Hochreiter, Llion Jones, David Ha
⑧ 安全 / 对齐 / 科学家路线想清楚再造,或别让它行动Anthropic(部分), SSI, MILA(Bengio 组), Hinton 个人Ilya Sutskever, Geoffrey Hinton, Yoshua Bengio

(一不小心数到了八。这本身可能也是个信号。)

读这张表,可能有几个角度:

看到一家公司,先问它在哪一格。 同一格里它和谁竞争,跨格的它和谁互补。

看到一篇新论文,先问它属于哪一格。 一篇 VLA 论文不该用 LLM 的标尺去衡量,反过来也是。

关心 AI 安全的,不只在第八格。 每一格里都有自己的安全问题——机器人摔伤、车祸、Agent 误删文件——各有各的对齐挑战。

关心中国 AI 的,主战场在第二格、第四格、第五格。 开源旗舰、具身、自动驾驶,是中国实验室和创业公司目前最有牌的三块。


收束:压缩之后是分叉

五条岔路 + 六个声音 + 一张地图,看完之后,回头看那一周的英伟达股价,反而平静了。

  • 第一条岔上,开源不是赢家,但它把"可获得的最好"这条曲线第一次单独拉了出来
  • 第二条岔上,通用 LLM 不会吞掉一切——VLA、世界模型、自动驾驶专用模型,各自长成自己的树。
  • 第三条岔上,Transformer 不会被一刀替换,它会在不同相区里被 Mamba、JEPA、扩散、RNN 派各自补充。
  • 第四条岔上,真正的智能可能比我们以为的小——大模型只是采购式抽彩票,中奖的那张本来就在那里,等着被取出来。
  • 第五条岔上,连论文的发明者本身都散到了八个不同的方向——这八个方向加在一起,就是今天 AI 的全部地形。

《压缩即是全部》里我们说过,智能就是压缩——找到一个更短的描述。《看见物理(八·对称性)》里我们说过,对称性就是宇宙在告诉你"哪些差别其实不重要,可以压掉"。这两件事都在讲收敛:从复杂找到简单,从万象找到一律。

但站在 2025 年这个路口往前看,我们会发现 AI 接下来要面对的事情反过来了——它不是收敛,是分叉

  • 一个能在屏幕上和你聊天的智能,和一个在工厂里 200 Hz 控制关节的智能,共享根但开不同的花。
  • 一个用万亿 token 文本训练的智能,和一个用十亿小时视频训练的世界模型,共享数学但解不同的题。
  • 一个由十万张 H100 撑起来的前沿,和一个用两千张 H800 跑出 R1 的高地,共享算法但走不同的山道。
  • 一个塞进汽车和耳机的 1.5B 端侧模型,和一个守在数据中心里的万亿参数旗舰,共享谱系但服务于完全不同的人。

这就是十字路口本来的样子。它不是"选一条对的路"的考题——它是『不再只有一条路可走』这件事本身

如果你一路跟着我们读到这里,从《AI 的 70 年》那场 1956 年的达特茅斯会议讲起,到 Transformer 八层结构每一层是怎么长出来的,到压缩即是全部,到对称性=守恒——你大概已经习惯了那种"所有现象背后有一个简单原理"的快感。

但站在路口的时候,我们要练另一种眼睛:看出有几条路、哪条路适合谁、哪条路只是看起来近、哪条路其实是回家

英伟达那 6000 亿美元蒸发的那个下午,真正震动的不是股价,是一个隐含的假设——AI 只有一种未来。那个假设碎了。

碎了挺好。


本文涉及的本博客文章

  • 《AI 的 70 年》(系列三篇)
  • 《看见物理(六·相变)》
  • 《看见物理(八·对称性)》
  • 《Transformer 深度拆解》(系列六篇)
  • 《MoE 架构解析》
  • 《为什么把模型做大就能变聪明?》
  • 《压缩即是全部》

参考与来源

  • Attention Is All You Need, Vaswani et al., 2017, arXiv:1706.03762
  • DeepSeek-V3 Technical Report, 2024, arXiv:2412.19437
  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL, 2025, arXiv:2501.12948
  • Kimi K1.5: Scaling RL with LLMs, 2025, arXiv:2501.12599
  • Mamba: Linear-Time Sequence Modeling, 2023, arXiv:2312.00752
  • I-JEPA / V-JEPA, LeCun et al., arXiv:2301.08243, 2404.08471
  • RT-2: Vision-Language-Action Models, 2023, arXiv:2307.15818
  • Open X-Embodiment, 2023, arXiv:2310.08864
  • OpenVLA, 2024, arXiv:2406.09246
  • π0: A Vision-Language-Action Flow Model, Physical Intelligence, 2024, arXiv:2410.24164
  • EMMA: End-to-End Multimodal Model for Autonomous Driving, Waymo, 2024, arXiv:2410.23262
  • GAIA-1: A Generative World Model for Autonomous Driving, Wayve, 2023, arXiv:2309.17080
  • UniAD: Planning-oriented Autonomous Driving, CVPR 2023, arXiv:2212.10156
  • The Lottery Ticket Hypothesis, Frankle & Carbin, ICLR 2019, arXiv:1803.03635
  • Geoffrey Hinton, 2023 NYT 专访 / 2024 Nobel Lecture
  • Yann LeCun, A Path Towards Autonomous Machine Intelligence, 2022 Open Review
  • Fei-Fei Li, World Labs 2024 创立公开信
  • Andrej Karpathy, Software Is Changing (Again), Sequoia Capital AI Ascent 2024 / Dwarkesh Patel 访谈 2024
  • Yoshua Bengio, Towards Scientist AI, 2025 立场论文
  • Ilya Sutskever, Safe Superintelligence Inc. 2024-06 创立声明
  • Dario Amodei, On DeepSeek and Export Controls, 2025-01-29 博文

数字与日期以原始论文与公司技术报告为准;融资额、估值、市占等高频变动数据未在本文出现。