你可能见过这两个画面。

画面一。 一座汽车工厂的焊接车间。六台橙色的工业机械臂排成一排,以每秒数十次的频率精确地在白色车身上打出焊点。误差在 0.01 毫米以内。每一台的运动轨迹都是工程师用示教器一步一步录制的,或者用离线编程软件一条一条规划的。换一个车型、换一个零件、甚至把零件位置挪了三厘米——整条产线要停下来,重新编程,重新调试。三天起步。

画面二。 2024 年末,一段来自 Physical Intelligence 的演示视频。一台双臂机器人站在一个普通家庭厨房里。人用自然语言说了一句:

“把桌上的脏碗放进洗碗机。”

机器人低头看了看桌面,识别出碗和残余食物。它伸出左手稳住碗,右手抓住碗沿,抬起来,走到洗碗机前,用右手拉开洗碗机门,弯腰把碗放进碗篮,然后关上门。

这不是一条传统产线上的固定脚本。至少在演示条件下,它面对的是一个新场景、新物体、新家具组合。


第一个机器人精确但脆弱。

第二个机器人笨拙但通用。

从精确到通用,中间发生了什么?

一句话回答:AI 不只是在学会聊天,它正在学会干活。

在《AI 的十字路口》里,我们用两页篇幅画了一棵族谱树:RT-1、RT-2、OpenVLA、π0、Figure Helix,把这条技术路线的家谱快速勾勒了出来。那篇文章的结论是:

视觉语言模型是「大脑」,动作模型是「小脑」,两者通过一个低维瓶颈对话。

但族谱树只告诉你"谁生了谁"。

这篇文章要做的是:走进树干,看看里面的年轮。

一、为什么机器人一直"不够聪明"

先承认一个事实:机器人技术并不新。

1961 年,通用汽车在新泽西的工厂部署了世界上第一台工业机器人 Unimate。它能抓起热铸件并按照预定路径放置——那是 65 年前的事。

从那时起,机器人在工厂里的表现堪称完美:焊接、喷漆、搬运、装配。国际机器人联合会(IFR)的 World Robotics 2025 统计显示,2024 年全球在运行工业机器人约 466 万台

这里先拆一个很容易混在一起的问题:机器人,不等于人形机器人。

我们平时一听"机器人",脑子里冒出来的往往是《变形金刚》、C-3PO、擎天柱,或者最近很火的人形机器人。但在专业语境里,机器人这个词要宽得多。工业机械臂是机器人,仓库里的自主移动机器人(AMR)小车是机器人,手术机器人是机器人,四足机器狗是机器人,无人机在很多场景里也会被放进机器人系统讨论。

分类也不止一种。

  • 按应用分:工业机器人、服务机器人、医疗机器人、物流机器人、农业机器人。
  • 按身体形态分:机械臂、轮式移动平台、四足机器人、双臂移动操作平台、人形机器人。
  • 按智能程度分:固定脚本设备、半自主系统、具备一定泛化能力的通用机器人。

所以,这篇文章里的"机器人 GPT 时刻",不是在说所有机器人都会变成人形,也不是说机械臂这种东西已经过时了。它真正讨论的是:机器人正在从专用自动化机器,走向能看环境、懂指令、改动作的具身智能体

人形只是其中一种外壳。它很吸引眼球,因为人类的房子、楼梯、门把手、工具,本来就是为人类身体设计的。但如果任务是在平整仓库里搬箱子,轮式底盘加机械臂可能比两条腿更便宜、更稳定、更好维护。机器人最终长什么样,不该由科幻片决定,而该由任务决定。

也顺便把"具身"说清楚。具身智能不是"长得像人",而是一个智能系统有自己的身体,有传感器,有执行器,能在真实或仿真的世界里行动,并从行动结果里得到反馈。

一台双臂机器人在厨房里看见盘子、伸手抓取、抓滑了再调整力度,它是具身的。

一个人形机器人站在那里只会播报天气,它反而没多少具身智能。

关键不是有没有脸、有没有腿,而是有没有这个闭环:

看见世界 → 做出动作 → 世界改变 → 再看见结果 → 调整下一步

这也是为什么机器人不像纯软件 AI 那样,只要模型变大就能快速扩散。它一半是 AI,一半是机械、传感器、控制、材料、成本和安全。

但也正因为如此,一旦 LLM/VLM 这套通用模型方法进入机器人,机器人就不再只是"机械工程的另一条分支"。它开始接入 AI 主线:用大模型理解世界,用数据学习动作,用反馈继续进化。

问题是,走出工厂,进入家庭、医院、餐厅、仓库这些非结构化环境,机器人的表现就断崖式下跌。

为什么?

传统范式:感知→规划→执行

过去几十年,机器人的智能系统几乎都遵循同一个三段式架构:

感知模块 → 规划模块 → 执行模块
  • 感知:用摄像头或激光雷达获取环境信息,靠手写特征或简单 CNN 识别目标物体的类别和位置。
  • 规划:用运动学求解器(RRT、A* 等)在已知地图上计算一条从 A 到 B 的路径,同时避开障碍物。
  • 执行:用 PID 控制器让关节精确跟踪规划好的轨迹。

这三个模块各自独立,由人工规则连接。感知告诉规划"杯子在哪",规划告诉执行"走这条路",执行让电机转到位。

在工厂里,这套范式工作得很好。因为工厂的环境是结构化的:零件的形状已知、位置固定、光照恒定、地面平整。感知几乎不需要"理解",只需要"定位"。

但真实世界不是工厂。

Moravec 悖论

1988 年,卡内基梅隆大学的 Hans Moravec 说了一句后来成为经典的话:

“让计算机在智力测验或下棋中表现出成人水平的能力,相对容易;但要让它拥有一岁婴儿的感知和运动能力,却难得多,甚至不可能。”

这就是 Moravec 悖论

下棋的状态空间虽然大,但它是离散的、完全可观察的、规则明确的。你可以搜索所有合法走法,用评估函数给每一步打分。

但"从桌上拿起一个杯子"这件事:

  • 杯子可能是透明的、有花纹的、沾了水的、半满的、没有把手的。
  • 桌面可能是湿的、倾斜的、堆满杂物的。
  • 抓取力度太大会捏碎,太小会滑落。
  • 杯子里如果有液体,抬起的角度和速度都要调整。
  • 旁边如果有人,还要注意不碰到。

每一个细节都是一个维度。这些维度的组合是天文数字。用规则描述"如何抓住一个任意形状的杯子",比证明数学定理还难。

在《维纳没有想到的事》里,我们讲过控制论的核心洞见:一个在时间中行动的系统,必须听见自己行动后的回声。反馈是智能的必要条件。

维纳的反馈环路是对的思路。但他那个时代的反馈,是基于明确的传感器信号和数学模型的——温度传感器读数偏高 2°C,控制器减小加热功率。信号明确,模型已知。

真实世界不是这样。你没法给"厨房里有一只猫挡在洗碗机前"写一个控制方程。

在《马尔可夫的幽灵》里,我们讲过另一个基础:状态决定下一步。这在棋盘上成立,因为棋盘的状态是离散的、完全可观察的。

但机器人面对的状态,是连续的、高维的、部分可观察的——你只能通过有限的摄像头和传感器看到世界的一个切面。

所以传统机器人卡了几十年,不是因为电机不够快、传感器不够精。而是因为感知→规划→执行这套范式,本质上是在用规则逼近一个规则覆盖不了的世界

需要一种新的方法。

传统机器人 vs VLA 架构对比

这种方法在 2022 年开始出现。


二、LLM 给机器人带来了什么

2022 年是一个分水岭,不只是因为 ChatGPT。

在机器人领域,同年发生了一件事:Google Research 发表了 SayCan

SayCan:语言常识第一次指挥机器人

SayCan 的想法极其简单:

人用自然语言对机器人说一句话,比如"我把饮料洒在桌上了,能帮我处理一下吗?"

一个 LLM(当时是 PaLM)把这句话拆解成一个步骤序列:

1. 找到海绵
2. 拿起海绵
3. 走到桌子前
4. 擦拭桌面
5. 把海绵放回原处

然后,机器人逐步执行这些步骤。每一个步骤都由一个预先训练好的小技能策略完成——“拿起 X"“走到 Y"“放下 Z"这些基本动作是事先教好的。

LLM 不控制关节。它只做一件事:把自然语言里的常识,翻译成机器人能执行的步骤序列。

这一步很重要,但要说清楚:SayCan 还不是今天意义上的 VLA。它更像一个会说人话的调度员,站在一堆固定技能旁边,帮机器人决定先做哪一步、后做哪一步。

但 SayCan 有一个明显的局限:它的低层技能是固定的。LLM 只能从一个预定义的技能库里选技能。如果库里没有"打开洗碗机门"这个技能,LLM 再聪明也没用。

接下来的两步,才是真正的范式转变。

RT-1:把视觉、语言和动作塞进一个 Transformer

2022 年底,Google 发表了 RT-1(Robotics Transformer 1)。

RT-1 使用了约 13 万条真实机器人操作轨迹——不是仿真数据,是真机在真实办公室厨房里抓取、放置、开抽屉的完整录像和动作记录。

然后,它把视觉(摄像头画面)、语言(自然语言指令)和动作(末端执行器位姿、夹爪状态等可执行命令)一起塞进了一个 Transformer

输入:当前看到的画面 + “把可乐罐放到右边”

输出:下一个时间步的动作命令

它把机器人从"LLM 调度技能库"往前推了一步:不再只是让语言模型发号施令,而是让模型直接从看见和听懂,走到下一步动作。

但 RT-1 的泛化能力有限。它在训练时见过的物体和指令上表现很好,遇到新物体就会困惑。模型参数量也不大,还没法吃到语言预训练的红利。

RT-2:把动作变成 token

2023 年 7 月,DeepMind 发表了 RT-2(Robotics Transformer 2),这是一个关键突破。

RT-2 的核心创新只有一个,但这一个就够了:

把机器人的动作编码成 token,和文字 token 放在同一个序列里。

具体来说:一个连续的动作(比如"手臂向前移动 5cm、向下移动 2cm、夹爪闭合到 60%")被离散化成一串数字 token,就像"256 128 60"这样。这些数字 token 被追加到文本 token 的后面,让一个视觉语言模型"顺便"输出它们。

为什么这很重要?

因为这意味着一个在互联网上预训练过的大型视觉语言模型(RT-2 使用了 PaLI-X 55B 和 PaLM-E 12B 两个变体),不需要从零学习常识——它在语言里已经知道"垃圾应该扔进垃圾桶"“脏碗应该放进水槽"这些关系。 当你把动作变成 token,这些常识就可以直接迁移到物理动作上。

RT-2 的论文里有一个令人印象深刻的实验:它在训练数据里从来没有见过"把垃圾扔进垃圾桶"这条指令和对应的轨迹。但当人给它这个指令时,它做到了——因为它在语言里知道垃圾和垃圾桶的关系。

在《大理石假说》里我们讲过:微调不是在教 AI 新东西,而是在激活预训练中已经获得的能力。RT-2 做的事情本质一样:预训练的视觉语言模型已经"知道"世界长什么样,动作 token 只是给它开了一个新的输出通道。

在《万物皆向量》里我们讲过:Embedding 的力量在于把万物变成向量空间里的点,让距离和方向有了语义含义。RT-2 做的是同一件事的延伸:动作先被离散化成模型能生成的符号,再通过 embedding 进入同一个 Transformer 计算图。 关节角度、末端执行器位姿,不再只是控制器里的连续数值,也成了模型可以预测的"下一批 token”。

但这里要补一个重要限定:动作 token 不是机器人的世界语。

文字 token 有一个天然优势:同一句"把杯子拿起来”,无论 GPT、Claude 还是 DeepSeek,面对的都是差不多的文本序列。图像 token 也相对统一:图片可以切成 patch,声音可以切成频谱片段。

动作不一样。动作必须落到具体身体上。

一台 7 自由度机械臂的"向前 5cm”,和一台双臂机器人、四足机器人、人形机器人、轮式底盘的"向前”,不是同一种底层控制。它们的关节数量不同,运动学不同,力矩限制不同,夹爪也不同。把动作变成 token,只是把某一种机器人在某一种控制接口下的动作,翻译成模型能预测的离散符号。

机器人行业当然有标准和通用工具。ROS/ROS 2 负责消息、服务、动作这些软件通信接口;URDF 用来描述机器人的连杆、关节和运动学结构;MoveIt、ros2_control 这类工具负责运动规划和控制接口。它们很重要,但它们解决的是"软件和硬件怎么接线"的问题,不是发明一种所有机器人都能直接执行的"统一动作语言"。

现在 VLA 研究真正想做的,是把通用性放在更高一层:

  • 高层共享:任务、物体关系、语言意图、动作结果。
  • 低层适配:不同身体各自有动作头、控制器、坐标系和安全约束。

换句话说,通用机器人不是"所有身体都用同一串关节 token"。通用性的核心是:不同身体能不能共享"我要把杯子放进水槽"这个意图,以及"杯子最终应该在哪里、姿态应该怎样、过程中不能碰什么"这些任务结构。

这也是为什么 Open X-Embodiment 这类跨本体数据集、FAST 这类更好的动作 tokenizer、以及各种 embodiment adapter 会变得重要。大家都在试图回答同一个问题:能不能让不同身体,在高层理解上共用一个大脑,在低层动作上各自长出自己的小脑。

从 RT-1 到 RT-2,表面上只是模型变大了、预训练数据变多了。但底层逻辑发生了质变:

机器人的智能来源,从"手工编程的规则"变成了"从语言中迁移的常识"。

这就是 VLA——Vision-Language-Action——这个名字的由来。

VLA 演进时间线


三、VLA 架构拆解——从看见到动手

现在让我们打开 VLA 的引擎盖,看看里面的零件。

一个典型的 VLA 模型由三个模块组成:

VLA 架构拆解图

可以把它简单理解成一句话:视觉和语言先进入同一个推理骨架,动作头再把推理结果翻译成机器人能执行的命令。

视觉编码器:给机器人装眼睛

VLA 的视觉编码器和《AI 到底是怎么看图》里讲过的 VLM 视觉编码器,是同一套技术栈。

通常是一个预训练好的 Vision Transformer(ViT),比如:

  • SigLIP:Google 的对比学习视觉模型,和文本 Embedding 天然对齐。π0 用的就是这个。
  • DINOv2:Meta 的自监督视觉模型,不需要文本配对数据就能学到强视觉特征。

视觉编码器把一帧摄像头画面(比如 224×224 像素)切成若干 patch,每个 patch 变成一个视觉 token。这些视觉 token 和语言 token 一起送进骨架模型。

关键点:视觉编码器通常是冻结的或只做轻微微调。它在大规模图文数据上已经学好了视觉特征,VLA 训练时只需要调整它和动作之间的连接。

语言/推理骨架:大脑

骨架通常是一个预训练好的视觉语言模型(VLM),比如:

  • PaliGemma(Google):SigLIP 视觉编码器 + Gemma 2B 语言模型,π0 的底座。
  • Prismatic-7B:OpenVLA 用的底座,基于 Llama 2 语言模型 + DINOv2 和 SigLIP 双视觉编码器。
  • Qwen-VL:阿里的视觉语言模型,中国 VLA 研究常用。

骨架承担两个职责:

  1. 理解自然语言指令(“把红色杯子放到盘子上”)
  2. 融合视觉信息和语言信息,做出推理(看到桌上有两个杯子,红色的在左边)

但骨架有一个天然的局限:它太慢了。

一个 7B 参数的 VLM,从输入到输出第一个 token,在消费级 GPU 上要几百毫秒。而机器人的关节控制循环,典型频率是 50–200 Hz——每 5 到 20 毫秒就要输出一个动作。

这就引出了 VLA 最关键的创新——动作头。

动作头:从思考到动手

动作头是 VLA 和普通 VLM 的本质区别。VLM 输出文字,VLA 输出能落到机器人身上的动作命令。

这个命令不一定直接是"关节角度和力矩"。在不同系统里,它可能是末端执行器位姿、夹爪开合、离散动作 token、连续动作轨迹,或者交给底层控制器继续细化的目标。关键不在格式,而在边界被打穿了:模型不再停在"我建议你拿起杯子",而是开始输出"手该怎么动"。

目前有两种主流范式:

范式一:动作 token 化(自回归路线)

这是 RT-2 开创的路线。

把连续的动作量离散化——比如把末端执行器在 x 轴的位移从 [-0.1m, +0.1m] 均匀切成 256 份,每一份对应一个 token。这样,一个完整的动作(x、y、z 位移 + 旋转 + 夹爪开合)就变成了 7-8 个 token。

然后用自回归的方式一个一个输出这些 token,就像 LLM 生成文字一样。

优点:复用成熟的自回归 Transformer 架构,实现简单。

缺点:离散化损失精度,自回归输出有延迟累积,对精细操作(比如穿针引线)不够好。

范式二:流匹配/扩散动作头(连续路线)

这是 π0 代表的新路线。

在《从噪声中看见猫》里,我们讲过扩散模型的核心思想:先给干净数据加噪声,然后训练一个模型从噪声中恢复原始数据。

流匹配动作头做的是同样的事情,只不过恢复的不是一张图片,而是一条动作轨迹。

给定当前的视觉观测和语言指令,模型从一个随机噪声向量出发,通过一系列去噪步骤,生成未来若干个时间步的完整动作轨迹。

优点:输出是连续的,精度高。一次性生成多步轨迹(而不是一步一步自回归),速度更快。能表达多模态动作分布——当一个任务有多种合理的执行方式时(比如从左边绕过去还是从右边),流匹配能自然地表达这种多样性。

缺点:训练和推理的工程复杂度更高。

从扩散模型到流匹配动作头,数学框架是同一个,输出空间不同:一个生成像素,一个生成动作轨迹。这种跨领域的方法迁移,是深度学习最令人兴奋的特征之一。

π0:连续动作头把这条路推到台前

π0(读作"pi-zero")是 Physical Intelligence 在 2024 年 10 月发布的模型。它不是第一个 VLA,但它把一个重要方向讲清楚了:机器人不一定要像 LLM 那样一个 token 一个 token 地吐动作,也可以一次生成一小段连续动作。

架构

  • 视觉编码器:SigLIP(冻结)
  • 骨架:PaliGemma(SigLIP + Gemma 2B),预训练在大量图文数据上
  • 动作头:流匹配,生成连续动作轨迹
  • 输出频率:50 Hz

训练数据

  • 来自多种机器人本体的灵巧操作数据,包括单臂、双臂和移动操作平台
  • 包含大量真实机器人操作轨迹(具体规模论文未完全披露)
  • 加上互联网规模的图文预训练数据(通过 PaliGemma 继承)

关键能力

  • 泛化:在训练时没见过的物体和场景上也能工作。比如训练数据里没有某个具体厨房、某种具体碗,它仍然能利用视觉和语言常识生成合理动作。
  • 跨本体迁移:在一种机器人上学到的技能,部分可以迁移到另一种机器人上。不同的手臂构型和夹爪形状,被映射到同一个动作表示空间。
  • 长程任务:能执行包含多个步骤的复杂任务(开门→走进去→找到物体→拿起来→带回来),而不只是单步抓取。

Figure Helix:大脑和小脑的分工

Figure AI 在 2025 年 2 月发布的 Helix 模型,走了另一条路:显式的双系统架构

  • 慢系统(大脑):一个 VLM,运行频率约 9 Hz。它理解语言指令、分析视觉场景、做出高层决策——“应该先拿哪个物体"“从哪个方向接近”。
  • 快系统(小脑):一个小型策略网络,运行频率 200 Hz。它接收慢系统的意图,生成精确的关节角度和扭矩。

两个系统通过一个低维瓶颈通信:慢系统输出的不是完整的轨迹,而是一个压缩的"意图向量”。快系统根据这个向量和实时的传感器反馈,自主完成高频控制。

这个架构有一个非常优雅的洞见,我们在《AI 的十字路口》和《看见物理(八·对称性)》里都提过:对称性意味着哪些维度可以被压缩掉。机器人和环境的耦合中,关节摩擦力、地面反作用力、指尖接触力矩——这些高频细节不需要"大脑"操心。大脑只需要给出目标和约束,小脑自己处理物理。

就像你走路时不需要意识去控制每一块肌肉——你的大脑决定"走到厨房",你的小脑和脊髓处理平衡、步态、避障。

2025 之后:会想的模型,和会动的模型

如果只写到 π0 和 Helix,这篇文章就会少一块最近的拼图。

截至 2026 年 5 月,机器人基础模型的路线已经明显分叉。

第一条是 Physical Intelligence 这一支。 π0 证明了流匹配动作头能做通用操作,π0.5 又把重点推进到开放环境泛化:不是只在实验室桌面上抓固定物体,而是让机器人在更杂乱、更接近真实家庭和工作场景的环境里完成长任务。π0-FAST 则反过来改造"动作 token"本身,用频域压缩把高频动作序列变成更适合 Transformer 学习的离散 token。到 π-star 0.6 和 2026 年 4 月的 π0.7,这条线越来越重视一件事:让机器人从自己的经验、人类视频、语言指导和失败案例里继续学习,而不是永远等人类为每个任务重新采集一套演示数据。

第二条是 Google DeepMind 的 Gemini Robotics。 这条线的重点不是单纯让模型"手更巧",而是把 Gemini 的视觉、语言、推理能力接到机器人身体上。到 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.6,思路已经很清楚:一个模型负责 embodied reasoning,也就是看场景、拆任务、判断风险、必要时调用搜索或工具;另一个 VLA 或底层策略负责把计划落到动作上。

第三条是 NVIDIA 的 GR00T。 它更像一个工程平台路线:模型、仿真、数据生成、机器人厂商生态一起推进。从 GR00T N1、N1.6 到 2026 年 4 月的 N1.7,NVIDIA 押的是"开放模型 + 仿真 + 合成数据 + 人形机器人生态"。对人形机器人来说,这条线很关键,因为它不只问"模型会不会",还问"数据怎么来、仿真怎么跑、不同厂商的身体怎么接进来"。

所以今天的 VLA,已经不是单一论文路线了。它正在变成一个分层系统:

会想的大脑:理解任务、拆步骤、判断风险
会动的小脑:生成连续动作、处理接触和反馈
会练习的身体:从仿真、视频、真机失败里积累经验

这也是"机器人 GPT 时刻"和 ChatGPT 最大的不同之一。ChatGPT 的突破主要发生在屏幕里;机器人的突破必须同时发生在模型、身体、传感器、仿真平台和真实部署里。


四、数据——机器人的互联网在哪里?

LLM 的 GPT 时刻,靠的是一个关键前提:有足够多的数据。

GPT-3 训练时看过约 3000 亿 token。GPT-4 之后,最强模型的训练细节越来越少公开,但大方向没有变:更多文本、更多代码、更多图像、更多合成数据,最后被压进一组权重里。

机器人要走同样的路,面对的第一个问题就是:

机器人操作的"互联网"在哪里?

没有人在网上上传过几万亿条"手臂向前移动 3cm、夹爪闭合到 70%“的数据。

这是机器人和 LLM 最大的结构性差异之一。LLM 的训练数据是人类数千年文明的副产品——我们天然地以文字形式记录知识。但人类的操作技能——怎么倒水、怎么叠衣服、怎么开门——大部分只存在于肌肉记忆里,从来没有被数字化过

目前,机器人数据主要来自三条路。

机器人数据的三条路

第一条路:真机数据众包

2023 年 10 月,Google DeepMind 联合全球 21 家机构发布了 Open X-Embodiment 数据集。

这个数据集汇集了 22 种不同机器人本体(单臂、双臂、移动操作、人形等)的操作数据,来自 21 家机构的协作,覆盖 527 项技能、160,266 个任务,真实机器人轨迹达到百万级。

这像极了 LLM 当年拿全网文本拼语料的逻辑——从全球各个实验室收集数据,拼成一个足够大、足够多样的数据集。

但量级差距是真实的。公开可复用的机器人操作数据,和 LLM 训练用的文本、代码、图像语料,还不是一个数量级。

第二条路:仿真数据

如果真实世界的数据不够,能不能在虚拟世界里造?

这就是仿真(simulation)的路线。

NVIDIA 的 Isaac Sim、Google 的 MuJoCo、开源社区的 Genesis——这些物理仿真平台可以在虚拟环境中模拟机器人的操作。在仿真里,你可以一天跑几万小时的操作数据,而真机一天只能跑十几小时。

但仿真有一个根本性的问题:sim-to-real gap(仿真-真实差距)。

仿真里的物理不是真的物理。接触力学、摩擦系数、材料变形、光照变化——仿真都只能近似。一个在仿真里学会叠毛巾的策略,搬到真实机器人上可能完全失效——因为真实毛巾的柔软度、摩擦力、皱褶方式和仿真里完全不同。

缩小 sim-to-real gap 是当前机器人学习领域最活跃的工程挑战之一。主流方法包括:domain randomization(在仿真里随机化物理参数、光照、纹理,让策略学会对不确定性保持鲁棒)和 sim-to-real transfer(用少量真机数据微调仿真里训练好的策略)。

第三条路:从视频中学习

互联网上有数十亿小时的人类操作视频——YouTube 上的烹饪教程、工厂装配视频、维修指南、甚至游戏直播。

这些视频不包含机器人的动作标注(没有关节角度数据),但它们包含丰富的物理世界知识:物体在重力下怎么运动、推一下杯子它会怎么滑、叠衣服的步骤是什么。

能不能让模型从这些视频里学到"世界是怎么运作的”,然后把这种物理直觉迁移到机器人控制上?

在《世界模型之争》里,我们详细讨论过这条路线。LeCun 的 JEPA、DeepMind 的 Genie、李飞飞的 World Labs——它们押的都是同一件事:视频是世界模型的训练数据

对于机器人来说,这条路线的愿景是:先用视频训练一个理解物理世界的"世界模型",然后让这个世界模型成为 VLA 的"想象力引擎"——在做动作之前,先在心里模拟一下结果。

这条路目前还不成熟,但方向是清楚的。

数据飞轮

当机器人部署到真实环境中,它的每一次操作——无论成功还是失败——都是新的训练数据。

这就是数据飞轮:部署→收集数据→训练→更新模型→部署更好的版本→收集更多数据。

Tesla 在自动驾驶上已经把这个思路跑到了很大规模:车队在真实道路上持续产生遥测、视频片段和边缘案例,再回到训练系统里。这里不必纠结它到底每天回传多少 PB;重点是,自动驾驶已经有了一个持续扩大的现实世界数据入口。

机器人的数据飞轮还没真正转起来。原因很简单:部署量还太小。真正能在开放环境里干活的通用操作机器人,今天大多还在实验室、试点仓库和少量工厂里。和汽车级别的部署规模相比,差了不止一个数量级。

但飞轮的结构已经清楚了。一旦机器人开始大规模进入仓库和工厂,飞轮就会开始加速。


五、“GPT 时刻”——这个类比有多准确?

“机器人的 GPT 时刻"是一个吸引人的说法。但吸引人的说法往往会掩盖关键的差异。

让我们认真地对比一下。

相似之处

维度LLM 的 GPT 时刻机器人的 VLA 时刻
架构统一Transformer 统一了 NLP 各任务VLA 统一了感知-推理-动作
预训练→微调大规模文本预训练 → SFT/RLHF大规模多源数据预训练 → 任务微调
涌现能力推理、代码、常识Zero-shot 泛化、工具使用
数据 scalingCommon Crawl 万亿 tokenOpen X + 仿真 + 视频
开源生态Llama 开放后全生态爆发OpenVLA (7B) 开源,效果反超 55B 的 RT-2-X
迁移学习语言知识迁移到下游任务语言常识迁移到物理动作

OpenVLA 是这张表里值得特别标注的一行。它只有 7B 参数,完全开源,在 29 项任务的标准评测上以 16.5% 的绝对任务成功率优势反超了此前 55B 的 RT-2-X。训练数据来自 97 万条真实机器人演示。这和 Llama 开源后引发的生态爆发有结构性的相似——当模型足够好且开源时,整个社区都会加速。

关键差异

但相似之处说完,更重要的是差异。这些差异不是技术细节,而是根本性的。

差异一:LLM 的错误是文字,VLA 的错误是物理。

LLM 产生幻觉,最坏的结果是给你一个错误的答案。你可能浪费几分钟验证,然后说"这不对”。

VLA 产生幻觉,后果可能是机器人的手臂以不正确的力度砸向桌面、失去平衡摔倒、或者撞到旁边的人。

物理世界没有"撤回"键。

这意味着 VLA 的安全约束从根本上不同于 LLM。你不能简单地给机器人加一个"我不确定时就停下来"的指令——因为有时候停下来本身就是危险的(比如正在搬运一个重物时突然松手)。

这也是为什么机器人的 GPT 时刻不会像 ChatGPT 那样一夜爆发。ChatGPT 上线第一天就面向所有人开放,因为文字幻觉的后果是可控的。一个做家务的机器人不能这样部署——它需要经过漫长的安全验证。

差异二:LLM 的反馈来自人类,VLA 的反馈来自物理世界。

LLM 学会"听话"靠的是 RLHF——人类评估员给回答打分,模型根据分数调整行为。这个反馈环路是间接的、主观的、昂贵的。

但机器人摔了就是摔了。杯子碎了就是碎了。物理是最诚实的老师。

在《维纳没有想到的事》里,我们讲过一条贯穿整个系列的线索:

让模型进入世界,并让世界纠正它。

在 LLM 的世界里,这个"世界"是人类标注员。模型写了一段代码,人说"这不对",模型调整。

在 VLA 的世界里,这个"世界"就是物理现实本身。机器人抓杯子滑了,力传感器告诉它"力度不够",下一次它自己加力。

维纳 80 年前设想的反馈环路,在这里真正闭合了。不是通过人的判断,而是通过物理定律本身

差异三:信息空间 vs 物理空间。

LLM 在信息空间里行动。它的状态空间是离散的 token 序列。每一步都是可逆的——你可以重新生成、可以回退、可以在多个候选中选择。

VLA 在物理空间里行动。它的状态空间是连续的、高维的、不可逆的。你不能把碎了的杯子恢复原状。你不能让已经撞到桌角的手臂"回退"到三秒前。

物理空间还有 LLM 永远不需要面对的硬约束:动量守恒、能量守恒、摩擦、重力、碰撞。在《看见物理》系列里我们逐一讲过这些约束。LLM 可以用 temperature 参数调节输出的随机性。物理世界的 temperature 不由模型说了算。

差异四:本体多样性。

这是最容易被忽略但最深刻的差异。

LLM 只有一种"身体"——文本序列。所有的 LLM,无论 GPT、Llama 还是 DeepSeek,输入和输出格式都一样:token in,token out。

VLA 要面对的"身体"千差万别。

  • 单臂机器人:6-7 个自由度
  • 双臂机器人:12-14 个自由度
  • 人形机器人(如 Figure AI、Tesla Optimus):30+ 个自由度
  • 四足机器人(如波士顿动力 Spot):12 个自由度
  • 轮式移动底盘:2-3 个自由度

每换一种本体,动作空间完全不同。手臂的关节角度范围、夹爪的开合方式、移动底盘的运动学——这些不是可以简单归一化的。

这就像是让 LLM 不仅要生成英文、中文、代码,还要同时生成五线谱、化学结构式和建筑图纸——而且每种输出格式的物理约束完全不同。

Open X-Embodiment 数据集试图解决这个问题:把 22 种不同本体的数据放在一起训练,让模型学会某种跨本体的通用表示。但这还远远不够。如何让一个在双臂机器人上训练的技能迁移到人形机器人上,仍然是一个开放问题。

那么这个类比到底有多准确?

我的判断:这个类比在方向上是准确的,但在时间尺度上可能是误导的。

VLA 确实在重走 LLM 走过的路——架构统一、数据 scaling、预训练+微调、涌现能力、开源生态。它和 LLM 共享的不是个别技术,而是整套方法论

但机器人要跨越的鸿沟比 LLM 宽得多。LLM 只需要做到"说得对",VLA 需要做到"做得安全"。“说得对"的验证是廉价的(人类读一遍就知道),“做得安全"的验证是昂贵的(需要大量真实环境测试)。

所以机器人的 GPT 时刻可能更像是一个渐进的黎明,而不是 ChatGPT 那样的突然日出。


六、前方的路

通用化,不等于人形化

很多人会自然地把"通用机器人"理解成"人形机器人”。这个联想有道理,但不能画等号。

人形的优势,是适配人类世界。门把手、楼梯、柜子、工具、厨房台面,都是按人的身高、手臂、手指和两条腿设计的。如果你希望机器人直接进入现有家庭和办公室,人形是一条很有吸引力的路线。

但人形的代价也很高:平衡难、能耗高、控制复杂、机械维护成本高。很多任务根本不需要两条腿。一台仓库机器人如果只在平地移动,轮子比腿更可靠。一条产线如果只做焊接,固定机械臂比人形更便宜、更快、更精准。

所以机器人未来大概率不是一条路,而是两层结构:

  • 底层身体继续分化:机械臂、移动底盘、四足、人形、手术机器人,各自服务不同场景。
  • 上层模型逐渐通用:视觉、语言、任务规划、物体关系、动作结果,这些能力尽量由同一类基础模型共享。

一句话:通用不是形状统一,而是认知和任务层的统一。

这也解释了为什么 VLA 是主线。它不是要把所有机器人都做成人,而是要让不同身体都能接入同一套"看懂世界、听懂指令、规划行动"的模型方法。

近期(2026–2028)

第一批大规模落地的场景,大概率还是仓库和工厂

原因很简单:这些环境半结构化——物品种类虽多但有限,操作流程标准,对速度和精度的要求明确,安全边界可控。亚马逊、Agility Robotics 的 Digit、Apptronik 的 Apollo 已经在这些场景里做测试。

家用机器人仍然受限于两个瓶颈:

  1. 成本。当前能做复杂操作的人形机器人,还处在样机、试点和小批量阶段。即使未来价格降到汽车区间,大多数家庭也不会为一台"会倒水但有时打碎杯子"的机器人买单。
  2. 安全。工厂里可以用围栏把人和机器人隔开。家里不行。一个和老人、孩子共处一室的机器人,容错率必须极低。

中期(2028–2032)

机器人可能迎来自己的"App Store 时刻”。

通用底座模型 + 任务微调——就像 iOS 是通用操作系统、App 是垂直功能。一个通用的 VLA 底座模型处理基础的看、听、抓、走,上层的"App"负责特定任务:清洁、分拣、烹饪、辅助康复。

这条路和 LLM 生态的演化路径高度一致:GPT 是底座、AutoGPT/LangChain 是中间件、各种 Agent 是 App。

另一个中期趋势是 VLA 和世界模型的融合

今天的 VLA 是反应式的——它看到当前画面,输出当前动作。它不会在心里"模拟"一下"如果我这样抓会不会滑落"。

但如果把世界模型集成进来,机器人就能"先想后做"——在行动之前,用世界模型在内部模拟几个方案,选一个最可靠的再执行。这正是 LeCun 的 JEPA 路线和 VLA 路线最终融合的地方。

长期思考

如果我们把视野拉到更远的地方,一个有趣的对称性浮现了:

LLM 压缩了人类的文字知识。VLA 正在尝试压缩人类的操作知识。

在《压缩即是全部》里,我们引用过菲尔兹奖得主 Terence Tao 的看法:理解就是压缩。一个 LLM 把互联网的文字压缩成了一组权重,在解压时涌现出看起来像"理解"的行为。

VLA 正在做同样的事情,只不过压缩的对象不同:不是人类写下的文字,而是人类身体做出的动作——抓取、搬运、折叠、拧开、插入、按压。

如果压缩即智能,那操作知识的压缩将带来一种全新形态的"智能"——不是能说会道的智能,而是能做会做的智能。

两者合起来——一个理解语言的大脑,加上一个能操作物理世界的身体——才是一个完整的"在世界中行动的智能体"。

但我要在这里加一个诚实的限定。

机器人的 GPT 时刻不会像 ChatGPT 那样一夜爆发。ChatGPT 的用户是每一个能打字的人。机器人的第一批用户是仓库管理员和工厂主管。从实验室到仓库到家庭,每一步都需要解决安全、成本和可靠性问题。

ChatGPT 上线五天,用户破百万。

机器人破百万台家用部署,可能要五到十年,甚至更久。

但这不意味着机器人的 GPT 时刻不重要。恰恰相反——因为它难,所以它一旦到来,改变的将不只是屏幕上的文字,而是物理世界本身


回到那两个画面

传统焊接机器人和 2026 年的 VLA 机器人,技术谱系上都叫"机器人",思想上却隔了一整个范式。

前者的智能来自工程师写下的每一行规则。每一个焊点的位置、每一段运动的速度,都是人在示教器上一步一步录入的。换一个零件就要重来。

后者的智能来自数据、来自梯度、来自那个在 LLM 上已经被验证过的古老信念——

如果你给机器足够多的例子,它会自己学会。

这个信念先在语言上被验证了。ChatGPT 学会了写诗、写代码、解释量子力学。

现在它正在动作上被验证。π0、π0.7 这类模型开始学会叠衣服、清理桌子、把碗放进洗碗机。

《维纳没有想到的事》里我们说过:维纳给了 AI 一条反馈神经。

《马尔可夫的幽灵》里我们说过:马尔可夫给了 AI 一个"此刻"。

Shannon 给了 AI 一只耳朵——让它听见信息。

Transformer 给了 AI 一个大脑——让它理解语言。

扩散模型给了 AI 一支画笔——让它生成图像。

现在,VLA 正在给 AI 一双手。

从会聊天到会干活,中间差的不是一个按钮,而是一整个物理世界。

一双能看、能听、能抓、能放、能在陌生的厨房里完成一个从没被编程过的任务的手。

这双手还很笨拙。它的力度还不稳定,它的步态还不优雅,它对边缘情况的处理还远不如一个三岁的孩子。

但方向已经清楚了。

剩下的是时间、数据和工程。

这三样东西不浪漫,但最可靠。


本公众号延伸阅读

  • 《AI 的十字路口》——VLA 家谱和"大脑/小脑"双系统架构的首次介绍
  • 《世界模型之争 —— LLM 到底懂不懂这个世界?》——LeCun、JEPA、世界模型路线的深度讨论
  • 《维纳没有想到的事——从防空炮到 ChatGPT,反馈如何变成智能》——控制论和反馈环路的思想史
  • 《马尔可夫的幽灵——从预测下一个词到预测下一步行动》——“状态决定下一步"的数学基础
  • 《AI 到底是怎么看图、懂图、画图的?——从 LLM 到多模态的架构地图》——视觉编码器和多模态架构
  • 《从噪声中看见猫——扩散模型的数学美学》——扩散/流匹配的数学框架
  • 《大理石假说——为什么微调不是在教 AI 新东西》——预训练和迁移学习的本质
  • 《万物皆向量——当 AI 选择用数学理解世界》——Embedding 和向量化思维
  • 《压缩即是全部 —— 菲尔兹奖得主给数学和 AI 的一封信》——压缩即智能
  • 《看见物理》系列——动量、能量、熵、对称性与物理约束

主要参考与延伸

  • Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale, arXiv:2212.06817, 2022
  • Brohan et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, arXiv:2307.15818, 2023
  • Open X-Embodiment Collaboration, Open X-Embodiment: Robotic Learning Datasets and RT-X Models, arXiv:2310.08864, 2023
  • Kim et al., OpenVLA: An Open-Source Vision-Language-Action Model, arXiv:2406.09246, 2024
  • Black et al., π0: A Vision-Language-Action Flow Model for General Robot Control, arXiv:2410.24164, 2024
  • Physical Intelligence, π0.5: Open-world generalization for robot foundation models, 2025
  • Physical Intelligence, FAST: Efficient Action Tokenization for Vision-Language-Action Models, 2025
  • Physical Intelligence, π-star 0.6: a VLA That Learns From Experience, 2025
  • Physical Intelligence, π0.7: a Steerable Model with Emergent Capabilities, 2026
  • Google DeepMind, Gemini Robotics 1.5 and Gemini Robotics-ER 1.6, 2025-2026
  • NVIDIA, Isaac GR00T N-series robot foundation models, 2025-2026
  • Ahn et al., Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan), arXiv:2204.01691, 2022
  • Figure AI, Helix: A Vision-Language-Action Model for Humanoid Robot Control, 2025
  • International Federation of Robotics, World Robotics 2025
  • IFR / ISO 8373:2021 robotics vocabulary and industrial/service/medical robot definitions
  • ROS 2 documentation: topics, services, actions; URDF robot description format; MoveIt and ros2_control documentation
  • Moravec, H., Mind Children: The Future of Robot and Human Intelligence, Harvard University Press, 1988
  • LeCun, Y., A Path Towards Autonomous Machine Intelligence, Open Review, 2022
  • Lipman et al., Flow Matching for Generative Modeling, arXiv:2210.02747, 2022