机器人的 GPT 时刻：从会聊天到会干活

你可能见过这两个画面。

画面一。 一座汽车工厂的焊接车间。六台橙色的工业机械臂排成一排，以每秒数十次的频率精确地在白色车身上打出焊点。误差在 0.01 毫米以内。每一台的运动轨迹都是工程师用示教器一步一步录制的，或者用离线编程软件一条一条规划的。换一个车型、换一个零件、甚至把零件位置挪了三厘米——整条产线要停下来，重新编程，重新调试。三天起步。

画面二。 2024 年末，一段来自 Physical Intelligence 的演示视频。一台双臂机器人站在一个普通家庭厨房里。人用自然语言说了一句：

“把桌上的脏碗放进洗碗机。”

机器人低头看了看桌面，识别出碗和残余食物。它伸出左手稳住碗，右手抓住碗沿，抬起来，走到洗碗机前，用右手拉开洗碗机门，弯腰把碗放进碗篮，然后关上门。

这不是一条传统产线上的固定脚本。至少在演示条件下，它面对的是一个新场景、新物体、新家具组合。

第一个机器人精确但脆弱。

第二个机器人笨拙但通用。

从精确到通用，中间发生了什么？

一句话回答：AI 不只是在学会聊天，它正在学会干活。

在《AI 的十字路口》里，我们用两页篇幅画了一棵族谱树：RT-1、RT-2、OpenVLA、π0、Figure Helix，把这条技术路线的家谱快速勾勒了出来。那篇文章的结论是：

视觉语言模型是「大脑」，动作模型是「小脑」，两者通过一个低维瓶颈对话。

但族谱树只告诉你"谁生了谁"。

这篇文章要做的是：走进树干，看看里面的年轮。

一、为什么机器人一直"不够聪明"

先承认一个事实：机器人技术并不新。

1961 年，通用汽车在新泽西的工厂部署了世界上第一台工业机器人 Unimate。它能抓起热铸件并按照预定路径放置——那是 65 年前的事。

从那时起，机器人在工厂里的表现堪称完美：焊接、喷漆、搬运、装配。国际机器人联合会（IFR）的 World Robotics 2025 统计显示，2024 年全球在运行工业机器人约 466 万台。

这里先拆一个很容易混在一起的问题：机器人，不等于人形机器人。

我们平时一听"机器人"，脑子里冒出来的往往是《变形金刚》、C-3PO、擎天柱，或者最近很火的人形机器人。但在专业语境里，机器人这个词要宽得多。工业机械臂是机器人，仓库里的自主移动机器人（AMR）小车是机器人，手术机器人是机器人，四足机器狗是机器人，无人机在很多场景里也会被放进机器人系统讨论。

分类也不止一种。

按应用分：工业机器人、服务机器人、医疗机器人、物流机器人、农业机器人。
按身体形态分：机械臂、轮式移动平台、四足机器人、双臂移动操作平台、人形机器人。
按智能程度分：固定脚本设备、半自主系统、具备一定泛化能力的通用机器人。

所以，这篇文章里的"机器人 GPT 时刻"，不是在说所有机器人都会变成人形，也不是说机械臂这种东西已经过时了。它真正讨论的是：机器人正在从专用自动化机器，走向能看环境、懂指令、改动作的具身智能体。

人形只是其中一种外壳。它很吸引眼球，因为人类的房子、楼梯、门把手、工具，本来就是为人类身体设计的。但如果任务是在平整仓库里搬箱子，轮式底盘加机械臂可能比两条腿更便宜、更稳定、更好维护。机器人最终长什么样，不该由科幻片决定，而该由任务决定。

也顺便把"具身"说清楚。具身智能不是"长得像人"，而是一个智能系统有自己的身体，有传感器，有执行器，能在真实或仿真的世界里行动，并从行动结果里得到反馈。

一台双臂机器人在厨房里看见盘子、伸手抓取、抓滑了再调整力度，它是具身的。

一个人形机器人站在那里只会播报天气，它反而没多少具身智能。

关键不是有没有脸、有没有腿，而是有没有这个闭环：

看见世界 → 做出动作 → 世界改变 → 再看见结果 → 调整下一步

这也是为什么机器人不像纯软件 AI 那样，只要模型变大就能快速扩散。它一半是 AI，一半是机械、传感器、控制、材料、成本和安全。

但也正因为如此，一旦 LLM/VLM 这套通用模型方法进入机器人，机器人就不再只是"机械工程的另一条分支"。它开始接入 AI 主线：用大模型理解世界，用数据学习动作，用反馈继续进化。

问题是，走出工厂，进入家庭、医院、餐厅、仓库这些非结构化环境，机器人的表现就断崖式下跌。

为什么？

传统范式：感知→规划→执行

过去几十年，机器人的智能系统几乎都遵循同一个三段式架构：

感知模块 → 规划模块 → 执行模块

感知：用摄像头或激光雷达获取环境信息，靠手写特征或简单 CNN 识别目标物体的类别和位置。
规划：用运动学求解器（RRT、A* 等）在已知地图上计算一条从 A 到 B 的路径，同时避开障碍物。
执行：用 PID 控制器让关节精确跟踪规划好的轨迹。

这三个模块各自独立，由人工规则连接。感知告诉规划"杯子在哪"，规划告诉执行"走这条路"，执行让电机转到位。

在工厂里，这套范式工作得很好。因为工厂的环境是结构化的：零件的形状已知、位置固定、光照恒定、地面平整。感知几乎不需要"理解"，只需要"定位"。

但真实世界不是工厂。

Moravec 悖论

1988 年，卡内基梅隆大学的 Hans Moravec 说了一句后来成为经典的话：

“让计算机在智力测验或下棋中表现出成人水平的能力，相对容易；但要让它拥有一岁婴儿的感知和运动能力，却难得多，甚至不可能。”

这就是 Moravec 悖论。

下棋的状态空间虽然大，但它是离散的、完全可观察的、规则明确的。你可以搜索所有合法走法，用评估函数给每一步打分。

但"从桌上拿起一个杯子"这件事：

杯子可能是透明的、有花纹的、沾了水的、半满的、没有把手的。
桌面可能是湿的、倾斜的、堆满杂物的。
抓取力度太大会捏碎，太小会滑落。
杯子里如果有液体，抬起的角度和速度都要调整。
旁边如果有人，还要注意不碰到。

每一个细节都是一个维度。这些维度的组合是天文数字。用规则描述"如何抓住一个任意形状的杯子"，比证明数学定理还难。

在《维纳没有想到的事》里，我们讲过控制论的核心洞见：一个在时间中行动的系统，必须听见自己行动后的回声。反馈是智能的必要条件。

维纳的反馈环路是对的思路。但他那个时代的反馈，是基于明确的传感器信号和数学模型的——温度传感器读数偏高 2°C，控制器减小加热功率。信号明确，模型已知。

真实世界不是这样。你没法给"厨房里有一只猫挡在洗碗机前"写一个控制方程。

在《马尔可夫的幽灵》里，我们讲过另一个基础：状态决定下一步。这在棋盘上成立，因为棋盘的状态是离散的、完全可观察的。

但机器人面对的状态，是连续的、高维的、部分可观察的——你只能通过有限的摄像头和传感器看到世界的一个切面。

所以传统机器人卡了几十年，不是因为电机不够快、传感器不够精。而是因为感知→规划→执行这套范式，本质上是在用规则逼近一个规则覆盖不了的世界。

需要一种新的方法。

传统机器人 vs VLA 架构对比

这种方法在 2022 年开始出现。

二、LLM 给机器人带来了什么

2022 年是一个分水岭，不只是因为 ChatGPT。

在机器人领域，同年发生了一件事：Google Research 发表了 SayCan。

SayCan：语言常识第一次指挥机器人

SayCan 的想法极其简单：

人用自然语言对机器人说一句话，比如"我把饮料洒在桌上了，能帮我处理一下吗？"

一个 LLM（当时是 PaLM）把这句话拆解成一个步骤序列：

1. 找到海绵
2. 拿起海绵
3. 走到桌子前
4. 擦拭桌面
5. 把海绵放回原处

然后，机器人逐步执行这些步骤。每一个步骤都由一个预先训练好的小技能策略完成——“拿起 X"“走到 Y"“放下 Z"这些基本动作是事先教好的。

LLM 不控制关节。它只做一件事：把自然语言里的常识，翻译成机器人能执行的步骤序列。

这一步很重要，但要说清楚：SayCan 还不是今天意义上的 VLA。它更像一个会说人话的调度员，站在一堆固定技能旁边，帮机器人决定先做哪一步、后做哪一步。

但 SayCan 有一个明显的局限：它的低层技能是固定的。LLM 只能从一个预定义的技能库里选技能。如果库里没有"打开洗碗机门"这个技能，LLM 再聪明也没用。

接下来的两步，才是真正的范式转变。

RT-1：把视觉、语言和动作塞进一个 Transformer

2022 年底，Google 发表了 RT-1（Robotics Transformer 1）。

RT-1 使用了约 13 万条真实机器人操作轨迹——不是仿真数据，是真机在真实办公室厨房里抓取、放置、开抽屉的完整录像和动作记录。

然后，它把视觉（摄像头画面）、语言（自然语言指令）和动作（末端执行器位姿、夹爪状态等可执行命令）一起塞进了一个 Transformer。

输入：当前看到的画面 + “把可乐罐放到右边”

输出：下一个时间步的动作命令

它把机器人从"LLM 调度技能库"往前推了一步：不再只是让语言模型发号施令，而是让模型直接从看见和听懂，走到下一步动作。

但 RT-1 的泛化能力有限。它在训练时见过的物体和指令上表现很好，遇到新物体就会困惑。模型参数量也不大，还没法吃到语言预训练的红利。

RT-2：把动作变成 token

2023 年 7 月，DeepMind 发表了 RT-2（Robotics Transformer 2），这是一个关键突破。

RT-2 的核心创新只有一个，但这一个就够了：

把机器人的动作编码成 token，和文字 token 放在同一个序列里。

具体来说：一个连续的动作（比如"手臂向前移动 5cm、向下移动 2cm、夹爪闭合到 60%"）被离散化成一串数字 token，就像"256 128 60"这样。这些数字 token 被追加到文本 token 的后面，让一个视觉语言模型"顺便"输出它们。

为什么这很重要？

因为这意味着一个在互联网上预训练过的大型视觉语言模型（RT-2 使用了 PaLI-X 55B 和 PaLM-E 12B 两个变体），不需要从零学习常识——它在语言里已经知道"垃圾应该扔进垃圾桶"“脏碗应该放进水槽"这些关系。当你把动作变成 token，这些常识就可以直接迁移到物理动作上。

RT-2 的论文里有一个令人印象深刻的实验：它在训练数据里从来没有见过"把垃圾扔进垃圾桶"这条指令和对应的轨迹。但当人给它这个指令时，它做到了——因为它在语言里知道垃圾和垃圾桶的关系。

在《大理石假说》里我们讲过：微调不是在教 AI 新东西，而是在激活预训练中已经获得的能力。RT-2 做的事情本质一样：预训练的视觉语言模型已经"知道"世界长什么样，动作 token 只是给它开了一个新的输出通道。

在《万物皆向量》里我们讲过：Embedding 的力量在于把万物变成向量空间里的点，让距离和方向有了语义含义。RT-2 做的是同一件事的延伸：动作先被离散化成模型能生成的符号，再通过 embedding 进入同一个 Transformer 计算图。 关节角度、末端执行器位姿，不再只是控制器里的连续数值，也成了模型可以预测的"下一批 token”。

但这里要补一个重要限定：动作 token 不是机器人的世界语。

文字 token 有一个天然优势：同一句"把杯子拿起来”，无论 GPT、Claude 还是 DeepSeek，面对的都是差不多的文本序列。图像 token 也相对统一：图片可以切成 patch，声音可以切成频谱片段。

动作不一样。动作必须落到具体身体上。

一台 7 自由度机械臂的"向前 5cm”，和一台双臂机器人、四足机器人、人形机器人、轮式底盘的"向前”，不是同一种底层控制。它们的关节数量不同，运动学不同，力矩限制不同，夹爪也不同。把动作变成 token，只是把某一种机器人在某一种控制接口下的动作，翻译成模型能预测的离散符号。

机器人行业当然有标准和通用工具。ROS/ROS 2 负责消息、服务、动作这些软件通信接口；URDF 用来描述机器人的连杆、关节和运动学结构；MoveIt、ros2_control 这类工具负责运动规划和控制接口。它们很重要，但它们解决的是"软件和硬件怎么接线"的问题，不是发明一种所有机器人都能直接执行的"统一动作语言"。

现在 VLA 研究真正想做的，是把通用性放在更高一层：

高层共享：任务、物体关系、语言意图、动作结果。
低层适配：不同身体各自有动作头、控制器、坐标系和安全约束。

换句话说，通用机器人不是"所有身体都用同一串关节 token"。通用性的核心是：不同身体能不能共享"我要把杯子放进水槽"这个意图，以及"杯子最终应该在哪里、姿态应该怎样、过程中不能碰什么"这些任务结构。

这也是为什么 Open X-Embodiment 这类跨本体数据集、FAST 这类更好的动作 tokenizer、以及各种 embodiment adapter 会变得重要。大家都在试图回答同一个问题：能不能让不同身体，在高层理解上共用一个大脑，在低层动作上各自长出自己的小脑。

从 RT-1 到 RT-2，表面上只是模型变大了、预训练数据变多了。但底层逻辑发生了质变：

机器人的智能来源，从"手工编程的规则"变成了"从语言中迁移的常识"。

这就是 VLA——Vision-Language-Action——这个名字的由来。

VLA 演进时间线

三、VLA 架构拆解——从看见到动手

现在让我们打开 VLA 的引擎盖，看看里面的零件。

一个典型的 VLA 模型由三个模块组成：

VLA 架构拆解图

可以把它简单理解成一句话：视觉和语言先进入同一个推理骨架，动作头再把推理结果翻译成机器人能执行的命令。

视觉编码器：给机器人装眼睛

VLA 的视觉编码器和《AI 到底是怎么看图》里讲过的 VLM 视觉编码器，是同一套技术栈。

通常是一个预训练好的 Vision Transformer（ViT），比如：

SigLIP：Google 的对比学习视觉模型，和文本 Embedding 天然对齐。π0 用的就是这个。
DINOv2：Meta 的自监督视觉模型，不需要文本配对数据就能学到强视觉特征。

视觉编码器把一帧摄像头画面（比如 224×224 像素）切成若干 patch，每个 patch 变成一个视觉 token。这些视觉 token 和语言 token 一起送进骨架模型。

关键点：视觉编码器通常是冻结的或只做轻微微调。它在大规模图文数据上已经学好了视觉特征，VLA 训练时只需要调整它和动作之间的连接。

语言/推理骨架：大脑

骨架通常是一个预训练好的视觉语言模型（VLM），比如：

PaliGemma（Google）：SigLIP 视觉编码器 + Gemma 2B 语言模型，π0 的底座。
Prismatic-7B：OpenVLA 用的底座，基于 Llama 2 语言模型 + DINOv2 和 SigLIP 双视觉编码器。
Qwen-VL：阿里的视觉语言模型，中国 VLA 研究常用。

骨架承担两个职责：

理解自然语言指令（“把红色杯子放到盘子上”）
融合视觉信息和语言信息，做出推理（看到桌上有两个杯子，红色的在左边）

但骨架有一个天然的局限：它太慢了。

一个 7B 参数的 VLM，从输入到输出第一个 token，在消费级 GPU 上要几百毫秒。而机器人的关节控制循环，典型频率是 50–200 Hz——每 5 到 20 毫秒就要输出一个动作。

这就引出了 VLA 最关键的创新——动作头。

动作头：从思考到动手

动作头是 VLA 和普通 VLM 的本质区别。VLM 输出文字，VLA 输出能落到机器人身上的动作命令。

这个命令不一定直接是"关节角度和力矩"。在不同系统里，它可能是末端执行器位姿、夹爪开合、离散动作 token、连续动作轨迹，或者交给底层控制器继续细化的目标。关键不在格式，而在边界被打穿了：模型不再停在"我建议你拿起杯子"，而是开始输出"手该怎么动"。

目前有两种主流范式：

范式一：动作 token 化（自回归路线）

这是 RT-2 开创的路线。

把连续的动作量离散化——比如把末端执行器在 x 轴的位移从 [-0.1m, +0.1m] 均匀切成 256 份，每一份对应一个 token。这样，一个完整的动作（x、y、z 位移 + 旋转 + 夹爪开合）就变成了 7-8 个 token。

然后用自回归的方式一个一个输出这些 token，就像 LLM 生成文字一样。

优点：复用成熟的自回归 Transformer 架构，实现简单。

缺点：离散化损失精度，自回归输出有延迟累积，对精细操作（比如穿针引线）不够好。

范式二：流匹配/扩散动作头（连续路线）

这是 π0 代表的新路线。

在《从噪声中看见猫》里，我们讲过扩散模型的核心思想：先给干净数据加噪声，然后训练一个模型从噪声中恢复原始数据。

流匹配动作头做的是同样的事情，只不过恢复的不是一张图片，而是一条动作轨迹。

给定当前的视觉观测和语言指令，模型从一个随机噪声向量出发，通过一系列去噪步骤，生成未来若干个时间步的完整动作轨迹。

优点：输出是连续的，精度高。一次性生成多步轨迹（而不是一步一步自回归），速度更快。能表达多模态动作分布——当一个任务有多种合理的执行方式时（比如从左边绕过去还是从右边），流匹配能自然地表达这种多样性。

缺点：训练和推理的工程复杂度更高。

从扩散模型到流匹配动作头，数学框架是同一个，输出空间不同：一个生成像素，一个生成动作轨迹。这种跨领域的方法迁移，是深度学习最令人兴奋的特征之一。

π0：连续动作头把这条路推到台前

π0（读作"pi-zero"）是 Physical Intelligence 在 2024 年 10 月发布的模型。它不是第一个 VLA，但它把一个重要方向讲清楚了：机器人不一定要像 LLM 那样一个 token 一个 token 地吐动作，也可以一次生成一小段连续动作。

架构：

视觉编码器：SigLIP（冻结）
骨架：PaliGemma（SigLIP + Gemma 2B），预训练在大量图文数据上
动作头：流匹配，生成连续动作轨迹
输出频率：50 Hz

训练数据：

来自多种机器人本体的灵巧操作数据，包括单臂、双臂和移动操作平台
包含大量真实机器人操作轨迹（具体规模论文未完全披露）
加上互联网规模的图文预训练数据（通过 PaliGemma 继承）

关键能力：

泛化：在训练时没见过的物体和场景上也能工作。比如训练数据里没有某个具体厨房、某种具体碗，它仍然能利用视觉和语言常识生成合理动作。
跨本体迁移：在一种机器人上学到的技能，部分可以迁移到另一种机器人上。不同的手臂构型和夹爪形状，被映射到同一个动作表示空间。
长程任务：能执行包含多个步骤的复杂任务（开门→走进去→找到物体→拿起来→带回来），而不只是单步抓取。

Figure Helix：大脑和小脑的分工

Figure AI 在 2025 年 2 月发布的 Helix 模型，走了另一条路：显式的双系统架构。

慢系统（大脑）：一个 VLM，运行频率约 9 Hz。它理解语言指令、分析视觉场景、做出高层决策——“应该先拿哪个物体"“从哪个方向接近”。
快系统（小脑）：一个小型策略网络，运行频率 200 Hz。它接收慢系统的意图，生成精确的关节角度和扭矩。

两个系统通过一个低维瓶颈通信：慢系统输出的不是完整的轨迹，而是一个压缩的"意图向量”。快系统根据这个向量和实时的传感器反馈，自主完成高频控制。

这个架构有一个非常优雅的洞见，我们在《AI 的十字路口》和《看见物理（八·对称性）》里都提过：对称性意味着哪些维度可以被压缩掉。机器人和环境的耦合中，关节摩擦力、地面反作用力、指尖接触力矩——这些高频细节不需要"大脑"操心。大脑只需要给出目标和约束，小脑自己处理物理。

就像你走路时不需要意识去控制每一块肌肉——你的大脑决定"走到厨房"，你的小脑和脊髓处理平衡、步态、避障。

2025 之后：会想的模型，和会动的模型

如果只写到 π0 和 Helix，这篇文章就会少一块最近的拼图。

截至 2026 年 5 月，机器人基础模型的路线已经明显分叉。

第一条是 Physical Intelligence 这一支。 π0 证明了流匹配动作头能做通用操作，π0.5 又把重点推进到开放环境泛化：不是只在实验室桌面上抓固定物体，而是让机器人在更杂乱、更接近真实家庭和工作场景的环境里完成长任务。π0-FAST 则反过来改造"动作 token"本身，用频域压缩把高频动作序列变成更适合 Transformer 学习的离散 token。到 π-star 0.6 和 2026 年 4 月的 π0.7，这条线越来越重视一件事：让机器人从自己的经验、人类视频、语言指导和失败案例里继续学习，而不是永远等人类为每个任务重新采集一套演示数据。

第二条是 Google DeepMind 的 Gemini Robotics。 这条线的重点不是单纯让模型"手更巧"，而是把 Gemini 的视觉、语言、推理能力接到机器人身体上。到 Gemini Robotics 1.5 和 Gemini Robotics-ER 1.6，思路已经很清楚：一个模型负责 embodied reasoning，也就是看场景、拆任务、判断风险、必要时调用搜索或工具；另一个 VLA 或底层策略负责把计划落到动作上。

第三条是 NVIDIA 的 GR00T。 它更像一个工程平台路线：模型、仿真、数据生成、机器人厂商生态一起推进。从 GR00T N1、N1.6 到 2026 年 4 月的 N1.7，NVIDIA 押的是"开放模型 + 仿真 + 合成数据 + 人形机器人生态"。对人形机器人来说，这条线很关键，因为它不只问"模型会不会"，还问"数据怎么来、仿真怎么跑、不同厂商的身体怎么接进来"。

所以今天的 VLA，已经不是单一论文路线了。它正在变成一个分层系统：

会想的大脑：理解任务、拆步骤、判断风险
会动的小脑：生成连续动作、处理接触和反馈
会练习的身体：从仿真、视频、真机失败里积累经验

这也是"机器人 GPT 时刻"和 ChatGPT 最大的不同之一。ChatGPT 的突破主要发生在屏幕里；机器人的突破必须同时发生在模型、身体、传感器、仿真平台和真实部署里。

四、数据——机器人的互联网在哪里？

LLM 的 GPT 时刻，靠的是一个关键前提：有足够多的数据。

GPT-3 训练时看过约 3000 亿 token。GPT-4 之后，最强模型的训练细节越来越少公开，但大方向没有变：更多文本、更多代码、更多图像、更多合成数据，最后被压进一组权重里。

机器人要走同样的路，面对的第一个问题就是：

机器人操作的"互联网"在哪里？

没有人在网上上传过几万亿条"手臂向前移动 3cm、夹爪闭合到 70%“的数据。

这是机器人和 LLM 最大的结构性差异之一。LLM 的训练数据是人类数千年文明的副产品——我们天然地以文字形式记录知识。但人类的操作技能——怎么倒水、怎么叠衣服、怎么开门——大部分只存在于肌肉记忆里，从来没有被数字化过。

目前，机器人数据主要来自三条路。

机器人数据的三条路

第一条路：真机数据众包

2023 年 10 月，Google DeepMind 联合全球 21 家机构发布了 Open X-Embodiment 数据集。

这个数据集汇集了 22 种不同机器人本体（单臂、双臂、移动操作、人形等）的操作数据，来自 21 家机构的协作，覆盖 527 项技能、160,266 个任务，真实机器人轨迹达到百万级。

这像极了 LLM 当年拿全网文本拼语料的逻辑——从全球各个实验室收集数据，拼成一个足够大、足够多样的数据集。

但量级差距是真实的。公开可复用的机器人操作数据，和 LLM 训练用的文本、代码、图像语料，还不是一个数量级。

第二条路：仿真数据

如果真实世界的数据不够，能不能在虚拟世界里造？

这就是仿真（simulation）的路线。

NVIDIA 的 Isaac Sim、Google 的 MuJoCo、开源社区的 Genesis——这些物理仿真平台可以在虚拟环境中模拟机器人的操作。在仿真里，你可以一天跑几万小时的操作数据，而真机一天只能跑十几小时。

但仿真有一个根本性的问题：sim-to-real gap（仿真-真实差距）。

仿真里的物理不是真的物理。接触力学、摩擦系数、材料变形、光照变化——仿真都只能近似。一个在仿真里学会叠毛巾的策略，搬到真实机器人上可能完全失效——因为真实毛巾的柔软度、摩擦力、皱褶方式和仿真里完全不同。

缩小 sim-to-real gap 是当前机器人学习领域最活跃的工程挑战之一。主流方法包括：domain randomization（在仿真里随机化物理参数、光照、纹理，让策略学会对不确定性保持鲁棒）和 sim-to-real transfer（用少量真机数据微调仿真里训练好的策略）。

第三条路：从视频中学习

互联网上有数十亿小时的人类操作视频——YouTube 上的烹饪教程、工厂装配视频、维修指南、甚至游戏直播。

这些视频不包含机器人的动作标注（没有关节角度数据），但它们包含丰富的物理世界知识：物体在重力下怎么运动、推一下杯子它会怎么滑、叠衣服的步骤是什么。

能不能让模型从这些视频里学到"世界是怎么运作的”，然后把这种物理直觉迁移到机器人控制上？

在《世界模型之争》里，我们详细讨论过这条路线。LeCun 的 JEPA、DeepMind 的 Genie、李飞飞的 World Labs——它们押的都是同一件事：视频是世界模型的训练数据。

对于机器人来说，这条路线的愿景是：先用视频训练一个理解物理世界的"世界模型"，然后让这个世界模型成为 VLA 的"想象力引擎"——在做动作之前，先在心里模拟一下结果。

这条路目前还不成熟，但方向是清楚的。

数据飞轮

当机器人部署到真实环境中，它的每一次操作——无论成功还是失败——都是新的训练数据。

这就是数据飞轮：部署→收集数据→训练→更新模型→部署更好的版本→收集更多数据。

Tesla 在自动驾驶上已经把这个思路跑到了很大规模：车队在真实道路上持续产生遥测、视频片段和边缘案例，再回到训练系统里。这里不必纠结它到底每天回传多少 PB；重点是，自动驾驶已经有了一个持续扩大的现实世界数据入口。

机器人的数据飞轮还没真正转起来。原因很简单：部署量还太小。真正能在开放环境里干活的通用操作机器人，今天大多还在实验室、试点仓库和少量工厂里。和汽车级别的部署规模相比，差了不止一个数量级。

但飞轮的结构已经清楚了。一旦机器人开始大规模进入仓库和工厂，飞轮就会开始加速。

五、“GPT 时刻”——这个类比有多准确？

“机器人的 GPT 时刻"是一个吸引人的说法。但吸引人的说法往往会掩盖关键的差异。

让我们认真地对比一下。

相似之处

维度	LLM 的 GPT 时刻	机器人的 VLA 时刻
架构统一	Transformer 统一了 NLP 各任务	VLA 统一了感知-推理-动作
预训练→微调	大规模文本预训练 → SFT/RLHF	大规模多源数据预训练 → 任务微调
涌现能力	推理、代码、常识	Zero-shot 泛化、工具使用
数据 scaling	Common Crawl 万亿 token	Open X + 仿真 + 视频
开源生态	Llama 开放后全生态爆发	OpenVLA (7B) 开源，效果反超 55B 的 RT-2-X
迁移学习	语言知识迁移到下游任务	语言常识迁移到物理动作

OpenVLA 是这张表里值得特别标注的一行。它只有 7B 参数，完全开源，在 29 项任务的标准评测上以 16.5% 的绝对任务成功率优势反超了此前 55B 的 RT-2-X。训练数据来自 97 万条真实机器人演示。这和 Llama 开源后引发的生态爆发有结构性的相似——当模型足够好且开源时，整个社区都会加速。

关键差异

但相似之处说完，更重要的是差异。这些差异不是技术细节，而是根本性的。

差异一：LLM 的错误是文字，VLA 的错误是物理。

LLM 产生幻觉，最坏的结果是给你一个错误的答案。你可能浪费几分钟验证，然后说"这不对”。

VLA 产生幻觉，后果可能是机器人的手臂以不正确的力度砸向桌面、失去平衡摔倒、或者撞到旁边的人。

物理世界没有"撤回"键。

这意味着 VLA 的安全约束从根本上不同于 LLM。你不能简单地给机器人加一个"我不确定时就停下来"的指令——因为有时候停下来本身就是危险的（比如正在搬运一个重物时突然松手）。

这也是为什么机器人的 GPT 时刻不会像 ChatGPT 那样一夜爆发。ChatGPT 上线第一天就面向所有人开放，因为文字幻觉的后果是可控的。一个做家务的机器人不能这样部署——它需要经过漫长的安全验证。

差异二：LLM 的反馈来自人类，VLA 的反馈来自物理世界。

LLM 学会"听话"靠的是 RLHF——人类评估员给回答打分，模型根据分数调整行为。这个反馈环路是间接的、主观的、昂贵的。

但机器人摔了就是摔了。杯子碎了就是碎了。物理是最诚实的老师。

在《维纳没有想到的事》里，我们讲过一条贯穿整个系列的线索：

让模型进入世界，并让世界纠正它。

在 LLM 的世界里，这个"世界"是人类标注员。模型写了一段代码，人说"这不对"，模型调整。

在 VLA 的世界里，这个"世界"就是物理现实本身。机器人抓杯子滑了，力传感器告诉它"力度不够"，下一次它自己加力。

维纳 80 年前设想的反馈环路，在这里真正闭合了。不是通过人的判断，而是通过物理定律本身。

差异三：信息空间 vs 物理空间。

LLM 在信息空间里行动。它的状态空间是离散的 token 序列。每一步都是可逆的——你可以重新生成、可以回退、可以在多个候选中选择。

VLA 在物理空间里行动。它的状态空间是连续的、高维的、不可逆的。你不能把碎了的杯子恢复原状。你不能让已经撞到桌角的手臂"回退"到三秒前。

物理空间还有 LLM 永远不需要面对的硬约束：动量守恒、能量守恒、摩擦、重力、碰撞。在《看见物理》系列里我们逐一讲过这些约束。LLM 可以用 temperature 参数调节输出的随机性。物理世界的 temperature 不由模型说了算。

差异四：本体多样性。

这是最容易被忽略但最深刻的差异。

LLM 只有一种"身体"——文本序列。所有的 LLM，无论 GPT、Llama 还是 DeepSeek，输入和输出格式都一样：token in，token out。

VLA 要面对的"身体"千差万别。

单臂机器人：6-7 个自由度
双臂机器人：12-14 个自由度
人形机器人（如 Figure AI、Tesla Optimus）：30+ 个自由度
四足机器人（如波士顿动力 Spot）：12 个自由度
轮式移动底盘：2-3 个自由度

每换一种本体，动作空间完全不同。手臂的关节角度范围、夹爪的开合方式、移动底盘的运动学——这些不是可以简单归一化的。

这就像是让 LLM 不仅要生成英文、中文、代码，还要同时生成五线谱、化学结构式和建筑图纸——而且每种输出格式的物理约束完全不同。

Open X-Embodiment 数据集试图解决这个问题：把 22 种不同本体的数据放在一起训练，让模型学会某种跨本体的通用表示。但这还远远不够。如何让一个在双臂机器人上训练的技能迁移到人形机器人上，仍然是一个开放问题。

那么这个类比到底有多准确？

我的判断：这个类比在方向上是准确的，但在时间尺度上可能是误导的。

VLA 确实在重走 LLM 走过的路——架构统一、数据 scaling、预训练+微调、涌现能力、开源生态。它和 LLM 共享的不是个别技术，而是整套方法论。

但机器人要跨越的鸿沟比 LLM 宽得多。LLM 只需要做到"说得对"，VLA 需要做到"做得安全"。“说得对"的验证是廉价的（人类读一遍就知道），“做得安全"的验证是昂贵的（需要大量真实环境测试）。

所以机器人的 GPT 时刻可能更像是一个渐进的黎明，而不是 ChatGPT 那样的突然日出。

六、前方的路

通用化，不等于人形化

很多人会自然地把"通用机器人"理解成"人形机器人”。这个联想有道理，但不能画等号。

人形的优势，是适配人类世界。门把手、楼梯、柜子、工具、厨房台面，都是按人的身高、手臂、手指和两条腿设计的。如果你希望机器人直接进入现有家庭和办公室，人形是一条很有吸引力的路线。

但人形的代价也很高：平衡难、能耗高、控制复杂、机械维护成本高。很多任务根本不需要两条腿。一台仓库机器人如果只在平地移动，轮子比腿更可靠。一条产线如果只做焊接，固定机械臂比人形更便宜、更快、更精准。

所以机器人未来大概率不是一条路，而是两层结构：

底层身体继续分化：机械臂、移动底盘、四足、人形、手术机器人，各自服务不同场景。
上层模型逐渐通用：视觉、语言、任务规划、物体关系、动作结果，这些能力尽量由同一类基础模型共享。

一句话：通用不是形状统一，而是认知和任务层的统一。

这也解释了为什么 VLA 是主线。它不是要把所有机器人都做成人，而是要让不同身体都能接入同一套"看懂世界、听懂指令、规划行动"的模型方法。

近期（2026–2028）

第一批大规模落地的场景，大概率还是仓库和工厂。

原因很简单：这些环境半结构化——物品种类虽多但有限，操作流程标准，对速度和精度的要求明确，安全边界可控。亚马逊、Agility Robotics 的 Digit、Apptronik 的 Apollo 已经在这些场景里做测试。

家用机器人仍然受限于两个瓶颈：

成本。当前能做复杂操作的人形机器人，还处在样机、试点和小批量阶段。即使未来价格降到汽车区间，大多数家庭也不会为一台"会倒水但有时打碎杯子"的机器人买单。
安全。工厂里可以用围栏把人和机器人隔开。家里不行。一个和老人、孩子共处一室的机器人，容错率必须极低。

中期（2028–2032）

机器人可能迎来自己的"App Store 时刻”。

通用底座模型 + 任务微调——就像 iOS 是通用操作系统、App 是垂直功能。一个通用的 VLA 底座模型处理基础的看、听、抓、走，上层的"App"负责特定任务：清洁、分拣、烹饪、辅助康复。

这条路和 LLM 生态的演化路径高度一致：GPT 是底座、AutoGPT/LangChain 是中间件、各种 Agent 是 App。

另一个中期趋势是 VLA 和世界模型的融合。

今天的 VLA 是反应式的——它看到当前画面，输出当前动作。它不会在心里"模拟"一下"如果我这样抓会不会滑落"。

但如果把世界模型集成进来，机器人就能"先想后做"——在行动之前，用世界模型在内部模拟几个方案，选一个最可靠的再执行。这正是 LeCun 的 JEPA 路线和 VLA 路线最终融合的地方。

长期思考

如果我们把视野拉到更远的地方，一个有趣的对称性浮现了：

LLM 压缩了人类的文字知识。VLA 正在尝试压缩人类的操作知识。

在《压缩即是全部》里，我们引用过菲尔兹奖得主 Terence Tao 的看法：理解就是压缩。一个 LLM 把互联网的文字压缩成了一组权重，在解压时涌现出看起来像"理解"的行为。

VLA 正在做同样的事情，只不过压缩的对象不同：不是人类写下的文字，而是人类身体做出的动作——抓取、搬运、折叠、拧开、插入、按压。

如果压缩即智能，那操作知识的压缩将带来一种全新形态的"智能"——不是能说会道的智能，而是能做会做的智能。

两者合起来——一个理解语言的大脑，加上一个能操作物理世界的身体——才是一个完整的"在世界中行动的智能体"。

但我要在这里加一个诚实的限定。

机器人的 GPT 时刻不会像 ChatGPT 那样一夜爆发。ChatGPT 的用户是每一个能打字的人。机器人的第一批用户是仓库管理员和工厂主管。从实验室到仓库到家庭，每一步都需要解决安全、成本和可靠性问题。

ChatGPT 上线五天，用户破百万。

机器人破百万台家用部署，可能要五到十年，甚至更久。

但这不意味着机器人的 GPT 时刻不重要。恰恰相反——因为它难，所以它一旦到来，改变的将不只是屏幕上的文字，而是物理世界本身。

回到那两个画面

传统焊接机器人和 2026 年的 VLA 机器人，技术谱系上都叫"机器人"，思想上却隔了一整个范式。

前者的智能来自工程师写下的每一行规则。每一个焊点的位置、每一段运动的速度，都是人在示教器上一步一步录入的。换一个零件就要重来。

后者的智能来自数据、来自梯度、来自那个在 LLM 上已经被验证过的古老信念——

如果你给机器足够多的例子，它会自己学会。

这个信念先在语言上被验证了。ChatGPT 学会了写诗、写代码、解释量子力学。

现在它正在动作上被验证。π0、π0.7 这类模型开始学会叠衣服、清理桌子、把碗放进洗碗机。

《维纳没有想到的事》里我们说过：维纳给了 AI 一条反馈神经。

《马尔可夫的幽灵》里我们说过：马尔可夫给了 AI 一个"此刻"。

Shannon 给了 AI 一只耳朵——让它听见信息。

Transformer 给了 AI 一个大脑——让它理解语言。

扩散模型给了 AI 一支画笔——让它生成图像。

现在，VLA 正在给 AI 一双手。

从会聊天到会干活，中间差的不是一个按钮，而是一整个物理世界。

一双能看、能听、能抓、能放、能在陌生的厨房里完成一个从没被编程过的任务的手。

这双手还很笨拙。它的力度还不稳定，它的步态还不优雅，它对边缘情况的处理还远不如一个三岁的孩子。

但方向已经清楚了。

剩下的是时间、数据和工程。

这三样东西不浪漫，但最可靠。

本公众号延伸阅读

《AI 的十字路口》——VLA 家谱和"大脑/小脑"双系统架构的首次介绍
《世界模型之争 —— LLM 到底懂不懂这个世界？》——LeCun、JEPA、世界模型路线的深度讨论
《维纳没有想到的事——从防空炮到 ChatGPT，反馈如何变成智能》——控制论和反馈环路的思想史
《马尔可夫的幽灵——从预测下一个词到预测下一步行动》——“状态决定下一步"的数学基础
《AI 到底是怎么看图、懂图、画图的？——从 LLM 到多模态的架构地图》——视觉编码器和多模态架构
《从噪声中看见猫——扩散模型的数学美学》——扩散/流匹配的数学框架
《大理石假说——为什么微调不是在教 AI 新东西》——预训练和迁移学习的本质
《万物皆向量——当 AI 选择用数学理解世界》——Embedding 和向量化思维
《压缩即是全部 —— 菲尔兹奖得主给数学和 AI 的一封信》——压缩即智能
《看见物理》系列——动量、能量、熵、对称性与物理约束

主要参考与延伸

Brohan et al., RT-1: Robotics Transformer for Real-World Control at Scale, arXiv:2212.06817, 2022
Brohan et al., RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control, arXiv:2307.15818, 2023
Open X-Embodiment Collaboration, Open X-Embodiment: Robotic Learning Datasets and RT-X Models, arXiv:2310.08864, 2023
Kim et al., OpenVLA: An Open-Source Vision-Language-Action Model, arXiv:2406.09246, 2024
Black et al., π0: A Vision-Language-Action Flow Model for General Robot Control, arXiv:2410.24164, 2024
Physical Intelligence, π0.5: Open-world generalization for robot foundation models, 2025
Physical Intelligence, FAST: Efficient Action Tokenization for Vision-Language-Action Models, 2025
Physical Intelligence, π-star 0.6: a VLA That Learns From Experience, 2025
Physical Intelligence, π0.7: a Steerable Model with Emergent Capabilities, 2026
Google DeepMind, Gemini Robotics 1.5 and Gemini Robotics-ER 1.6, 2025-2026
NVIDIA, Isaac GR00T N-series robot foundation models, 2025-2026
Ahn et al., Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan), arXiv:2204.01691, 2022
Figure AI, Helix: A Vision-Language-Action Model for Humanoid Robot Control, 2025
International Federation of Robotics, World Robotics 2025
IFR / ISO 8373:2021 robotics vocabulary and industrial/service/medical robot definitions
ROS 2 documentation: topics, services, actions; URDF robot description format; MoveIt and ros2_control documentation
Moravec, H., Mind Children: The Future of Robot and Human Intelligence, Harvard University Press, 1988
LeCun, Y., A Path Towards Autonomous Machine Intelligence, Open Review, 2022
Lipman et al., Flow Matching for Generative Modeling, arXiv:2210.02747, 2022

一、为什么机器人一直"不够聪明"#

传统范式：感知→规划→执行#

Moravec 悖论#

二、LLM 给机器人带来了什么#

SayCan：语言常识第一次指挥机器人#

RT-1：把视觉、语言和动作塞进一个 Transformer#

RT-2：把动作变成 token#

三、VLA 架构拆解——从看见到动手#

视觉编码器：给机器人装眼睛#

语言/推理骨架：大脑#

动作头：从思考到动手#

π0：连续动作头把这条路推到台前#

Figure Helix：大脑和小脑的分工#

2025 之后：会想的模型，和会动的模型#

四、数据——机器人的互联网在哪里？#

第一条路：真机数据众包#

第二条路：仿真数据#

第三条路：从视频中学习#

数据飞轮#

五、“GPT 时刻”——这个类比有多准确？#

相似之处#

关键差异#

那么这个类比到底有多准确？#

六、前方的路#

通用化，不等于人形化#

近期（2026–2028）#

中期（2028–2032）#

长期思考#

回到那两个画面#

本公众号延伸阅读#

主要参考与延伸#