谁给了 AI 一双眼睛——从 CLIP 到开源军备竞赛
2021 年 OpenAI 发布 CLIP,让 AI 第一次’看懂’了图片。但它公开了模型权重,却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据,Google 发明了新的训练方法,Meta 证明不需要文字也能学会看……一个模型的开源,如何改变了整个视觉 AI 生态?‘开源’到底意味着什么?
2021 年 OpenAI 发布 CLIP,让 AI 第一次’看懂’了图片。但它公开了模型权重,却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据,Google 发明了新的训练方法,Meta 证明不需要文字也能学会看……一个模型的开源,如何改变了整个视觉 AI 生态?‘开源’到底意味着什么?
多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?
1906 年,一位被整个学术界否定的物理学家在杜伊诺的度假村永远闭上了眼睛。他的墓碑上只刻了一个公式:S = k ln W。120 年后,这个公式每天在全球数十亿次 AI 推理中被执行——以 Softmax 的名义。
二战时期,数学家诺伯特·维纳研究一个残酷的问题:飞机一直在动,炮弹也需要时间飞行,防空炮到底该打向哪里?这不是简单地预测飞机下一秒的位置,而是要持续计算拦截点,并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念:反馈。智能不是一次性给出正确答案,而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶,表面上差别很大,底层却都在同一个闭环里运行:行动、观察、误差、修正。
我们正在把 AI 越做越像一个带着巨大资料柜的天才:它能查资料、能翻历史、能接工具、能在一个长上下文里表现得很聪明。但查得到不等于学会了。真正的持续学习,不是让上下文窗口无限变大,而是让经验被压缩、抽象,并在未来变成能力。

AI 画画不是从空白画布开始,也不是脑子里凭空想象出一只猫。扩散模型先学会一万种『猫如何被噪声毁掉』,再把这个毁掉的过程一步步倒放。生成的秘密,不是凭空创造,而是给噪声一个方向。
多模态不是让 LLM 简单长出眼睛。更准确地说,是把文字、图片、声音、视频变成模型能处理的 token 或 embedding,再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频,背后其实是几种不同的数据流。
ChatGPT 让 AI 学会了聊天,VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本,走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键,所以机器人的 GPT 时刻不会是一次突然刷屏,而是一场被数据、安全和工程慢慢推开的黎明。
压缩,是用低维形式保存高维信息的方式。大语言模型用向量与矩阵转存了人类语言中的统计规律,在解压时涌现出了我们称之为"智能"的东西。
预训练让 AI 学会文字接龙,SFT 让它学会像助手一样接龙,RLHF 让它学会哪种接龙更容易被人类喜欢。但“被喜欢”不是“真实”,“听话”不是“善良”,“安全”也不是没有价值立场。对齐 AI 的过程,表面上是在训练机器,深处是在审问人类:我们到底希望一个更聪明的存在,服从谁的规则,继承谁的偏见,代表谁的文明?