万物皆向量——当 AI 选择用数学理解世界
多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?
多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?