当数字学会了远近亲疏——从查表到 Embedding 的一步跨越

A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。

2026年4月1日 · 10 分钟 · 2042 字 · AI Lab

当 AI 学会了看——多模态大模型的架构拆解

GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么’看见’图像的?答案藏在三个组件的协作中:视觉编码器把图像切成 token,对齐模块把视觉 token 翻译成语言能懂的格式,LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA,完整拆解多模态大模型的架构。

2026年4月11日 · 11 分钟 · 2233 字 · AI Lab

谁给了 AI 一双眼睛——从 CLIP 到开源军备竞赛

2021 年 OpenAI 发布 CLIP,让 AI 第一次’看懂’了图片。但它公开了模型权重,却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据,Google 发明了新的训练方法,Meta 证明不需要文字也能学会看……一个模型的开源,如何改变了整个视觉 AI 生态?‘开源’到底意味着什么?

2026年4月12日 · 6 分钟 · 1093 字 · AI Lab

万物皆向量——当 AI 选择用数学理解世界

多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?

2026年4月12日 · 4 分钟 · 795 字 · AI Lab

AI 到底是怎么看图、懂图、画图的?——从 LLM 到多模态的架构地图

多模态不是让 LLM 简单长出眼睛。更准确地说,是把文字、图片、声音、视频变成模型能处理的 token 或 embedding,再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频,背后其实是几种不同的数据流。

2026年5月13日 · 7 分钟 · 1429 字 · AI Lab