你现在打开一个 AI 工具,可以连续做三件事:
上传一张图片,问它:
这张图里有什么?
再追问:
这张 PPT 的版式哪里不好?
最后直接下指令:
按这个风格,重新生成一张公众号封面图。
在用户界面上,这三件事都发生在同一个聊天框里。
于是一个很自然的误解出现了:
是不是 LLM 已经学会看图、画图了?
这个说法不算完全错。
但它太粗糙。
如果我们想真正理解今天的 AI 多模态,就不能只说“LLM 会看图了”。
更准确的说法是:
文字、图像、声音、视频正在被压缩进同一种可计算的表示空间。LLM 有时是这个系统的大脑,但 Transformer、视觉编码器、图像 tokenizer、扩散模型和 Flow 生成器,才是让多模态真正运转起来的机器零件。
这篇文章要做一件事:
把“多模态”“VLM”“MLLM”“图像生成模型”“原生多模态”“Diffusion Transformer”“MMDiT”这些容易混在一起的名字,拆成一张清楚的架构地图。

但只画一张架构图还不够。
真正重要的问题是:
今天这些主流多模态模型,到底站在视觉智能的哪一级?
会识别图片,等于真正看懂世界吗?
会生成漂亮图片,等于拥有视觉想象力吗?
能回答截图问题,等于具备空间智能吗?
答案都不是简单的“是”或“不是”。
这也是这篇文章相比前面几篇多模态文章的新价值:
它不只是解释某一个模块,而是给今天的图像 AI 做一次能力定位。
我们会把主流模型放进一条能力阶梯里:
物体识别
-> 图文对齐
-> 看图问答
-> 图像生成
-> 多轮编辑
-> 空间智能 / 世界模型
这样看,你就会发现:GPT-4V、Claude、Gemini、Qwen-VL、Stable Diffusion、FLUX、Qwen-Image、Janus-Pro 并不是“谁更强”这么简单。
它们回答的是不同层级的问题。
这也是为什么我们要谨慎使用“看见”“理解”“想象”这些词。
OpenAI 和 Anthropic 的官方文档都承认,今天的视觉语言模型虽然很强,但在精确空间定位、计数、低质量小图、高风险医学判断等场景仍然会犯错。BLINK、MMVP 等评测论文也反复指出:很多多模态大模型“能看见”,但在一些人类一眼就能完成的底层视觉感知任务上,仍然“不一定真的感知到了”。
所以这篇文章不是给 AI 贴金。
它要做的是另一件事:
把模型的能力、边界和未来方向放到同一张地图上。
一、先把名字摆正
今天 AI 圈最大的问题之一,是名字比架构跑得快。
很多产品都被叫成“大模型”。
很多能看图的模型都被叫成“多模态大模型”。
很多能画图的系统也被说成“LLM 画图”。
但从架构上看,这些名字不是一回事。
LLM:语言模型,不等于所有智能模型
LLM 的全称是 Large Language Model,大语言模型。
它最标准的形式是:
一串文字 token -> 预测下一个文字 token
GPT、Llama、Qwen、DeepSeek、Claude 这类模型,最核心的训练任务都是围绕语言序列展开的。
它们强大的地方,是在海量文本里学到了世界知识、推理模式、表达方式和任务结构。
但原始 LLM 并不会直接“看见像素”。
你给它一张 1024x1024 的图片,它不能天然理解每个像素是什么意思。
必须先有人把图片翻译成它能处理的形式。
Transformer:架构,不是语言模型专属
Transformer 不是 LLM 的同义词。
Transformer 是一种神经网络架构。
它最重要的能力,是处理一串 token 之间的关系:
token 1 和 token 2 有什么关系?
token 5 应该注意 token 17 吗?
当前位置要从哪些位置取信息?
文本可以变成 token。
图片也可以被切成 patch,然后变成视觉 token。
视频可以变成一串“空间 patch + 时间位置”的 token。
音频可以变成频谱片段 token。
所以真正泛化到多模态的,不是“语言”本身,而是:
把世界切成 token 序列,再用 Attention 建模 token 之间关系的这套方法。
LLM 是 Transformer 在语言上的巨大成功。
多模态模型,是这套方法向图像、视频、声音、动作的扩展。
VLM / MLLM / LMM:会看图的语言助手
VLM 通常指 Vision-Language Model,视觉语言模型。
MLLM 或 LMM 通常指 Large Multimodal Model,大型多模态模型。
最常见的形式是:
图片 -> 视觉编码器 -> 视觉 embedding -> 投影层 -> LLM -> 文字回答
也就是说,很多“会看图的 LLM”并不是语言模型自己长出了眼睛。
而是前面接了一个视觉编码器。
视觉编码器负责把图片变成一串向量。
投影层负责把这串向量翻译到 LLM 能理解的 embedding 空间。
LLM 负责把这些视觉信息和你的文字问题放在一起推理,然后输出文字。
LLaVA 就是这个路线的经典开源代表:它把视觉编码器和 LLM 连接起来,再通过视觉指令微调,让模型能围绕图片进行对话。
Qwen2.5-VL 是更强的一类视觉语言模型,它不仅看普通图片,还强调文档解析、图表理解、视频理解、目标定位和 GUI 操作。
但注意:
VLM 通常擅长“看图并说话”,不一定擅长“从零生成图片”。
看图和画图,是两条不同的数据流。

二、语言不是世界的全部
讲多模态,最容易掉进一个陷阱:
把其他模态都翻译成文字,然后以为问题解决了。
这当然有用。
语音可以转成文字。
图片可以生成描述。
视频可以写成摘要。
一段音乐也可以被说成“舒缓、温暖、带一点忧伤”。
但这样做会丢掉大量信息。
就拿语音来说。
同一句“我没事”,可以有很多种说法:
平静地说:我没事
哽咽地说:我没事
生气地说:我没事
疲惫地说:我没事
讽刺地说:我没事
转写成文字以后,它们都是同一句话。
但在人类耳朵里,它们几乎是五种不同的信息。
语气、音色、停顿、抑扬顿挫、呼吸、笑声、哽咽、环境声,这些都不是“文字内容”的附属品。
它们本身就是信息。
音乐更明显。
一段旋律不一定需要先翻译成语义,才会让人感到悲伤、庄严、辽阔或不安。
自然声音也一样。
雨声、海浪、风穿过树林、远处火车经过,这些声音给人的感受,常常不是一句话能替代的。
如果把它们全部压缩成:
这是一段雨声。
这是一段海浪声。
这是一段舒缓的音乐。
世界已经被压扁了。
视频则更进一步。
视频不是一堆图片的集合。
它有时间。
有运动。
有因果。
有镜头语言。
有一个动作发生前后的连续变化。
一张图片能告诉你“杯子在桌子边缘”。
一段视频还能告诉你:
杯子正在滑动
手马上要碰到杯子
水可能会洒出来
镜头正在靠近
人物情绪正在变化
这些信息如果只压缩成文字摘要,也会损失很多。
所以,多模态真正重要的地方,不是把所有东西都翻译成语言。
而是让模型能直接处理更多种表示:
文字 token
音频 token
图像 patch
视频时空 token
动作 token
这也是我们重新面对维特根斯坦那句话时,会产生的新问题。
维特根斯坦说:
我的语言的边界,就是我的世界的边界。
这句话很深。
语言确实是人类最强大的压缩工具。
没有语言,我们很难把经验变成概念,把概念变成知识,把知识传给别人。
但如果世界只剩语言,世界也会被压缩得太狠。
味道、旋律、光影、空间、触感、节奏、身体动作,都有一部分不能被完整翻译成文字。
这就是多模态 AI 的真正挑战:
不是把世界翻译成一句话,而是让模型保留世界中那些语言装不下的部分。
这也是为什么音频和视频模型值得关注。
Meta 的 AudioCraft / MusicGen 说明,音乐可以被建模成一种可生成的音频 token 序列,而不只是“歌词”。
Stable Audio Open 说明,开源社区也在尝试把声音效果、鼓点、环境声和音乐片段变成可控生成对象。
OpenAI 的 Sora、Google 的 Veo、Meta 的 Movie Gen,则说明视频生成不只是“图片更大”,而是要同时处理时间一致性、运动、镜头和世界状态。
DeepMind 的 Genie / Genie 2 这类项目更进一步,把视频和交互环境联系起来:模型不仅要生成画面,还要理解动作如何改变世界。
这些方向在本文里不会展开。
但它们给我们一个重要提醒:
图像只是多模态的第一扇门。声音、视频和行动,才会把 AI 真正推向现实世界。
三、图像识别:把图片翻译成模型能读的语言
先看“识别图片”。
这件事的输入和输出很清楚:
输入:图片
输出:文字、标签、框、坐标、判断、操作建议
传统计算机视觉模型会直接做分类、检测、分割。
多模态时代更常见的方式,是把图片变成一串视觉 token,再交给语言模型。
一个典型流程是:
图片
-> 切成 patch
-> Vision Transformer / CLIP / SigLIP / Qwen-ViT 编码
-> 得到视觉 embedding
-> projector / resampler 对齐到语言空间
-> LLM 结合文字问题生成回答
这里有一个关键转折:
模型不是直接“看见一只猫”。
模型先看到的是很多视觉 patch 的向量。
这些向量里压缩了边缘、纹理、形状、局部结构、物体关系、文字区域、版式信息。
然后语言模型把这些视觉向量当成一种特殊的“上下文”。
就像你给 LLM 塞进一段文本背景材料一样,现在你给它塞进一段视觉背景材料。
所以,看图模型的第一性原理不是“眼睛”,而是:
把图像压缩成一串可被语言模型消费的向量。
这就是为什么 CLIP 很重要。
CLIP 做的事不是画图,而是把图片和文字放进同一个语义空间:
一张猫图 -> 图像向量
"a cat" -> 文字向量
如果两个向量靠得近,模型就知道这张图和这句话匹配。
从那以后,图像和文字之间有了一座桥。
后来的很多 VLM、扩散模型和图像编辑系统,都在不同程度上继承了这座桥的思想:
先让图像和语言可以在同一个空间里对齐,再谈理解和生成。

四、图像生成:不是把图片翻译成文字,而是把意图翻译成像素
图像生成的方向正好相反。
识别图片是:
图片 -> 文字
生成图片是:
文字 -> 图片
但这个箭头不能简单倒过来。
因为输出图片比输出文字复杂得多。
一句话只有几十个 token。
一张高清图可能有几百万个像素。
模型不可能像写文章一样,直接从左到右一个像素一个像素地“写”完整张图。
经典 Stable Diffusion 的做法,是把图像生成拆成几层:
文字 prompt
-> 文本编码器
-> 条件向量
-> 潜空间里的去噪模型
-> VAE 解码器
-> 像素图片
这里的关键词是“潜空间”。
上一篇讲扩散模型时,我们说 AI 不是从空白画布开始画猫,而是从噪声里一步步去噪。
Stable Diffusion 更进一步:
它不直接在原始像素空间里去噪,而是在一个压缩后的 latent space 里去噪。
这有点像:
真实图片 -> 压缩成视觉草稿 -> 在草稿空间里生成 -> 再解压回图片
VAE 负责压缩和解压。
U-Net 或 Diffusion Transformer 负责在潜空间里生成结构。
文本编码器负责告诉生成器:
这团噪声应该朝哪个语义方向收缩?
这就是图像生成和图像识别的第一处本质差异:
识别模型要把图像压缩成语义;生成模型要把语义展开成图像。
压缩和展开,是两个方向。
它们共享一些组件,但目标并不相同。

五、为什么新模型越来越“听话”?
早期 AI 画图最常见的问题是:
Prompt 写得很细,出来的图却像抽盲盒。
你说“三个人站在红色汽车旁边”,它可能画成两个人、四个人、蓝色车、车在远处。
你让它生成一张带中文标题的海报,它常常生成一堆像文字但不是文字的符号。
问题不只是“画得不够好”。
更准确地说,是:
文字约束没有足够深地进入图像生成过程。
Stable Diffusion 1.x 的核心是 latent diffusion + U-Net + cross-attention。
这已经很强。
但文字和图像的互动方式仍然有限。
后来的 SDXL、Stable Diffusion 3、FLUX.1、Qwen-Image 等模型,一条明显趋势是:
把文本理解、更大的 Transformer、更强的图像 token 表示、更稳定的 Flow / Diffusion 训练方式,接得越来越深。
Stable Diffusion 3 的 MMDiT 是一个很好的例子。
MMDiT 可以理解成“多模态 Diffusion Transformer”。
它不只是把文字向量丢给图像 U-Net 当条件。
它让文本 token 和图像 token 在 Transformer 的 Attention 中更深地交互。
同时,文本和图像不是完全混用一套权重,而是保留各自适合的表示方式,再在 Attention 层相遇。
FLUX.1 则代表了另一个方向:用更大的 Rectified Flow Transformer 做高质量文本到图像生成。
Qwen-Image 的重点又不同。
它把复杂文字渲染、中文英文混排、图像编辑一致性当成核心能力,并在技术报告里强调了 Qwen2.5-VL 与 MMDiT、VAE 表示之间的对齐。
这说明今天的“会画图”,已经不只是美术风格问题。
它正在变成一个更复杂的问题:
语言理解
+ 世界知识
+ 版式理解
+ 空间关系
+ 文字渲染
+ 主体一致性
+ 编辑前后保真
+ 生成器稳定性
所以,新一代图像模型更“听话”,不是因为 prompt 咒语更神秘。
而是因为:
用户意图进入生成过程的通道更宽、更深、更稳定了。

六、统一多模态:看图和画图能不能变成一个模型?
现在来到最关键的问题。
既然识别图片是:
图片 -> 文字
生成图片是:
文字 -> 图片
那能不能训练一个模型,同时做这两件事?
答案是:可以,但并不简单。
因为“理解图像”和“生成图像”需要的视觉表示并不一样。
理解图片时,模型关心的是语义:
这里有一只猫
猫坐在窗边
左上角有一行文字
这张表格第三列是金额
生成图片时,模型还要关心极细的视觉细节:
毛发纹理
光照方向
字体笔画
边缘是否连续
人物身份是否一致
局部纹理是否破碎
一个视觉编码器如果太偏语义,生成时可能丢细节。
一个视觉编码器如果太偏像素,理解时又可能不够抽象。
DeepSeek 的 Janus 系列正是抓住了这个矛盾。
Janus 的核心思想是:
理解和生成共用一个 Transformer 主干,但视觉编码路径要解耦。
也就是说:
图像理解路径:图片 -> 语义视觉编码 -> 统一 Transformer -> 文字
图像生成路径:文字 -> 统一 Transformer -> 生成视觉编码 -> 图像
这条路线很适合用来解释“统一多模态”的难点。
它告诉我们:
统一不是把所有东西硬塞进一个编码器。
真正的统一,是在高层语义和任务空间里统一;在底层表示上,仍然允许不同模态、不同任务保留自己的专用通道。
Chameleon 则代表另一种思路:
把文本和图像都 token 化,放进同一个自回归序列模型里,让模型处理任意交错的文本和图像 token。
它的目标更像:
文字 token + 图像 token + 文字 token + 图像 token
-> 同一个 Transformer
-> 继续生成文字或图像 token
这听起来最接近“万物皆 token”。
但工程上非常困难,因为图像 token 数量巨大,训练稳定性、生成质量、对齐方式都会变复杂。
所以,今天的多模态架构大致分成四类:
| 类型 | 代表模型 | 输入输出 | 关键思想 |
|---|---|---|---|
| 图文对齐模型 | CLIP | 图片/文字 -> 向量 | 把图像和文本放进同一个语义空间 |
| 视觉语言模型 | LLaVA、Qwen2.5-VL | 图片+文字 -> 文字 | 视觉编码器接到 LLM,让 LLM 能围绕图片说话 |
| 图像生成模型 | Stable Diffusion、SDXL、FLUX.1、Qwen-Image | 文字/图片条件 -> 图片 | 用扩散、Flow、VAE、MMDiT 把意图展开成图像 |
| 统一多模态模型 | Chameleon、Janus-Pro | 文字+图片 -> 文字+图片 | 尝试用一个主干同时做理解和生成 |
这张表比“LLM 会不会画图”更重要。
因为它把混在一起的能力拆开了。

七、LLM 能泛化到多模态吗?
现在可以回答开头的问题了。
LLM 能不能泛化到多模态?
答案分两层。
如果你说的 LLM 是“只在文字上训练、只接收文字 token、只输出文字 token 的语言模型”,那它不能直接泛化到多模态。
它没有眼睛。
它不知道像素。
它需要视觉编码器、图像 tokenizer、投影层、多模态训练数据和新的对齐目标。
但如果你说的 LLM 是“一个巨大的自回归 Transformer,里面压缩了语言、知识、推理、任务规划和指令跟随能力”,那它确实可以成为多模态系统的核心大脑。
图片可以变成视觉 token。
视频可以变成时空 token。
声音可以变成音频 token。
动作可以变成控制 token。
只要这些 token 能进入同一个上下文,Transformer 就可以学习它们之间的关系。
所以最准确的说法是:
不是 LLM 天然泛化到多模态,而是 Transformer + token 化 + 表示对齐 + 多模态训练,让语言模型的能力可以迁移到更多模态上。
这也是为什么“Transformer”这个词比“LLM”更适合描述底层趋势。
LLM 是语言时代的名字。
多模态基础模型,是下一阶段更准确的名字。
八、从 ImageNet 到空间智能:今天的模型站在哪里?
如果要理解今天图像 AI 的位置,李飞飞是一条绕不开的线索。
她参与推动的 ImageNet,曾经把计算机视觉带进一个新阶段。
那时最核心的问题是:
给一张图片,模型能不能认出里面是什么?
2012 年 AlexNet 在 ImageNet 上取得突破后,深度学习真正席卷视觉领域。
从那以后,计算机视觉的主线很长一段时间都是:
分类 -> 检测 -> 分割 -> 图文对齐 -> 看图问答
但这里有一个容易被忽略的事实:
识别物体,不等于理解世界。
一张图里有“杯子”,这只是第一层。
杯子在桌子的左边还是右边?
杯子会不会掉下去?
人伸手过去能不能拿到?
如果把杯子移动到画面另一侧,阴影和遮挡应该怎么变?
这些问题已经不只是“图像识别”。
它们进入了更高一层:
空间智能。
李飞飞近几年反复强调的,正是这个方向:AI 不应该只处理文字,也不应该只给图片打标签,而要能够理解、生成并推理三维世界中的对象、关系、动作和变化。
这给我们一个很重要的判断标准:
图像 AI 的终点,不是把图片描述成一句话,而是建立一个可以被推理、生成和行动使用的世界表示。
用这把尺子看今天的主流模型,会更清楚。
GPT-4V、Claude、Gemini、Qwen2.5-VL 这类模型,已经能把图片接进语言推理系统。
它们擅长:
描述图片
理解截图
读图表和文档
回答视觉问题
把图片内容转成文字推理
但它们仍然不等于完整的视觉智能。
OpenAI 的 GPT-4V system card 明确提醒过,模型可能出现视觉幻觉,也可能在细节、空间关系、医学图像等高风险场景犯错。
Anthropic 的 Claude 视觉文档也把空间推理、计数、低质量小图、医学诊断等列为限制场景。
学术界的 BLINK、MMVP 等评测,则把问题拆得更细:
两个图形是否真的相交?
物体左右关系是否判断正确?
图片里的细微视觉模式是否被识别?
模型是不是只靠语言先验在猜?
这些题有时对人类很简单,但对多模态大模型并不稳定。
这不是说它们“没用”。
恰恰相反,这说明它们已经强到需要更精细的评估。
但我们不能把“能接收图片输入”误读成“已经拥有人的视觉系统”。
今天主流模型大致站在这里:
物体识别:已经很成熟
图文对齐:已经非常强
看图问答:进入可用阶段,但仍有错觉和边界
图像生成:质量很高,控制性快速提升
图像编辑:正在从玩具走向生产工具
空间智能:刚刚开始
所以,这篇文章真正想给你的,不是一堆模型名。
而是一把尺子:
以后看到任何“多模态模型发布”,先问它解决的是哪一层:识别、对齐、问答、生成、编辑,还是空间智能?
这比单纯问“它是不是大模型”有用得多。
九、几个适合深挖的模型和项目
如果这篇文章要讲得通俗、深刻、准确,不能只围绕闭源模型,也不能只围绕图片。
闭源模型可以作为体验入口,但技术拆解最好依赖开源项目、公开论文和官方技术材料。
下面这些模型和项目,适合作为后续深层拆解对象。
1. Stable Diffusion / SDXL:经典扩散模型的主干
适合解释:
- 为什么要在 latent space 里生成;
- VAE 如何压缩和解压图像;
- U-Net 如何一步步去噪;
- cross-attention 如何把 prompt 接进图像生成;
- 为什么图像生成不是“从左到右画出来”。
这条线适合承接经典扩散模型的直觉基础。
它是读者已经理解过的直觉基础。
2. Stable Diffusion 3 / MMDiT:图像生成里的多模态 Transformer
适合解释:
- 为什么图像生成模型也开始大量使用 Transformer;
- 为什么文本 token 和图像 token 需要更深交互;
- MMDiT 里的“多模态”到底是什么意思;
- 为什么文字渲染和 prompt adherence 会变好。
这条线可以把上一篇的 DDPM / LDM 推进到现代图像模型。
3. FLUX.1:开源权重里的高质量 Flow Transformer
适合解释:
- Rectified Flow 和经典扩散的区别;
- 为什么更直的生成路径可能减少采样步骤;
- 为什么大规模 Transformer 能提升图像质量和指令跟随;
- open weights 对研究和工作流生态的意义。
这条线适合连接“开源社区现在在用什么”。
4. Qwen-Image:中文文字渲染和图像编辑的好案例
适合解释:
- 为什么以前 AI 画图里的文字经常是乱码;
- 为什么中文比英文文字渲染更难;
- 为什么图像编辑需要同时保留语义和像素细节;
- Qwen2.5-VL、VAE、MMDiT 之间如何形成双重表示。
这条线尤其适合公众号。
因为中文文字渲染是读者一眼能感受到的进步。
5. LLaVA / Qwen2.5-VL:看图模型的透明样板
适合解释:
- 视觉编码器如何接到 LLM;
- projector / adapter 到底在翻译什么;
- 为什么 VLM 能读图表、看截图、做 OCR;
- 为什么“看图回答”和“生成图片”不是同一种能力。
这条线适合澄清“AI 识别图片”和“AI 生成图片”的关系。
6. Janus-Pro:统一理解与生成的关键样板
适合解释:
- 为什么看图和画图不能只用一个视觉编码器硬扛;
- 为什么统一多模态需要任务路径解耦;
- 自回归模型如何同时服务图像理解和图像生成;
- “原生多模态”不是产品宣传词,而是一个架构方向。
这条线适合作为文章的高潮。
它能把读者从“AI 会看图、会画图”带到:
AI 正在把不同模态都变成同一个世界模型的入口和出口。
7. AudioCraft / Stable Audio Open:声音不是文字的附属品
适合解释:
- 为什么语音转文字会丢失语气、音色和情绪;
- 为什么音乐生成不能只靠歌词或文字描述;
- 音频 token、codec、spectrogram 这些表示如何保留声音细节;
- 为什么自然声、环境声、音效也是世界信息的一部分。
这条线适合把“多模态”从图像扩展到听觉。
8. Sora / Veo / Movie Gen:视频不是一堆图片
适合解释:
- 为什么视频生成要处理时间一致性;
- 为什么运动、镜头、因果关系比单张图片更难;
- 为什么“画面好看”不等于“世界合理”;
- 为什么视频模型正在逼近世界模型问题。
这条线适合把图像生成推进到时间、动作和场景演化。
9. Genie / Genie 2:从看见世界到操作世界
适合解释:
- 为什么交互式视频环境比普通视频生成更接近世界模型;
- 动作 token 如何进入生成过程;
- 为什么“下一帧会发生什么”开始接近“如果我这样做会怎样”;
- 多模态如何从感知走向行动。
这条线适合作为未来讲具身智能、机器人和世界模型的入口。
十、这篇文章真正要讲的不是画图,而是世界接口
上一篇扩散模型文章讲的是:
AI 如何从噪声中生成一张图。
这一篇要往前走一步:
AI 如何把文字、图像、视频、声音接进同一个计算世界。
图片识别不是简单识别物体。
它是把视觉世界压缩成语言和语义。
图片生成不是简单画画。
它是把语言、意图、上下文和世界知识展开成视觉世界。
多模态也不是给 LLM 插一个摄像头。
它是让模型拥有更多输入和输出接口:
文字是接口
图片是接口
声音是接口
视频是接口
动作也是接口
当这些接口被统一到 token、embedding、Attention 和生成模型里,AI 就不再只是一个“会说话的模型”。
它开始接近一个更通用的东西:
一个可以在不同感官之间翻译、推理、生成和行动的世界模型。
这就是为什么“多模态”重要。
不是因为它让聊天框多了一个上传图片按钮。
而是因为它把 AI 从语言空间,推向了现实世界。
本公众号延伸阅读
如果你想把这张地图的几块底座补得更牢,可以回看这几篇:
- 向量底座:《AI 的数学语言(一)》和《看见数学(十一):向量》,解释为什么“一组数字”可以描述一个对象。
- 语义底座:《当数字学会了远近亲疏——从查表到 Embedding 的一步跨越》,解释 token 如何变成语义坐标。
- 表示底座:《万物皆向量——当 AI 选择用数学理解世界》,解释为什么文字、图片、声音最终都会进入向量空间。
- 看图底座:《当 AI 学会了看——多模态大模型的架构拆解》,解释 ViT、CLIP、对齐模块和 LLaVA。
- 生成底座:《从噪声中看见猫——扩散模型的数学美学》,解释图像生成为什么是从噪声到图像的反向过程。
这篇文章站在它们上面,往前多走了一步:
不只问“模型怎么做”,还要问“它到底处在视觉智能的哪一级”。
配图与动图分镜
这篇的视觉质量必须比扩散模型文章上一个台阶。不要再只做白底卡片和简单卡通动图,应该采用“高质量主视觉 + 程序化清晰标注 + 动效机制图”的组合。
图 1:多模态架构地图
画面中心是一条主干:
token / embedding space
四个方向接入:
- text tokens;
- image patches / visual tokens;
- audio tokens;
- video spatial-temporal tokens。
中间是 Transformer / Attention。
右侧分出四个输出:
- text answer;
- image;
- audio;
- action。
视觉要求:科技图谱风,不要营销海报,不要抽象渐变球。文字标签后期用 PIL / SVG / HTML canvas 叠加,保证中文清晰。
图 2:看图和画图是两条相反链路
左半边:
image -> vision encoder -> visual embeddings -> LLM -> answer
右半边:
prompt -> text encoder / LLM context -> diffusion or flow transformer -> VAE -> image
中间放一句:
理解是压缩,生成是展开。
图 3:四类多模态模型积木
四个横向面板:
- CLIP:image encoder + text encoder,对齐到同一语义空间;
- VLM:vision encoder + projector + LLM;
- image generator:text encoder + denoiser / flow transformer + VAE;
- unified model:text tokens + image tokens -> shared transformer -> text/image output。
动图 1:图片如何进入 LLM
6-8 秒。
流程:
整张图片
-> 切成 patch 网格
-> patch 变成一串视觉 token
-> token 通过 projector 对齐
-> 插入 LLM 上下文
-> 输出“这是一张……”
这张动图要做得干净、慢、可读。每一步停顿 0.8-1.2 秒。
动图 2:prompt 如何约束图像生成
6-8 秒。
流程:
纯噪声 / latent
-> prompt tokens 靠近
-> attention 线连接具体词和图像区域
-> latent structure 出现
-> VAE 解码成图
重点不是炫酷,而是让读者看懂:文字不是咒语,是条件约束。
封面图
封面不要继续用卡通猫。
建议主视觉:
一个“多模态中枢”在画面中央,左侧进入文字、图片、声音波形、视频帧;右侧输出回答、海报、编辑后的图像和动作指令。整体风格接近科技杂志插画,颜色控制在深灰、青绿、琥珀、白色四种主色,不走单一蓝紫渐变。
封面文字:
AI 是怎么同时看图、懂图、画图的?
副标题:
从 LLM 到多模态的架构地图
参考资料
- Ho, Jain, Abbeel, “Denoising Diffusion Probabilistic Models”, 2020.
- Rombach et al., “High-Resolution Image Synthesis with Latent Diffusion Models”, 2022.
- Podell et al., “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis”, 2023.
- Peebles and Xie, “Scalable Diffusion Models with Transformers”, 2023.
- Stability AI, “Stable Diffusion 3: Research Paper”, 2024.
- Black Forest Labs, FLUX.1 model cards and announcement.
- Radford et al., “Learning Transferable Visual Models From Natural Language Supervision”, 2021.
- Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, 2020.
- Liu et al., “Visual Instruction Tuning”, 2023.
- Qwen Team, “Qwen2.5-VL Technical Report”, 2025.
- Qwen Team, “Qwen-Image Technical Report”, 2025.
- Chameleon Team, “Chameleon: Mixed-Modal Early-Fusion Foundation Models”, 2024.
- DeepSeek-AI, “Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation”, 2024.
- DeepSeek-AI, “Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling”, 2025.
- Deng et al., “ImageNet: A Large-Scale Hierarchical Image Database”, 2009.
- Russakovsky et al., “ImageNet Large Scale Visual Recognition Challenge”, 2015.
- OpenAI, “GPT-4V(ision) System Card”, 2023.
- Anthropic, “Claude Vision”, official documentation.
- Fu et al., “BLINK: Multimodal Large Language Models Can See but Not Perceive”, 2024.
- Tong et al., “Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs”, 2024.
- Fei-Fei Li / World Labs, writings and interviews on spatial intelligence.
- Copet et al., “Simple and Controllable Music Generation”, 2023. MusicGen / AudioCraft.
- Stability AI, “Stable Audio Open”, model release and technical materials.
- OpenAI, “Sora: Creating video from text”, technical report and system card.
- Google DeepMind, “Veo” and “Veo 3” model announcements.
- Meta, “Movie Gen: A Cast of Media Foundation Models”, 2024.
- Google DeepMind, “Genie: Generative Interactive Environments” and “Genie 2”, 2024.
