AI 到底是怎么看图、懂图、画图的？——从 LLM 到多模态的架构地图

你现在打开一个 AI 工具，可以连续做三件事：

上传一张图片，问它：

这张图里有什么？

再追问：

这张 PPT 的版式哪里不好？

最后直接下指令：

按这个风格，重新生成一张公众号封面图。

在用户界面上，这三件事都发生在同一个聊天框里。

于是一个很自然的误解出现了：

是不是 LLM 已经学会看图、画图了？

这个说法不算完全错。

但它太粗糙。

如果我们想真正理解今天的 AI 多模态，就不能只说“LLM 会看图了”。

更准确的说法是：

文字、图像、声音、视频正在被压缩进同一种可计算的表示空间。LLM 有时是这个系统的大脑，但 Transformer、视觉编码器、图像 tokenizer、扩散模型和 Flow 生成器，才是让多模态真正运转起来的机器零件。

这篇文章要做一件事：

把“多模态”“VLM”“MLLM”“图像生成模型”“原生多模态”“Diffusion Transformer”“MMDiT”这些容易混在一起的名字，拆成一张清楚的架构地图。

AI 多模态架构地图封面图

但只画一张架构图还不够。

真正重要的问题是：

今天这些主流多模态模型，到底站在视觉智能的哪一级？

会识别图片，等于真正看懂世界吗？

会生成漂亮图片，等于拥有视觉想象力吗？

能回答截图问题，等于具备空间智能吗？

答案都不是简单的“是”或“不是”。

这也是这篇文章相比前面几篇多模态文章的新价值：

它不只是解释某一个模块，而是给今天的图像 AI 做一次能力定位。

我们会把主流模型放进一条能力阶梯里：

物体识别
  -> 图文对齐
  -> 看图问答
  -> 图像生成
  -> 多轮编辑
  -> 空间智能 / 世界模型

这样看，你就会发现：GPT-4V、Claude、Gemini、Qwen-VL、Stable Diffusion、FLUX、Qwen-Image、Janus-Pro 并不是“谁更强”这么简单。

它们回答的是不同层级的问题。

这也是为什么我们要谨慎使用“看见”“理解”“想象”这些词。

OpenAI 和 Anthropic 的官方文档都承认，今天的视觉语言模型虽然很强，但在精确空间定位、计数、低质量小图、高风险医学判断等场景仍然会犯错。BLINK、MMVP 等评测论文也反复指出：很多多模态大模型“能看见”，但在一些人类一眼就能完成的底层视觉感知任务上，仍然“不一定真的感知到了”。

所以这篇文章不是给 AI 贴金。

它要做的是另一件事：

把模型的能力、边界和未来方向放到同一张地图上。

一、先把名字摆正

今天 AI 圈最大的问题之一，是名字比架构跑得快。

很多产品都被叫成“大模型”。

很多能看图的模型都被叫成“多模态大模型”。

很多能画图的系统也被说成“LLM 画图”。

但从架构上看，这些名字不是一回事。

LLM：语言模型，不等于所有智能模型

LLM 的全称是 Large Language Model，大语言模型。

它最标准的形式是：

一串文字 token -> 预测下一个文字 token

GPT、Llama、Qwen、DeepSeek、Claude 这类模型，最核心的训练任务都是围绕语言序列展开的。

它们强大的地方，是在海量文本里学到了世界知识、推理模式、表达方式和任务结构。

但原始 LLM 并不会直接“看见像素”。

你给它一张 1024x1024 的图片，它不能天然理解每个像素是什么意思。

必须先有人把图片翻译成它能处理的形式。

Transformer：架构，不是语言模型专属

Transformer 不是 LLM 的同义词。

Transformer 是一种神经网络架构。

它最重要的能力，是处理一串 token 之间的关系：

token 1 和 token 2 有什么关系？
token 5 应该注意 token 17 吗？
当前位置要从哪些位置取信息？

文本可以变成 token。

图片也可以被切成 patch，然后变成视觉 token。

视频可以变成一串“空间 patch + 时间位置”的 token。

音频可以变成频谱片段 token。

所以真正泛化到多模态的，不是“语言”本身，而是：

把世界切成 token 序列，再用 Attention 建模 token 之间关系的这套方法。

LLM 是 Transformer 在语言上的巨大成功。

多模态模型，是这套方法向图像、视频、声音、动作的扩展。

VLM / MLLM / LMM：会看图的语言助手

VLM 通常指 Vision-Language Model，视觉语言模型。

MLLM 或 LMM 通常指 Large Multimodal Model，大型多模态模型。

最常见的形式是：

图片 -> 视觉编码器 -> 视觉 embedding -> 投影层 -> LLM -> 文字回答

也就是说，很多“会看图的 LLM”并不是语言模型自己长出了眼睛。

而是前面接了一个视觉编码器。

视觉编码器负责把图片变成一串向量。

投影层负责把这串向量翻译到 LLM 能理解的 embedding 空间。

LLM 负责把这些视觉信息和你的文字问题放在一起推理，然后输出文字。

LLaVA 就是这个路线的经典开源代表：它把视觉编码器和 LLM 连接起来，再通过视觉指令微调，让模型能围绕图片进行对话。

Qwen2.5-VL 是更强的一类视觉语言模型，它不仅看普通图片，还强调文档解析、图表理解、视频理解、目标定位和 GUI 操作。

但注意：

VLM 通常擅长“看图并说话”，不一定擅长“从零生成图片”。

看图和画图，是两条不同的数据流。

多模态架构总图：文字、图像、声音、视频进入同一个 token / embedding 空间

二、语言不是世界的全部

讲多模态，最容易掉进一个陷阱：

把其他模态都翻译成文字，然后以为问题解决了。

这当然有用。

语音可以转成文字。

图片可以生成描述。

视频可以写成摘要。

一段音乐也可以被说成“舒缓、温暖、带一点忧伤”。

但这样做会丢掉大量信息。

就拿语音来说。

同一句“我没事”，可以有很多种说法：

平静地说：我没事
哽咽地说：我没事
生气地说：我没事
疲惫地说：我没事
讽刺地说：我没事

转写成文字以后，它们都是同一句话。

但在人类耳朵里，它们几乎是五种不同的信息。

语气、音色、停顿、抑扬顿挫、呼吸、笑声、哽咽、环境声，这些都不是“文字内容”的附属品。

它们本身就是信息。

音乐更明显。

一段旋律不一定需要先翻译成语义，才会让人感到悲伤、庄严、辽阔或不安。

自然声音也一样。

雨声、海浪、风穿过树林、远处火车经过，这些声音给人的感受，常常不是一句话能替代的。

如果把它们全部压缩成：

这是一段雨声。
这是一段海浪声。
这是一段舒缓的音乐。

世界已经被压扁了。

视频则更进一步。

视频不是一堆图片的集合。

它有时间。

有运动。

有因果。

有镜头语言。

有一个动作发生前后的连续变化。

一张图片能告诉你“杯子在桌子边缘”。

一段视频还能告诉你：

杯子正在滑动
手马上要碰到杯子
水可能会洒出来
镜头正在靠近
人物情绪正在变化

这些信息如果只压缩成文字摘要，也会损失很多。

所以，多模态真正重要的地方，不是把所有东西都翻译成语言。

而是让模型能直接处理更多种表示：

文字 token
音频 token
图像 patch
视频时空 token
动作 token

这也是我们重新面对维特根斯坦那句话时，会产生的新问题。

维特根斯坦说：

我的语言的边界，就是我的世界的边界。

这句话很深。

语言确实是人类最强大的压缩工具。

没有语言，我们很难把经验变成概念，把概念变成知识，把知识传给别人。

但如果世界只剩语言，世界也会被压缩得太狠。

味道、旋律、光影、空间、触感、节奏、身体动作，都有一部分不能被完整翻译成文字。

这就是多模态 AI 的真正挑战：

不是把世界翻译成一句话，而是让模型保留世界中那些语言装不下的部分。

这也是为什么音频和视频模型值得关注。

Meta 的 AudioCraft / MusicGen 说明，音乐可以被建模成一种可生成的音频 token 序列，而不只是“歌词”。

Stable Audio Open 说明，开源社区也在尝试把声音效果、鼓点、环境声和音乐片段变成可控生成对象。

OpenAI 的 Sora、Google 的 Veo、Meta 的 Movie Gen，则说明视频生成不只是“图片更大”，而是要同时处理时间一致性、运动、镜头和世界状态。

DeepMind 的 Genie / Genie 2 这类项目更进一步，把视频和交互环境联系起来：模型不仅要生成画面，还要理解动作如何改变世界。

这些方向在本文里不会展开。

但它们给我们一个重要提醒：

图像只是多模态的第一扇门。声音、视频和行动，才会把 AI 真正推向现实世界。

三、图像识别：把图片翻译成模型能读的语言

先看“识别图片”。

这件事的输入和输出很清楚：

输入：图片
输出：文字、标签、框、坐标、判断、操作建议

传统计算机视觉模型会直接做分类、检测、分割。

多模态时代更常见的方式，是把图片变成一串视觉 token，再交给语言模型。

一个典型流程是：

图片
  -> 切成 patch
  -> Vision Transformer / CLIP / SigLIP / Qwen-ViT 编码
  -> 得到视觉 embedding
  -> projector / resampler 对齐到语言空间
  -> LLM 结合文字问题生成回答

这里有一个关键转折：

模型不是直接“看见一只猫”。

模型先看到的是很多视觉 patch 的向量。

这些向量里压缩了边缘、纹理、形状、局部结构、物体关系、文字区域、版式信息。

然后语言模型把这些视觉向量当成一种特殊的“上下文”。

就像你给 LLM 塞进一段文本背景材料一样，现在你给它塞进一段视觉背景材料。

所以，看图模型的第一性原理不是“眼睛”，而是：

把图像压缩成一串可被语言模型消费的向量。

这就是为什么 CLIP 很重要。

CLIP 做的事不是画图，而是把图片和文字放进同一个语义空间：

一张猫图  -> 图像向量
"a cat"  -> 文字向量

如果两个向量靠得近，模型就知道这张图和这句话匹配。

从那以后，图像和文字之间有了一座桥。

后来的很多 VLM、扩散模型和图像编辑系统，都在不同程度上继承了这座桥的思想：

先让图像和语言可以在同一个空间里对齐，再谈理解和生成。

图片如何进入 LLM：从整张图到 patch，再到视觉 token 和文字回答

四、图像生成：不是把图片翻译成文字，而是把意图翻译成像素

图像生成的方向正好相反。

识别图片是：

图片 -> 文字

生成图片是：

文字 -> 图片

但这个箭头不能简单倒过来。

因为输出图片比输出文字复杂得多。

一句话只有几十个 token。

一张高清图可能有几百万个像素。

模型不可能像写文章一样，直接从左到右一个像素一个像素地“写”完整张图。

经典 Stable Diffusion 的做法，是把图像生成拆成几层：

文字 prompt
  -> 文本编码器
  -> 条件向量
  -> 潜空间里的去噪模型
  -> VAE 解码器
  -> 像素图片

这里的关键词是“潜空间”。

上一篇讲扩散模型时，我们说 AI 不是从空白画布开始画猫，而是从噪声里一步步去噪。

Stable Diffusion 更进一步：

它不直接在原始像素空间里去噪，而是在一个压缩后的 latent space 里去噪。

这有点像：

真实图片 -> 压缩成视觉草稿 -> 在草稿空间里生成 -> 再解压回图片

VAE 负责压缩和解压。

U-Net 或 Diffusion Transformer 负责在潜空间里生成结构。

文本编码器负责告诉生成器：

这团噪声应该朝哪个语义方向收缩？

这就是图像生成和图像识别的第一处本质差异：

识别模型要把图像压缩成语义；生成模型要把语义展开成图像。

压缩和展开，是两个方向。

它们共享一些组件，但目标并不相同。

看图和画图是两条相反链路：理解是压缩，生成是展开

五、为什么新模型越来越“听话”？

早期 AI 画图最常见的问题是：

Prompt 写得很细，出来的图却像抽盲盒。

你说“三个人站在红色汽车旁边”，它可能画成两个人、四个人、蓝色车、车在远处。

你让它生成一张带中文标题的海报，它常常生成一堆像文字但不是文字的符号。

问题不只是“画得不够好”。

更准确地说，是：

文字约束没有足够深地进入图像生成过程。

Stable Diffusion 1.x 的核心是 latent diffusion + U-Net + cross-attention。

这已经很强。

但文字和图像的互动方式仍然有限。

后来的 SDXL、Stable Diffusion 3、FLUX.1、Qwen-Image 等模型，一条明显趋势是：

把文本理解、更大的 Transformer、更强的图像 token 表示、更稳定的 Flow / Diffusion 训练方式，接得越来越深。

Stable Diffusion 3 的 MMDiT 是一个很好的例子。

MMDiT 可以理解成“多模态 Diffusion Transformer”。

它不只是把文字向量丢给图像 U-Net 当条件。

它让文本 token 和图像 token 在 Transformer 的 Attention 中更深地交互。

同时，文本和图像不是完全混用一套权重，而是保留各自适合的表示方式，再在 Attention 层相遇。

FLUX.1 则代表了另一个方向：用更大的 Rectified Flow Transformer 做高质量文本到图像生成。

Qwen-Image 的重点又不同。

它把复杂文字渲染、中文英文混排、图像编辑一致性当成核心能力，并在技术报告里强调了 Qwen2.5-VL 与 MMDiT、VAE 表示之间的对齐。

这说明今天的“会画图”，已经不只是美术风格问题。

它正在变成一个更复杂的问题：

语言理解
+ 世界知识
+ 版式理解
+ 空间关系
+ 文字渲染
+ 主体一致性
+ 编辑前后保真
+ 生成器稳定性

所以，新一代图像模型更“听话”，不是因为 prompt 咒语更神秘。

而是因为：

用户意图进入生成过程的通道更宽、更深、更稳定了。

Prompt 如何约束图像生成：文字 token 通过 Attention 进入 latent 生成过程

六、统一多模态：看图和画图能不能变成一个模型？

现在来到最关键的问题。

既然识别图片是：

图片 -> 文字

生成图片是：

文字 -> 图片

那能不能训练一个模型，同时做这两件事？

答案是：可以，但并不简单。

因为“理解图像”和“生成图像”需要的视觉表示并不一样。

理解图片时，模型关心的是语义：

这里有一只猫
猫坐在窗边
左上角有一行文字
这张表格第三列是金额

生成图片时，模型还要关心极细的视觉细节：

毛发纹理
光照方向
字体笔画
边缘是否连续
人物身份是否一致
局部纹理是否破碎

一个视觉编码器如果太偏语义，生成时可能丢细节。

一个视觉编码器如果太偏像素，理解时又可能不够抽象。

DeepSeek 的 Janus 系列正是抓住了这个矛盾。

Janus 的核心思想是：

理解和生成共用一个 Transformer 主干，但视觉编码路径要解耦。

也就是说：

图像理解路径：图片 -> 语义视觉编码 -> 统一 Transformer -> 文字

图像生成路径：文字 -> 统一 Transformer -> 生成视觉编码 -> 图像

这条路线很适合用来解释“统一多模态”的难点。

它告诉我们：

统一不是把所有东西硬塞进一个编码器。

真正的统一，是在高层语义和任务空间里统一；在底层表示上，仍然允许不同模态、不同任务保留自己的专用通道。

Chameleon 则代表另一种思路：

把文本和图像都 token 化，放进同一个自回归序列模型里，让模型处理任意交错的文本和图像 token。

它的目标更像：

文字 token + 图像 token + 文字 token + 图像 token
  -> 同一个 Transformer
  -> 继续生成文字或图像 token

这听起来最接近“万物皆 token”。

但工程上非常困难，因为图像 token 数量巨大，训练稳定性、生成质量、对齐方式都会变复杂。

所以，今天的多模态架构大致分成四类：

类型	代表模型	输入输出	关键思想
图文对齐模型	CLIP	图片/文字 -> 向量	把图像和文本放进同一个语义空间
视觉语言模型	LLaVA、Qwen2.5-VL	图片+文字 -> 文字	视觉编码器接到 LLM，让 LLM 能围绕图片说话
图像生成模型	Stable Diffusion、SDXL、FLUX.1、Qwen-Image	文字/图片条件 -> 图片	用扩散、Flow、VAE、MMDiT 把意图展开成图像
统一多模态模型	Chameleon、Janus-Pro	文字+图片 -> 文字+图片	尝试用一个主干同时做理解和生成

这张表比“LLM 会不会画图”更重要。

因为它把混在一起的能力拆开了。

四类多模态模型积木：CLIP、VLM、图像生成模型、统一多模态模型

七、LLM 能泛化到多模态吗？

现在可以回答开头的问题了。

LLM 能不能泛化到多模态？

答案分两层。

如果你说的 LLM 是“只在文字上训练、只接收文字 token、只输出文字 token 的语言模型”，那它不能直接泛化到多模态。

它没有眼睛。

它不知道像素。

它需要视觉编码器、图像 tokenizer、投影层、多模态训练数据和新的对齐目标。

但如果你说的 LLM 是“一个巨大的自回归 Transformer，里面压缩了语言、知识、推理、任务规划和指令跟随能力”，那它确实可以成为多模态系统的核心大脑。

图片可以变成视觉 token。

视频可以变成时空 token。

声音可以变成音频 token。

动作可以变成控制 token。

只要这些 token 能进入同一个上下文，Transformer 就可以学习它们之间的关系。

所以最准确的说法是：

不是 LLM 天然泛化到多模态，而是 Transformer + token 化 + 表示对齐 + 多模态训练，让语言模型的能力可以迁移到更多模态上。

这也是为什么“Transformer”这个词比“LLM”更适合描述底层趋势。

LLM 是语言时代的名字。

多模态基础模型，是下一阶段更准确的名字。

八、从 ImageNet 到空间智能：今天的模型站在哪里？

如果要理解今天图像 AI 的位置，李飞飞是一条绕不开的线索。

她参与推动的 ImageNet，曾经把计算机视觉带进一个新阶段。

那时最核心的问题是：

给一张图片，模型能不能认出里面是什么？

2012 年 AlexNet 在 ImageNet 上取得突破后，深度学习真正席卷视觉领域。

从那以后，计算机视觉的主线很长一段时间都是：

分类 -> 检测 -> 分割 -> 图文对齐 -> 看图问答

但这里有一个容易被忽略的事实：

识别物体，不等于理解世界。

一张图里有“杯子”，这只是第一层。

杯子在桌子的左边还是右边？

杯子会不会掉下去？

人伸手过去能不能拿到？

如果把杯子移动到画面另一侧，阴影和遮挡应该怎么变？

这些问题已经不只是“图像识别”。

它们进入了更高一层：

空间智能。

李飞飞近几年反复强调的，正是这个方向：AI 不应该只处理文字，也不应该只给图片打标签，而要能够理解、生成并推理三维世界中的对象、关系、动作和变化。

这给我们一个很重要的判断标准：

图像 AI 的终点，不是把图片描述成一句话，而是建立一个可以被推理、生成和行动使用的世界表示。

用这把尺子看今天的主流模型，会更清楚。

GPT-4V、Claude、Gemini、Qwen2.5-VL 这类模型，已经能把图片接进语言推理系统。

它们擅长：

描述图片
理解截图
读图表和文档
回答视觉问题
把图片内容转成文字推理

但它们仍然不等于完整的视觉智能。

OpenAI 的 GPT-4V system card 明确提醒过，模型可能出现视觉幻觉，也可能在细节、空间关系、医学图像等高风险场景犯错。

Anthropic 的 Claude 视觉文档也把空间推理、计数、低质量小图、医学诊断等列为限制场景。

学术界的 BLINK、MMVP 等评测，则把问题拆得更细：

两个图形是否真的相交？
物体左右关系是否判断正确？
图片里的细微视觉模式是否被识别？
模型是不是只靠语言先验在猜？

这些题有时对人类很简单，但对多模态大模型并不稳定。

这不是说它们“没用”。

恰恰相反，这说明它们已经强到需要更精细的评估。

但我们不能把“能接收图片输入”误读成“已经拥有人的视觉系统”。

今天主流模型大致站在这里：

物体识别：已经很成熟
图文对齐：已经非常强
看图问答：进入可用阶段，但仍有错觉和边界
图像生成：质量很高，控制性快速提升
图像编辑：正在从玩具走向生产工具
空间智能：刚刚开始

所以，这篇文章真正想给你的，不是一堆模型名。

而是一把尺子：

以后看到任何“多模态模型发布”，先问它解决的是哪一层：识别、对齐、问答、生成、编辑，还是空间智能？

这比单纯问“它是不是大模型”有用得多。

九、几个适合深挖的模型和项目

如果这篇文章要讲得通俗、深刻、准确，不能只围绕闭源模型，也不能只围绕图片。

闭源模型可以作为体验入口，但技术拆解最好依赖开源项目、公开论文和官方技术材料。

下面这些模型和项目，适合作为后续深层拆解对象。

1. Stable Diffusion / SDXL：经典扩散模型的主干

适合解释：

为什么要在 latent space 里生成；
VAE 如何压缩和解压图像；
U-Net 如何一步步去噪；
cross-attention 如何把 prompt 接进图像生成；
为什么图像生成不是“从左到右画出来”。

这条线适合承接经典扩散模型的直觉基础。

它是读者已经理解过的直觉基础。

2. Stable Diffusion 3 / MMDiT：图像生成里的多模态 Transformer

适合解释：

为什么图像生成模型也开始大量使用 Transformer；
为什么文本 token 和图像 token 需要更深交互；
MMDiT 里的“多模态”到底是什么意思；
为什么文字渲染和 prompt adherence 会变好。

这条线可以把上一篇的 DDPM / LDM 推进到现代图像模型。

3. FLUX.1：开源权重里的高质量 Flow Transformer

适合解释：

Rectified Flow 和经典扩散的区别；
为什么更直的生成路径可能减少采样步骤；
为什么大规模 Transformer 能提升图像质量和指令跟随；
open weights 对研究和工作流生态的意义。

这条线适合连接“开源社区现在在用什么”。

4. Qwen-Image：中文文字渲染和图像编辑的好案例

适合解释：

为什么以前 AI 画图里的文字经常是乱码；
为什么中文比英文文字渲染更难；
为什么图像编辑需要同时保留语义和像素细节；
Qwen2.5-VL、VAE、MMDiT 之间如何形成双重表示。

这条线尤其适合公众号。

因为中文文字渲染是读者一眼能感受到的进步。

5. LLaVA / Qwen2.5-VL：看图模型的透明样板

适合解释：

视觉编码器如何接到 LLM；
projector / adapter 到底在翻译什么；
为什么 VLM 能读图表、看截图、做 OCR；
为什么“看图回答”和“生成图片”不是同一种能力。

这条线适合澄清“AI 识别图片”和“AI 生成图片”的关系。

6. Janus-Pro：统一理解与生成的关键样板

适合解释：

为什么看图和画图不能只用一个视觉编码器硬扛；
为什么统一多模态需要任务路径解耦；
自回归模型如何同时服务图像理解和图像生成；
“原生多模态”不是产品宣传词，而是一个架构方向。

这条线适合作为文章的高潮。

它能把读者从“AI 会看图、会画图”带到：

AI 正在把不同模态都变成同一个世界模型的入口和出口。

7. AudioCraft / Stable Audio Open：声音不是文字的附属品

适合解释：

为什么语音转文字会丢失语气、音色和情绪；
为什么音乐生成不能只靠歌词或文字描述；
音频 token、codec、spectrogram 这些表示如何保留声音细节；
为什么自然声、环境声、音效也是世界信息的一部分。

这条线适合把“多模态”从图像扩展到听觉。

8. Sora / Veo / Movie Gen：视频不是一堆图片

适合解释：

为什么视频生成要处理时间一致性；
为什么运动、镜头、因果关系比单张图片更难；
为什么“画面好看”不等于“世界合理”；
为什么视频模型正在逼近世界模型问题。

这条线适合把图像生成推进到时间、动作和场景演化。

9. Genie / Genie 2：从看见世界到操作世界

适合解释：

为什么交互式视频环境比普通视频生成更接近世界模型；
动作 token 如何进入生成过程；
为什么“下一帧会发生什么”开始接近“如果我这样做会怎样”；
多模态如何从感知走向行动。

这条线适合作为未来讲具身智能、机器人和世界模型的入口。

十、这篇文章真正要讲的不是画图，而是世界接口

上一篇扩散模型文章讲的是：

AI 如何从噪声中生成一张图。

这一篇要往前走一步：

AI 如何把文字、图像、视频、声音接进同一个计算世界。

图片识别不是简单识别物体。

它是把视觉世界压缩成语言和语义。

图片生成不是简单画画。

它是把语言、意图、上下文和世界知识展开成视觉世界。

多模态也不是给 LLM 插一个摄像头。

它是让模型拥有更多输入和输出接口：

文字是接口
图片是接口
声音是接口
视频是接口
动作也是接口

当这些接口被统一到 token、embedding、Attention 和生成模型里，AI 就不再只是一个“会说话的模型”。

它开始接近一个更通用的东西：

一个可以在不同感官之间翻译、推理、生成和行动的世界模型。

这就是为什么“多模态”重要。

不是因为它让聊天框多了一个上传图片按钮。

而是因为它把 AI 从语言空间，推向了现实世界。

本公众号延伸阅读

如果你想把这张地图的几块底座补得更牢，可以回看这几篇：

向量底座：《AI 的数学语言（一）》和《看见数学（十一）：向量》，解释为什么“一组数字”可以描述一个对象。
语义底座：《当数字学会了远近亲疏——从查表到 Embedding 的一步跨越》，解释 token 如何变成语义坐标。
表示底座：《万物皆向量——当 AI 选择用数学理解世界》，解释为什么文字、图片、声音最终都会进入向量空间。
看图底座：《当 AI 学会了看——多模态大模型的架构拆解》，解释 ViT、CLIP、对齐模块和 LLaVA。
生成底座：《从噪声中看见猫——扩散模型的数学美学》，解释图像生成为什么是从噪声到图像的反向过程。

这篇文章站在它们上面，往前多走了一步：

不只问“模型怎么做”，还要问“它到底处在视觉智能的哪一级”。

配图与动图分镜

这篇的视觉质量必须比扩散模型文章上一个台阶。不要再只做白底卡片和简单卡通动图，应该采用“高质量主视觉 + 程序化清晰标注 + 动效机制图”的组合。

图 1：多模态架构地图

画面中心是一条主干：

token / embedding space

四个方向接入：

text tokens；
image patches / visual tokens；
audio tokens；
video spatial-temporal tokens。

中间是 Transformer / Attention。

右侧分出四个输出：

text answer；
image；
audio；
action。

视觉要求：科技图谱风，不要营销海报，不要抽象渐变球。文字标签后期用 PIL / SVG / HTML canvas 叠加，保证中文清晰。

图 2：看图和画图是两条相反链路

左半边：

image -> vision encoder -> visual embeddings -> LLM -> answer

右半边：

prompt -> text encoder / LLM context -> diffusion or flow transformer -> VAE -> image

中间放一句：

理解是压缩，生成是展开。

图 3：四类多模态模型积木

四个横向面板：

CLIP：image encoder + text encoder，对齐到同一语义空间；
VLM：vision encoder + projector + LLM；
image generator：text encoder + denoiser / flow transformer + VAE；
unified model：text tokens + image tokens -> shared transformer -> text/image output。

动图 1：图片如何进入 LLM

6-8 秒。

流程：

整张图片
-> 切成 patch 网格
-> patch 变成一串视觉 token
-> token 通过 projector 对齐
-> 插入 LLM 上下文
-> 输出“这是一张……”

这张动图要做得干净、慢、可读。每一步停顿 0.8-1.2 秒。

动图 2：prompt 如何约束图像生成

6-8 秒。

流程：

纯噪声 / latent
-> prompt tokens 靠近
-> attention 线连接具体词和图像区域
-> latent structure 出现
-> VAE 解码成图

重点不是炫酷，而是让读者看懂：文字不是咒语，是条件约束。

封面图

封面不要继续用卡通猫。

建议主视觉：

一个“多模态中枢”在画面中央，左侧进入文字、图片、声音波形、视频帧；右侧输出回答、海报、编辑后的图像和动作指令。整体风格接近科技杂志插画，颜色控制在深灰、青绿、琥珀、白色四种主色，不走单一蓝紫渐变。

封面文字：

AI 是怎么同时看图、懂图、画图的？

副标题：

从 LLM 到多模态的架构地图

参考资料

Ho, Jain, Abbeel, “Denoising Diffusion Probabilistic Models”, 2020.
Rombach et al., “High-Resolution Image Synthesis with Latent Diffusion Models”, 2022.
Podell et al., “SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis”, 2023.
Peebles and Xie, “Scalable Diffusion Models with Transformers”, 2023.
Stability AI, “Stable Diffusion 3: Research Paper”, 2024.
Black Forest Labs, FLUX.1 model cards and announcement.
Radford et al., “Learning Transferable Visual Models From Natural Language Supervision”, 2021.
Dosovitskiy et al., “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, 2020.
Liu et al., “Visual Instruction Tuning”, 2023.
Qwen Team, “Qwen2.5-VL Technical Report”, 2025.
Qwen Team, “Qwen-Image Technical Report”, 2025.
Chameleon Team, “Chameleon: Mixed-Modal Early-Fusion Foundation Models”, 2024.
DeepSeek-AI, “Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation”, 2024.
DeepSeek-AI, “Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling”, 2025.
Deng et al., “ImageNet: A Large-Scale Hierarchical Image Database”, 2009.
Russakovsky et al., “ImageNet Large Scale Visual Recognition Challenge”, 2015.
OpenAI, “GPT-4V(ision) System Card”, 2023.
Anthropic, “Claude Vision”, official documentation.
Fu et al., “BLINK: Multimodal Large Language Models Can See but Not Perceive”, 2024.
Tong et al., “Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs”, 2024.
Fei-Fei Li / World Labs, writings and interviews on spatial intelligence.
Copet et al., “Simple and Controllable Music Generation”, 2023. MusicGen / AudioCraft.
Stability AI, “Stable Audio Open”, model release and technical materials.
OpenAI, “Sora: Creating video from text”, technical report and system card.
Google DeepMind, “Veo” and “Veo 3” model announcements.
Meta, “Movie Gen: A Cast of Media Foundation Models”, 2024.
Google DeepMind, “Genie: Generative Interactive Environments” and “Genie 2”, 2024.

一、先把名字摆正#

LLM：语言模型，不等于所有智能模型#

Transformer：架构，不是语言模型专属#

VLM / MLLM / LMM：会看图的语言助手#

二、语言不是世界的全部#

三、图像识别：把图片翻译成模型能读的语言#

四、图像生成：不是把图片翻译成文字，而是把意图翻译成像素#

五、为什么新模型越来越“听话”？#

六、统一多模态：看图和画图能不能变成一个模型？#

七、LLM 能泛化到多模态吗？#

八、从 ImageNet 到空间智能：今天的模型站在哪里？#

九、几个适合深挖的模型和项目#

1. Stable Diffusion / SDXL：经典扩散模型的主干#

2. Stable Diffusion 3 / MMDiT：图像生成里的多模态 Transformer#

3. FLUX.1：开源权重里的高质量 Flow Transformer#

4. Qwen-Image：中文文字渲染和图像编辑的好案例#

5. LLaVA / Qwen2.5-VL：看图模型的透明样板#

6. Janus-Pro：统一理解与生成的关键样板#

7. AudioCraft / Stable Audio Open：声音不是文字的附属品#

8. Sora / Veo / Movie Gen：视频不是一堆图片#

9. Genie / Genie 2：从看见世界到操作世界#

十、这篇文章真正要讲的不是画图，而是世界接口#

本公众号延伸阅读#

配图与动图分镜#

图 1：多模态架构地图#

图 2：看图和画图是两条相反链路#

图 3：四类多模态模型积木#

动图 1：图片如何进入 LLM#

动图 2：prompt 如何约束图像生成#

封面图#

参考资料#

一、先把名字摆正

LLM：语言模型，不等于所有智能模型

Transformer：架构，不是语言模型专属

VLM / MLLM / LMM：会看图的语言助手

二、语言不是世界的全部

三、图像识别：把图片翻译成模型能读的语言

四、图像生成：不是把图片翻译成文字，而是把意图翻译成像素

五、为什么新模型越来越“听话”？

六、统一多模态：看图和画图能不能变成一个模型？

七、LLM 能泛化到多模态吗？

八、从 ImageNet 到空间智能：今天的模型站在哪里？

九、几个适合深挖的模型和项目

1. Stable Diffusion / SDXL：经典扩散模型的主干

2. Stable Diffusion 3 / MMDiT：图像生成里的多模态 Transformer

3. FLUX.1：开源权重里的高质量 Flow Transformer

4. Qwen-Image：中文文字渲染和图像编辑的好案例

5. LLaVA / Qwen2.5-VL：看图模型的透明样板

6. Janus-Pro：统一理解与生成的关键样板

7. AudioCraft / Stable Audio Open：声音不是文字的附属品

8. Sora / Veo / Movie Gen：视频不是一堆图片

9. Genie / Genie 2：从看见世界到操作世界

十、这篇文章真正要讲的不是画图，而是世界接口

本公众号延伸阅读

配图与动图分镜

图 1：多模态架构地图

图 2：看图和画图是两条相反链路

图 3：四类多模态模型积木

动图 1：图片如何进入 LLM

动图 2：prompt 如何约束图像生成

封面图

参考资料