AI 到底是怎么看图、懂图、画图的?——从 LLM 到多模态的架构地图
多模态不是让 LLM 简单长出眼睛。更准确地说,是把文字、图片、声音、视频变成模型能处理的 token 或 embedding,再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频,背后其实是几种不同的数据流。
多模态不是让 LLM 简单长出眼睛。更准确地说,是把文字、图片、声音、视频变成模型能处理的 token 或 embedding,再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频,背后其实是几种不同的数据流。