
从噪声中看见猫——扩散模型的数学美学
AI 画画不是从空白画布开始,也不是脑子里凭空想象出一只猫。扩散模型先学会一万种『猫如何被噪声毁掉』,再把这个毁掉的过程一步步倒放。生成的秘密,不是凭空创造,而是给噪声一个方向。

AI 画画不是从空白画布开始,也不是脑子里凭空想象出一只猫。扩散模型先学会一万种『猫如何被噪声毁掉』,再把这个毁掉的过程一步步倒放。生成的秘密,不是凭空创造,而是给噪声一个方向。
多模态不是让 LLM 简单长出眼睛。更准确地说,是把文字、图片、声音、视频变成模型能处理的 token 或 embedding,再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频,背后其实是几种不同的数据流。
ChatGPT 让 AI 学会了聊天,VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本,走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键,所以机器人的 GPT 时刻不会是一次突然刷屏,而是一场被数据、安全和工程慢慢推开的黎明。