扩散模型 | AI 学习笔记

从噪声中看见猫——扩散模型的数学美学

AI 画画不是从空白画布开始，也不是脑子里凭空想象出一只猫。扩散模型先学会一万种『猫如何被噪声毁掉』，再把这个毁掉的过程一步步倒放。生成的秘密，不是凭空创造，而是给噪声一个方向。

AI 到底是怎么看图、懂图、画图的？——从 LLM 到多模态的架构地图

多模态不是让 LLM 简单长出眼睛。更准确地说，是把文字、图片、声音、视频变成模型能处理的 token 或 embedding，再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频，背后其实是几种不同的数据流。

机器人的 GPT 时刻：从会聊天到会干活

ChatGPT 让 AI 学会了聊天，VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本，走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键，所以机器人的 GPT 时刻不会是一次突然刷屏，而是一场被数据、安全和工程慢慢推开的黎明。