<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>扩散模型 on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/</link><description>Recent content in 扩散模型 on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Thu, 14 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/%E6%89%A9%E6%95%A3%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml"/><item><title>从噪声中看见猫——扩散模型的数学美学</title><link>https://jason-azure.github.io/ai-blog/posts/diffusion-models/</link><pubDate>Tue, 12 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/diffusion-models/</guid><description>AI 画画不是从空白画布开始，也不是脑子里凭空想象出一只猫。扩散模型先学会一万种『猫如何被噪声毁掉』，再把这个毁掉的过程一步步倒放。生成的秘密，不是凭空创造，而是给噪声一个方向。</description></item><item><title>AI 到底是怎么看图、懂图、画图的？——从 LLM 到多模态的架构地图</title><link>https://jason-azure.github.io/ai-blog/posts/multimodal-image-architecture/</link><pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/multimodal-image-architecture/</guid><description>多模态不是让 LLM 简单长出眼睛。更准确地说，是把文字、图片、声音、视频变成模型能处理的 token 或 embedding，再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频，背后其实是几种不同的数据流。</description></item><item><title>机器人的 GPT 时刻：从会聊天到会干活</title><link>https://jason-azure.github.io/ai-blog/posts/robot-gpt-moment/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/robot-gpt-moment/</guid><description>ChatGPT 让 AI 学会了聊天，VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本，走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键，所以机器人的 GPT 时刻不会是一次突然刷屏，而是一场被数据、安全和工程慢慢推开的黎明。</description></item></channel></rss>