<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Attention on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/attention/</link><description>Recent content in Attention on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Thu, 02 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/attention/index.xml" rel="self" type="application/rss+xml"/><item><title>一看就懂：矩阵乘法到底对 LLM 做了什么？</title><link>https://jason-azure.github.io/ai-blog/posts/geometric-intuition/</link><pubDate>Thu, 12 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/geometric-intuition/</guid><description>GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么？9 张动图，把 GPT 里最核心的数学拍给你看。维度变了，几何没变——看懂 2D，就看懂了 GPT。</description></item><item><title>从语言的本质到 Attention 的诞生——QKV 为什么长这样</title><link>https://jason-azure.github.io/ai-blog/posts/why-qkv/</link><pubDate>Thu, 05 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/why-qkv/</guid><description>语言是对世界的压缩，但用语言解释语言是死循环。40 年的规则尝试失败后，分布式假说绕过了这个问题，而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。</description></item><item><title>LLM 全流程可视化：逐步拆解大语言模型的每一步计算</title><link>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</link><pubDate>Wed, 18 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</guid><description>用一个真实的 4.3M 参数模型（nanoGPT + 西游记），逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果，不是模拟。</description></item><item><title>从加减乘除到预测下一个字：Attention 机制零基础拆解</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-attention/</link><pubDate>Sat, 21 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-attention/</guid><description>用零基础也能懂的语言，拆解 Transformer 的核心：点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么，也讲机器自己学到了什么。</description></item><item><title>AI 的数学语言（四）：矩阵乘法与 AI——理解 Transformer 的最后一块拼图</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-4-matmul/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-4-matmul/</guid><description>从矩阵乘法到 Attention 完整公式：softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。</description></item><item><title>用 4192 个参数看透 Transformer：QKV、多头注意力、MLP 全拆解</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-qkv-demo/</link><pubDate>Thu, 26 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-qkv-demo/</guid><description>用一个只有 4192 个参数的 GPT 模型，展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活，所有数字都来自真实训练。</description></item><item><title>从矩阵乘法到 Transformer：LLM 背后的数学直觉</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-math/</link><pubDate>Mon, 02 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-math/</guid><description>不做证明，只建直觉。从矩阵乘法的三种视角出发，一步步搭建理解 Transformer 的完整数学框架：QKV 投影、多头注意力、残差连接、MLP，以及它们如何协作生成下一个 token。</description></item><item><title>看见数学（五）：方程的力量——自然界的源代码</title><link>https://jason-azure.github.io/ai-blog/posts/see-math-5-equations/</link><pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/see-math-5-equations/</guid><description>方程不是考试题。方程是人类发现的自然界的源代码。从《九章算术》的&amp;quot;方程&amp;quot;二字到 Transformer 的注意力公式，每一个方程背后都是人类对世界的一次深刻理解。第一幕收官之作。</description></item><item><title>第一个词和第五个词有什么不同？——位置编码的数学与直觉</title><link>https://jason-azure.github.io/ai-blog/posts/positional-encoding/</link><pubDate>Thu, 02 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/positional-encoding/</guid><description>Transformer 天生是个色盲——它能看清每个词的颜色（语义），却分不清词的位置。&amp;lsquo;猫吃鱼&amp;rsquo;和&amp;rsquo;鱼吃猫&amp;rsquo;在它眼中完全等价。为了让模型学会&amp;rsquo;谁在前谁在后&amp;rsquo;，研究者发明了一种优雅到不真实的方案：把位置信息编码成波，然后直接加到语义向量上。这一步看似暴力，实则深刻。</description></item></channel></rss>