<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Transformer on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/transformer/</link><description>Recent content in Transformer on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Thu, 14 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/transformer/index.xml" rel="self" type="application/rss+xml"/><item><title>为什么 AI 离不开线性？因为人类的大脑也离不开</title><link>https://jason-azure.github.io/ai-blog/posts/why-linearity/</link><pubDate>Fri, 13 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/why-linearity/</guid><description>线性不是世界的本质，而是大脑的&amp;rsquo;操作系统&amp;rsquo;。从认知偏差到万能近似，从傅里叶到 Transformer 位置编码——一根直线如何撬动整个 AI。6 张动图，一篇从认知科学到工程哲学的深度探索。</description></item><item><title>为什么 LLM 要用 GPU？从游戏显卡到 AI 引擎</title><link>https://jason-azure.github.io/ai-blog/posts/why-gpu/</link><pubDate>Thu, 12 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/why-gpu/</guid><description>训练 ChatGPT 用的不是什么神秘的 AI 芯片，而是打游戏用的显卡。一块为了让游戏画面更流畅而设计的芯片，为什么成了 AI 革命的引擎？因为游戏画面和语言理解在底层共享了同一个数学本质——矩阵乘法。</description></item><item><title>一看就懂：矩阵乘法到底对 LLM 做了什么？</title><link>https://jason-azure.github.io/ai-blog/posts/geometric-intuition/</link><pubDate>Thu, 12 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/geometric-intuition/</guid><description>GPT 的本质就是矩阵乘法。但矩阵乘法到底在干什么？9 张动图，把 GPT 里最核心的数学拍给你看。维度变了，几何没变——看懂 2D，就看懂了 GPT。</description></item><item><title>LLM 的知识藏在哪里？MLP 权重中的加密记忆</title><link>https://jason-azure.github.io/ai-blog/posts/mlp-knowledge/</link><pubDate>Wed, 11 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/mlp-knowledge/</guid><description>很多人以为 LLM 只是&amp;quot;鹦鹉学舌&amp;quot;的概率机器。但研究证明，LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中，以一种只有模型自己能解读的&amp;quot;加密&amp;quot;方式。这篇文章拆开这个秘密。</description></item><item><title>从文本到模型：LLM 数据处理全流程详解</title><link>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</link><pubDate>Tue, 17 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</guid><description>深入了解大语言模型 (LLM) 的数据处理流程：从原始文本到 Tokenization，从 Embedding 到 Transformer，一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。</description></item><item><title>从语言的本质到 Attention 的诞生——QKV 为什么长这样</title><link>https://jason-azure.github.io/ai-blog/posts/why-qkv/</link><pubDate>Thu, 05 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/why-qkv/</guid><description>语言是对世界的压缩，但用语言解释语言是死循环。40 年的规则尝试失败后，分布式假说绕过了这个问题，而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。</description></item><item><title>LLM 全流程可视化：逐步拆解大语言模型的每一步计算</title><link>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</link><pubDate>Wed, 18 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</guid><description>用一个真实的 4.3M 参数模型（nanoGPT + 西游记），逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果，不是模拟。</description></item><item><title>从加减乘除到预测下一个字：Attention 机制零基础拆解</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-attention/</link><pubDate>Sat, 21 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-attention/</guid><description>用零基础也能懂的语言，拆解 Transformer 的核心：点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么，也讲机器自己学到了什么。</description></item><item><title>神经网络沉浮录：从万众瞩目到无人问津，再到改变世界</title><link>https://jason-azure.github.io/ai-blog/posts/neural-network-history/</link><pubDate>Thu, 19 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/neural-network-history/</guid><description>一个 80 年的真实故事：被一本书判了死刑，被一个算法起死回生，靠改名字重获新生——科技的命运，终究也逃不过人性。</description></item><item><title>AI 的数学语言（三）：矩阵——空间的变形术</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-3-matrices/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-3-matrices/</guid><description>矩阵是向量的加工机：缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。</description></item><item><title>AI 的数学语言（四）：矩阵乘法与 AI——理解 Transformer 的最后一块拼图</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-4-matmul/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-4-matmul/</guid><description>从矩阵乘法到 Attention 完整公式：softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。</description></item><item><title>AI的70年（中）：从两块显卡到改变世界的注意力机制</title><link>https://jason-azure.github.io/ai-blog/posts/ai-history-2/</link><pubDate>Tue, 24 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/ai-history-2/</guid><description>2012年，两块游戏显卡训练出的AlexNet震惊了整个AI领域。五年后，Google的一篇论文彻底终结了循环网络时代。又五年，ChatGPT上线。硬件、算法、数据——三条线索在这十年间完成了历史性的交汇。</description></item><item><title>用 4192 个参数看透 Transformer：QKV、多头注意力、MLP 全拆解</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-qkv-demo/</link><pubDate>Thu, 26 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-qkv-demo/</guid><description>用一个只有 4192 个参数的 GPT 模型，展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活，所有数字都来自真实训练。</description></item><item><title>从矩阵乘法到 Transformer：LLM 背后的数学直觉</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-math/</link><pubDate>Mon, 02 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-math/</guid><description>不做证明，只建直觉。从矩阵乘法的三种视角出发，一步步搭建理解 Transformer 的完整数学框架：QKV 投影、多头注意力、残差连接、MLP，以及它们如何协作生成下一个 token。</description></item><item><title>AI 全景定位：从概念迷雾到清晰地图</title><link>https://jason-azure.github.io/ai-blog/posts/ai-landscape/</link><pubDate>Sat, 07 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/ai-landscape/</guid><description>当我们谈论 AI 时，创业者、投资人、家长和研究者说的可能完全不是同一件事。本文用一张嵌套图理清 AI、机器学习、深度学习、LLM 的层级关系，用一个房价预测的例子让你感受机器学习的范式革命——以及为什么理解这件事，比你想象的更重要。</description></item><item><title>看见数学（五）：方程的力量——自然界的源代码</title><link>https://jason-azure.github.io/ai-blog/posts/see-math-5-equations/</link><pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/see-math-5-equations/</guid><description>方程不是考试题。方程是人类发现的自然界的源代码。从《九章算术》的&amp;quot;方程&amp;quot;二字到 Transformer 的注意力公式，每一个方程背后都是人类对世界的一次深刻理解。第一幕收官之作。</description></item><item><title>看见数学（十二）：矩阵——空间的变形术</title><link>https://jason-azure.github.io/ai-blog/posts/see-math-12-matrices/</link><pubDate>Thu, 19 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/see-math-12-matrices/</guid><description>矩阵不是&amp;quot;一堆数排成方块&amp;quot;。矩阵是一个变换器——它可以旋转、缩放、投影整个空间。神经网络的每一层，就是一次矩阵变换。而两千年前的《九章算术》，已经在用矩阵解方程了。</description></item><item><title>从手写数字识别到 ChatGPT——一个最简单的神经网络能教会我们什么</title><link>https://jason-azure.github.io/ai-blog/posts/mnist-to-chatgpt/</link><pubDate>Mon, 30 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/mnist-to-chatgpt/</guid><description>用纯 Python 和 NumPy 从零搭了一个 10 个神经元的神经网络，识别手写数字，然后把它拆开——看清了模板匹配、投票矩阵和每一步计算。从这个最小的网络出发，聊聊 FNN、CNN、RNN、Transformer 的演进，以及可解释性的边界。</description></item><item><title>第一个词和第五个词有什么不同？——位置编码的数学与直觉</title><link>https://jason-azure.github.io/ai-blog/posts/positional-encoding/</link><pubDate>Thu, 02 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/positional-encoding/</guid><description>Transformer 天生是个色盲——它能看清每个词的颜色（语义），却分不清词的位置。&amp;lsquo;猫吃鱼&amp;rsquo;和&amp;rsquo;鱼吃猫&amp;rsquo;在它眼中完全等价。为了让模型学会&amp;rsquo;谁在前谁在后&amp;rsquo;，研究者发明了一种优雅到不真实的方案：把位置信息编码成波，然后直接加到语义向量上。这一步看似暴力，实则深刻。</description></item><item><title>从一个取反说起——计算机如何从「只会加法」走到「AI 写诗」</title><link>https://jason-azure.github.io/ai-blog/posts/gates-to-gpt/</link><pubDate>Mon, 23 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/gates-to-gpt/</guid><description>~5 = -6？从这个小困惑出发，我们穿越 7 层抽象，看见逻辑门如何一步步堆叠成 ChatGPT。这是一篇写给所有人的计算机底层原理科普。</description></item><item><title>一个加号拯救了深度学习——残差连接的前世今生</title><link>https://jason-azure.github.io/ai-blog/posts/residual-connection/</link><pubDate>Fri, 03 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/residual-connection/</guid><description>2015 年，何恺明发现了一件诡异的事：56 层的神经网络比 20 层的更差——不是过拟合，是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号：y = F(x) + x。就这一个加号，让网络从 20 层一路堆到 1000 层，让 Transformer 成为可能，让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。</description></item><item><title>世界模型之争 —— LLM 到底懂不懂这个世界？</title><link>https://jason-azure.github.io/ai-blog/posts/world-model-debate/</link><pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/world-model-debate/</guid><description>AlphaFold 拿了诺贝尔奖，GPT 通过了律师考试——但 Sora 的玻璃穿过了桌子。LLM 到底懂不懂这个世界？LeCun 离开 Meta 创办 AMI Labs，李飞飞押注 World Labs，谢赛宁两次拒绝 Ilya——站在前沿的人给出了截然不同的答案。</description></item><item><title>看见物理(八·收官):对称性——诺特、杨振宁、和我们这一路看见的东西</title><link>https://jason-azure.github.io/ai-blog/posts/see-physics-8-symmetry/</link><pubDate>Mon, 27 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/see-physics-8-symmetry/</guid><description>1918 年,一位被哥廷根大学拒绝授予教职的犹太女数学家,写下了一行让物理学换骨的定理:每一个对称,都对应一个守恒量。从此能量、动量、电磁场、质量,都成了宇宙『不在乎什么』的影子。这一篇,我们用对称性把整个系列串起来,也借此向《看见物理》八篇告别——并把这副从物理里磨出来的眼睛,带到下一个十字路口。</description></item><item><title>AI 的十字路口</title><link>https://jason-azure.github.io/ai-blog/posts/ai-crossroads/</link><pubDate>Fri, 01 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/ai-crossroads/</guid><description>2025 年 1 月底,一家此前在英文世界几乎没人念得对名字的中国公司,把英伟达推下悬崖。但故事不是『中国赢了』,也不是『开源赢了』。真正发生的事情是:那条所有人以为只有一条的路,在那一周分了岔。开源与闭源、通用与垂直、Transformer 之后、大模型与小模型、连发明者本身都散去了不同方向——AI 的未来不再是一个,而是同时有几个。这一篇,我们站在路口往几个方向看,听听站在路口的那些人怎么说,再画一张可以反复对照的地图。</description></item><item><title>当 AI 学会了看——多模态大模型的架构拆解</title><link>https://jason-azure.github.io/ai-blog/posts/multimodal-llm-architecture/</link><pubDate>Sat, 11 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/multimodal-llm-architecture/</guid><description>GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么&amp;rsquo;看见&amp;rsquo;图像的？答案藏在三个组件的协作中：视觉编码器把图像切成 token，对齐模块把视觉 token 翻译成语言能懂的格式，LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA，完整拆解多模态大模型的架构。</description></item><item><title>万物皆向量——当 AI 选择用数学理解世界</title><link>https://jason-azure.github.io/ai-blog/posts/vectors-language-of-understanding/</link><pubDate>Sun, 12 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/vectors-language-of-understanding/</guid><description>多模态 AI 揭示了一个深刻的事实：文字、图片、声音——看似截然不同的信息形式，最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题：理解这个世界，最终都要变成语言吗？还是说，有一种比语言更底层的&amp;rsquo;表示&amp;rsquo;在承载真正的理解？</description></item><item><title>AI 到底是怎么看图、懂图、画图的？——从 LLM 到多模态的架构地图</title><link>https://jason-azure.github.io/ai-blog/posts/multimodal-image-architecture/</link><pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/multimodal-image-architecture/</guid><description>多模态不是让 LLM 简单长出眼睛。更准确地说，是把文字、图片、声音、视频变成模型能处理的 token 或 embedding，再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频，背后其实是几种不同的数据流。</description></item><item><title>机器人的 GPT 时刻：从会聊天到会干活</title><link>https://jason-azure.github.io/ai-blog/posts/robot-gpt-moment/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/robot-gpt-moment/</guid><description>ChatGPT 让 AI 学会了聊天，VLA 正在让 AI 学会干活。机器人终于从写死的动作脚本，走向能看、能听、能规划、能动手的通用模型。但物理世界没有撤回键，所以机器人的 GPT 时刻不会是一次突然刷屏，而是一场被数据、安全和工程慢慢推开的黎明。</description></item></channel></rss>