<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>LLM on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/categories/llm/</link><description>Recent content in LLM on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Fri, 17 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/categories/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>万亿字节的压缩术：LLM 如何把互联网装进一个模型</title><link>https://jason-azure.github.io/ai-blog/posts/llm-training-stages/</link><pubDate>Fri, 27 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-training-stages/</guid><description>你这辈子大概会读 5000 万个字。GPT 在训练时&amp;rsquo;读&amp;rsquo;过的量，相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容，还能写出从未存在过的文章。这是压缩吗？是理解吗？如果互联网消失了，能靠 LLM 复原吗？</description></item><item><title>为什么把模型做大就能变聪明？—— 从过拟合悖论到压缩即智能</title><link>https://jason-azure.github.io/ai-blog/posts/why-llm-understand-world/</link><pubDate>Fri, 13 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/why-llm-understand-world/</guid><description>300年的统计学理论说模型越大越差，但现实恰恰相反。Double Descent、彩票假说、Scaling Laws、奥卡姆剃刀——四条线索拼出一幅完整的图景：大模型的真正力量不是记忆力，而是压缩能力。而压缩，就是理解。</description></item><item><title>LLM 的知识藏在哪里？MLP 权重中的加密记忆</title><link>https://jason-azure.github.io/ai-blog/posts/mlp-knowledge/</link><pubDate>Wed, 11 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/mlp-knowledge/</guid><description>很多人以为 LLM 只是&amp;quot;鹦鹉学舌&amp;quot;的概率机器。但研究证明，LLM 确实存储了海量知识——就藏在 MLP 的权重矩阵中，以一种只有模型自己能解读的&amp;quot;加密&amp;quot;方式。这篇文章拆开这个秘密。</description></item><item><title>从文本到模型：LLM 数据处理全流程详解</title><link>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</link><pubDate>Tue, 17 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</guid><description>深入了解大语言模型 (LLM) 的数据处理流程：从原始文本到 Tokenization，从 Embedding 到 Transformer，一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。</description></item><item><title>从语言的本质到 Attention 的诞生——QKV 为什么长这样</title><link>https://jason-azure.github.io/ai-blog/posts/why-qkv/</link><pubDate>Thu, 05 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/why-qkv/</guid><description>语言是对世界的压缩，但用语言解释语言是死循环。40 年的规则尝试失败后，分布式假说绕过了这个问题，而 QKV 是它的工程终局。一篇从哲学到代码、从碳基到硅基的探索之旅。</description></item><item><title>LLM 全流程可视化：逐步拆解大语言模型的每一步计算</title><link>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</link><pubDate>Wed, 18 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</guid><description>用一个真实的 4.3M 参数模型（nanoGPT + 西游记），逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果，不是模拟。</description></item><item><title>从加减乘除到预测下一个字：Attention 机制零基础拆解</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-attention/</link><pubDate>Sat, 21 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-attention/</guid><description>用零基础也能懂的语言，拆解 Transformer 的核心：点积、缩放、Softmax、QKV、多头注意力、因果遮罩。既讲人类设计了什么，也讲机器自己学到了什么。</description></item><item><title>AI 的数学语言（一）：用数字画地图——从数轴到高维空间</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-1-vectors/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-1-vectors/</guid><description>从温度计上的刻度到 ChatGPT 里的词向量，理解 AI 的第一步：用一串数字描述万物。零基础线性代数系列第一篇。</description></item><item><title>AI 的数学语言（二）：向量的加减法——数字世界的方向与距离</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-2-dot-product/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-2-dot-product/</guid><description>从超市购物到 ChatGPT 的注意力机制：理解向量加减法、点积和余弦相似度。零基础线性代数系列第二篇。</description></item><item><title>AI 的数学语言（三）：矩阵——空间的变形术</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-3-matrices/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-3-matrices/</guid><description>矩阵是向量的加工机：缩放、旋转、投影。理解 Transformer 中 Q/K/V 投影的数学本质。零基础线性代数系列第三篇。</description></item><item><title>AI 的数学语言（四）：矩阵乘法与 AI——理解 Transformer 的最后一块拼图</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-4-matmul/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-4-matmul/</guid><description>从矩阵乘法到 Attention 完整公式：softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。</description></item><item><title>AI 的数学语言（五）：激活函数——神经网络的开关</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-5-activation/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-5-activation/</guid><description>ReLU：一行代码 max(0, x) 让深度学习成为可能。理解激活函数为什么是神经网络不可或缺的非线性魔法。</description></item><item><title>AI 的数学语言（六）：梯度下降——AI 怎么学习</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-6-gradient/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-6-gradient/</guid><description>从损失函数到反向传播：AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。</description></item><item><title>中文 vs 英文：大语言模型的语言鸿沟与技术突围</title><link>https://jason-azure.github.io/ai-blog/posts/chinese-english-llm/</link><pubDate>Tue, 03 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/chinese-english-llm/</guid><description>为什么 GPT-3 的中文只占训练数据的 0.1%？为什么同样一句话中文要花 13 倍的 Token？国内大模型是怎么用 15 万词表逆转这个劣势的？从训练语料、Tokenizer 到 Embedding，一篇讲透中英文 LLM 的底层差异。</description></item><item><title>LLM 中的概率论：从掷骰子到生成文本</title><link>https://jason-azure.github.io/ai-blog/posts/llm-probability/</link><pubDate>Fri, 13 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-probability/</guid><description>零基础理解大语言模型背后的概率论：条件概率、Softmax、交叉熵、Temperature、采样策略、大数定律与中心极限定理——用最直观的类比和动图，拆解 LLM 的数学骨架。</description></item><item><title>AI 为什么"一本正经地胡诌"？—— 幻觉的底层逻辑</title><link>https://jason-azure.github.io/ai-blog/posts/llm-hallucination-bullshit/</link><pubDate>Fri, 17 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-hallucination-bullshit/</guid><description>DeepSeek 给你编一个根本不存在的 API；国产大模型给研究生伪造 8 篇参考文献；自媒体因 AI 编造权威数据被封号 12 万粉。你以为 AI 在骗你 —— 不，它比骗更糟。骗人要先知道真相再刻意背离；AI 连真相这个坐标都没有。它是在胡诌。这篇把原理讲透。</description></item></channel></rss>