<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Microgpt on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/microgpt/</link><description>Recent content in Microgpt on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Sat, 28 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/microgpt/index.xml" rel="self" type="application/rss+xml"/><item><title>用 4192 个参数看透 Transformer：QKV、多头注意力、MLP 全拆解</title><link>https://jason-azure.github.io/ai-blog/posts/transformer-qkv-demo/</link><pubDate>Thu, 26 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/transformer-qkv-demo/</guid><description>用一个只有 4192 个参数的 GPT 模型，展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活，所有数字都来自真实训练。</description></item><item><title>为什么用 -log(p) 做损失函数？—— 从信息论到 Cross-Entropy 的完整推导</title><link>https://jason-azure.github.io/ai-blog/posts/cross-entropy-loss/</link><pubDate>Sat, 28 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/cross-entropy-loss/</guid><description>从 Shannon 1948 年的三条公理出发，理解为什么 GPT 的 loss 必须是 -log(p)：它是满足「信息量」定义的唯一函数，用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择，是数学必然。</description></item></channel></rss>