AI 的数学语言(四):矩阵乘法与 AI——理解 Transformer 的最后一块拼图

从矩阵乘法到 Attention 完整公式:softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。

2026年2月22日 · 3 分钟 · 635 字 · AI Lab

AI的70年(中):从两块显卡到改变世界的注意力机制

2012年,两块游戏显卡训练出的AlexNet震惊了整个AI领域。五年后,Google的一篇论文彻底终结了循环网络时代。又五年,ChatGPT上线。硬件、算法、数据——三条线索在这十年间完成了历史性的交汇。

2026年2月24日 · 3 分钟 · 562 字 · AI Lab

用 4192 个参数看透 Transformer:QKV、多头注意力、MLP 全拆解

用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。

2026年2月26日 · 9 分钟 · 1807 字 · AI Lab

从矩阵乘法到 Transformer:LLM 背后的数学直觉

不做证明,只建直觉。从矩阵乘法的三种视角出发,一步步搭建理解 Transformer 的完整数学框架:QKV 投影、多头注意力、残差连接、MLP,以及它们如何协作生成下一个 token。

2026年3月2日 · 7 分钟 · 1387 字 · AI Lab

AI 全景定位:从概念迷雾到清晰地图

当我们谈论 AI 时,创业者、投资人、家长和研究者说的可能完全不是同一件事。本文用一张嵌套图理清 AI、机器学习、深度学习、LLM 的层级关系,用一个房价预测的例子让你感受机器学习的范式革命——以及为什么理解这件事,比你想象的更重要。

2026年3月7日 · 3 分钟 · 557 字 · AI Lab

看见数学(五):方程的力量——自然界的源代码

方程不是考试题。方程是人类发现的自然界的源代码。从《九章算术》的"方程"二字到 Transformer 的注意力公式,每一个方程背后都是人类对世界的一次深刻理解。第一幕收官之作。

2026年3月17日 · 5 分钟 · 1060 字 · AI Lab

看见数学(十二):矩阵——空间的变形术

矩阵不是"一堆数排成方块"。矩阵是一个变换器——它可以旋转、缩放、投影整个空间。神经网络的每一层,就是一次矩阵变换。而两千年前的《九章算术》,已经在用矩阵解方程了。

2026年3月19日 · 3 分钟 · 519 字 · AI Lab

从手写数字识别到 ChatGPT——一个最简单的神经网络能教会我们什么

用纯 Python 和 NumPy 从零搭了一个 10 个神经元的神经网络,识别手写数字,然后把它拆开——看清了模板匹配、投票矩阵和每一步计算。从这个最小的网络出发,聊聊 FNN、CNN、RNN、Transformer 的演进,以及可解释性的边界。

2026年3月30日 · 5 分钟 · 928 字 · AI Lab

第一个词和第五个词有什么不同?——位置编码的数学与直觉

Transformer 天生是个色盲——它能看清每个词的颜色(语义),却分不清词的位置。‘猫吃鱼’和’鱼吃猫’在它眼中完全等价。为了让模型学会’谁在前谁在后’,研究者发明了一种优雅到不真实的方案:把位置信息编码成波,然后直接加到语义向量上。这一步看似暴力,实则深刻。

2026年4月2日 · 12 分钟 · 2366 字 · AI Lab

从一个取反说起——计算机如何从「只会加法」走到「AI 写诗」

~5 = -6?从这个小困惑出发,我们穿越 7 层抽象,看见逻辑门如何一步步堆叠成 ChatGPT。这是一篇写给所有人的计算机底层原理科普。

2026年3月23日 · 8 分钟 · 1699 字 · AI Lab