AI的70年(中):从两块显卡到改变世界的注意力机制

2012年,两块游戏显卡训练出的AlexNet震惊了整个AI领域。五年后,Google的一篇论文彻底终结了循环网络时代。又五年,ChatGPT上线。硬件、算法、数据——三条线索在这十年间完成了历史性的交汇。

2026年2月24日 · 3 分钟 · 562 字 · AI Lab

AI的70年(下):争鸣——机器究竟有没有在思考?

AI会下棋、会写诗、会通过律师考试。但它真的在’思考’吗?从Chomsky的语言天赋论到LeCun的世界模型缺失,从随机鹦鹉到具身认知——这是一场关于智能本质的终极辩论。而70年AI之路的最深启示,也许不在技术之中。

2026年2月24日 · 3 分钟 · 538 字 · AI Lab

为什么矩阵和激活函数就能涌现智能?——从符号主义到万能近似定理

AI 发展 70 年,本质是两个思想流派的交锋:符号主义相信规则,联结主义相信连接。今天的 ChatGPT 靠的是矩阵乘法加一行激活函数——为什么这么简单的东西就够了?一个 1989 年的数学定理给出了答案。

2026年3月10日 · 3 分钟 · 559 字 · AI Lab

用 4192 个参数看透 Transformer:QKV、多头注意力、MLP 全拆解

用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。

2026年2月26日 · 9 分钟 · 1807 字 · AI Lab

从矩阵乘法到 Transformer:LLM 背后的数学直觉

不做证明,只建直觉。从矩阵乘法的三种视角出发,一步步搭建理解 Transformer 的完整数学框架:QKV 投影、多头注意力、残差连接、MLP,以及它们如何协作生成下一个 token。

2026年3月2日 · 7 分钟 · 1387 字 · AI Lab

AI 全景定位:从概念迷雾到清晰地图

当我们谈论 AI 时,创业者、投资人、家长和研究者说的可能完全不是同一件事。本文用一张嵌套图理清 AI、机器学习、深度学习、LLM 的层级关系,用一个房价预测的例子让你感受机器学习的范式革命——以及为什么理解这件事,比你想象的更重要。

2026年3月7日 · 3 分钟 · 557 字 · AI Lab

Shannon 没有想到的事——当信息论遇上有限算力

Shannon 说「压缩 = 预测 = 理解」。但他假设观察者有无限算力。2026 年的一篇论文补上了这个前提,提出 epiplexity——衡量有限算力观察者能从数据中学到多少结构的新度量。

2026年3月30日 · 3 分钟 · 484 字 · AI Lab

计算机只懂 0 和 1——从莫尔斯电码到 GPT 的编码简史

Token、Embedding、Encode/Decode——这些 AI 术语听起来很新,但它们和 ASCII、Unicode 是同一件事的不同层次。计算机 200 年来一直在做同一件事:把符号变成数字。

2026年3月30日 · 5 分钟 · 994 字 · AI Lab

为什么用 -log(p) 做损失函数?—— 从信息论到 Cross-Entropy 的完整推导

从 Shannon 1948 年的三条公理出发,理解为什么 GPT 的 loss 必须是 -log(p):它是满足「信息量」定义的唯一函数,用它做 loss 等价于最大似然估计和最小化 KL 散度——这不是经验选择,是数学必然。

2026年3月28日 · 5 分钟 · 1063 字 · AI Lab

从手写数字识别到 ChatGPT——一个最简单的神经网络能教会我们什么

用纯 Python 和 NumPy 从零搭了一个 10 个神经元的神经网络,识别手写数字,然后把它拆开——看清了模板匹配、投票矩阵和每一步计算。从这个最小的网络出发,聊聊 FNN、CNN、RNN、Transformer 的演进,以及可解释性的边界。

2026年3月30日 · 5 分钟 · 928 字 · AI Lab