AI的70年(中):从两块显卡到改变世界的注意力机制
2012年,两块游戏显卡训练出的AlexNet震惊了整个AI领域。五年后,Google的一篇论文彻底终结了循环网络时代。又五年,ChatGPT上线。硬件、算法、数据——三条线索在这十年间完成了历史性的交汇。
2012年,两块游戏显卡训练出的AlexNet震惊了整个AI领域。五年后,Google的一篇论文彻底终结了循环网络时代。又五年,ChatGPT上线。硬件、算法、数据——三条线索在这十年间完成了历史性的交汇。
把金木水火土标号0-4,排成圆圈。相生每步跳1,相克每步跳2。都能走遍所有元素——因为5是素数。
AI会下棋、会写诗、会通过律师考试。但它真的在’思考’吗?从Chomsky的语言天赋论到LeCun的世界模型缺失,从随机鹦鹉到具身认知——这是一场关于智能本质的终极辩论。而70年AI之路的最深启示,也许不在技术之中。
一位瑞士心理学家,和一位唐代道士,隔着一千两百年和八千公里,看见了同一个几何图像。
AI 发展 70 年,本质是两个思想流派的交锋:符号主义相信规则,联结主义相信连接。今天的 ChatGPT 靠的是矩阵乘法加一行激活函数——为什么这么简单的东西就够了?一个 1989 年的数学定理给出了答案。
用一个只有 4192 个参数的 GPT 模型,展示 Transformer 内部每一步的真实数据——Token 嵌入、QKV 投影、多头注意力权重、MLP 稀疏激活,所有数字都来自真实训练。
不做证明,只建直觉。从矩阵乘法的三种视角出发,一步步搭建理解 Transformer 的完整数学框架:QKV 投影、多头注意力、残差连接、MLP,以及它们如何协作生成下一个 token。
为什么 GPT-3 的中文只占训练数据的 0.1%?为什么同样一句话中文要花 13 倍的 Token?国内大模型是怎么用 15 万词表逆转这个劣势的?从训练语料、Tokenizer 到 Embedding,一篇讲透中英文 LLM 的底层差异。
当我们谈论 AI 时,创业者、投资人、家长和研究者说的可能完全不是同一件事。本文用一张嵌套图理清 AI、机器学习、深度学习、LLM 的层级关系,用一个房价预测的例子让你感受机器学习的范式革命——以及为什么理解这件事,比你想象的更重要。
零基础理解大语言模型背后的概率论:条件概率、Softmax、交叉熵、Temperature、采样策略、大数定律与中心极限定理——用最直观的类比和动图,拆解 LLM 的数学骨架。