为什么 AI 离不开线性？因为人类的大脑也离不开

如果有人问你：AI 里最重要的数学是什么？
你大概会说"矩阵乘法"、“梯度下降”、“反向传播”。
但如果追问一句：为什么偏偏是这些？为什么不是更"复杂"的数学？
答案只有两个字：线性。

今天这篇文章，我们不写公式推导，而是追问一个更深的问题：

为什么人类选择了线性？是数学的必然，还是大脑的偏见？

一、你的大脑在骗你——线性直觉的"甜蜜陷阱"

先做一道简单的题：

池塘里的睡莲每天翻倍增长。第 48 天铺满整个池塘。
问：什么时候铺满一半？

大多数人的第一反应是"第 24 天"——因为 48 的一半是 24，多直觉啊。

正确答案是第 47 天。因为"每天翻倍"意味着指数增长，最后一天就翻了一倍。

你的大脑为什么会犯这个错？因为人脑的默认模式是线性思维——它天然假设增长是匀速的，像一条直线。

线性增长（蓝色）和指数增长（红色）：开始相似，后来天壤之别

这不是你的错。这是进化的结果。

在人类 99% 的进化史里，我们面对的世界大多是近似线性的：走 10 步比走 5 步远一倍，吃两个苹果比吃一个饱一倍。线性思维足以生存。

但大脑的这种"线性默认值"还有更深的表现——

Weber-Fechner 定律：你的感觉在"骗"你

1860 年，心理物理学家 Fechner 发现了一条惊人的规律：

感知 = log(物理刺激)
人的感知不是线性的，而是对数的。

什么意思？做个实验：

白开水里加 1 勺糖 → 嗯，甜了好多！
再加 1 勺 → 嗯，甜了一点。
再加 1 勺 → 嗯…好像差不多？

每次加的糖一样多（物理刺激等差），但你感觉到的变化越来越小（感知递减）。

蓝色柱（物理刺激）等差增长，橙色柱（感知强度）增量递减

这条定律对亮度、声音、重量、温度全部成立。它说明：

人脑用对数压缩世界，再用线性去理解它。
线性不是世界的本质，而是大脑的"操作系统"。

那么问题来了：如果线性只是人脑的偏见，为什么科学家和工程师也选择了线性？

二、什么是线性？——一个规则统治一切

“线性"这个词听起来很数学，但核心只有一条规则：

f(a + b) = f(a) + f(b)
整体的效果 = 各部分效果之和

用买水果来理解：

线性的：3 斤苹果的价格 = 1 斤苹果的价格 × 3（没有打折也没有加价）
非线性的：买 3 斤打八折——总价不等于单价的 3 倍了

线性的本质是：没有惊喜，没有交互效应。各部分独立，互不干扰。

这条规则在物理学中有一个更响亮的名字——叠加原理。

叠加原理：线性在物理中的化身

两个波同时传播时会怎样？答案是：各走各的，互不干扰。合成波 = 波1 + 波2。

两个波独立传播，合成波恰好是它们的逐点相加

这不仅仅是波的特性。叠加原理统治着物理学的大半江山：

领域	线性叠加的例子
电路	两个电压源 → 总电压 = V₁ + V₂
光学	两束光叠加 → 干涉条纹可以精确计算
力学	多个力同时作用 → 合力 = 各力之和
量子力学	薛定谔方程是线性的 → 波函数可叠加

为什么叠加原理如此普遍？因为线性是自然界小扰动的普遍近似：只要变化不太大，大部分物理现象都可以近似为线性的。

三、线性为什么"简单”？——从有限推无限

在上一篇（#22 矩阵乘法的几何直觉）里，我们看到了一个惊人的事实：

只要知道基向量 i 和 j 去了哪里，就知道整个空间的每一个点去了哪里。
一个 d 维的线性变换，只需要 d×d 个数字就能完全描述。

这就是线性的核心优势：用有限的信息控制无限的行为。

来看一张对比表：

特性	线性	非线性
参数量	d² 个	无穷（任意函数）
可预测性	知道基 → 知道一切	每个点都可能惊喜
可逆性	行列式≠0就可逆	不一定可逆
可组合性	矩阵乘法就是组合	组合后行为不可控
可学习性	梯度固定、优化凸	梯度可能爆炸/消失

线性变换具有四个"超能力"：

有限参数：d×d 个数字就够了
完全可预测：不会有意外行为
可以组合：A·B 还是线性的
容易学习：梯度下降保证收敛

一句话总结：
线性 = 用 d² 个数字控制无穷个点的变换。这就是"从有限推无限"的力量。

四、自然界的线性密码——波、光、声音

1807 年，一位叫傅里叶的法国数学家提出了一个疯狂的想法：

任何形状的波，都可以拆成一组正弦波的叠加。
方波、三角波、锯齿波……全部都可以。

当时的数学家们觉得他疯了。但后来的 200 年证明：他是对的。

看看一个方波如何被正弦波一层层"拼"出来：

方波 = 多个正弦谐波的叠加，谐波越多越逼近

为什么这能成功？因为正弦波是线性系统的特征函数。

这句话什么意思？还记得线性代数里的特征向量吗？

特征向量：矩阵 A 作用在向量 v 上，v 的方向不变，只被缩放 → Av = λv
特征函数：线性系统作用在正弦波上，波的形状不变，只改变大小和延迟

具体来说：你往一个线性系统（比如一个音箱、一根光纤）里输入一个正弦波 sin(ωt)，出来的还是同频率的正弦波，只不过可能变响了/变轻了（振幅变化），或者延迟了一下（相位偏移）：

输入：sin(ωt)　→　线性系统　→　输出：A · sin(ωt + φ)

频率 ω 没变！只是振幅 A 和相位 φ 改变了

这太好了！因为这意味着我们可以**“拆开→逐个分析→合起来”**：

把任意信号拆成一组正弦波（傅里叶分解）
每个正弦波独立通过系统（形状不变，互不干扰）
把结果加起来就是最终输出（叠加原理）

如果系统是非线性的，正弦波进去后会"变形"——产生新的频率（谐波失真），各频率之间互相耦合，就没法拆开分析了。所以非线性系统至今难以分析。

彩蛋：Transformer 的位置编码也是正弦波！

Vaswani 等人在 2017 年的原始 Transformer 论文中，选择了一个巧妙的位置编码方式：

PE(pos, 2i)   = sin(pos / 10000^(2i/d))
PE(pos, 2i+1) = cos(pos / 10000^(2i/d))

为什么偏偏用正弦/余弦？正是因为正余弦的线性特性：

相对位置可以线性表示：sin(pos+k) 和 cos(pos+k) 可以写成 sin(pos) 和 cos(pos) 的线性组合。这意味着模型可以通过一个固定的线性变换学会"往前看 k 个位置"。
不同频率编码不同尺度：低频正弦波编码大范围位置关系（“这句话在文章开头还是结尾”），高频正弦波编码局部位置关系（“这个词和前一个词”）——正好像傅里叶分析一样！

正弦波的"特征函数"性质，让位置信息可以优雅地注入到线性计算流中，不会干扰其他维度——又是叠加原理。

傅里叶的这个思想彻底改变了人类文明：

技术	怎么用线性（傅里叶）
MP3 音乐	拆成频率 → 扔掉人耳听不见的 → 压缩 10 倍
JPEG 图片	拆成空间频率 → 扔掉眼睛看不出的 → 压缩 20 倍
5G 通信	OFDM：把数据分配到不同频率的正弦波上并行传输
语音识别	声音 → 频谱图 → 让 AI 识别模式
Transformer	位置编码 = 不同频率的正弦波 → 编码序列位置

从 1807 年的傅里叶到 2017 年的 Transformer——正弦波跨越了 210 年，仍然是线性世界里最好用的"基础零件"。

五、神经网络的分工——搬运工与工头

现在回到 AI。

如果线性这么好，为什么不全用线性？答案是一个致命的问题：

多层线性 = 一层线性
矩阵 A × 矩阵 B = 矩阵 C，还是一个线性变换。堆 100 层线性层，等于 1 层。白搭。

这就是为什么 1989 年 Cybenko 的万能近似定理（回忆 #19 篇）如此重要——它说：

只要在线性层之间插入一个非线性激活函数（比如 ReLU），神经网络就可以逼近任意连续函数。

神经网络的秘密就在于分工：

角色	谁来做	干什么	比喻
搬运工	线性层 (W·x + b)	旋转、拉伸、搬运数据	把东西摆到合适的位置
工头	ReLU / GELU	折叠空间、做决策	决定哪些留下，哪些扔掉

线性旋转（搬运工）把数据摆好位置 → ReLU（工头）折叠空间 → 数据分开了

在 Transformer 里，这种分工无处不在：

Transformer 组件	线性部分	非线性部分
Attention（#18）	W_Q, W_K, W_V 投影	softmax（选择性聚焦）
MLP（#20）	W₁升维, W₂降维	GELU / ReLU（决策）
Embedding	查表 = 矩阵乘法	—
Output Head	线性投影到词表	softmax（概率化）

GPT 的 96% 计算量都花在线性运算（矩阵乘法）上。
非线性只占很小的比例，但正是那一点点"折叠"，让网络拥有了无穷的表达力。

六、高维诅咒与线性的救赎

前面说了线性的好处。但还有一个更深层的原因让线性成为唯一的选择：维度诅咒。

想象你要描述一个函数：

1 维：把区间分成 10 段 → 需要 10 个样本
2 维：10×10 的网格 → 需要 100 个样本
10 维：10¹⁰ = 100 亿个样本
100 维：10¹⁰⁰ 个样本 → 比宇宙中的原子还多

这就是维度诅咒：维度每增加一点，需要的数据就指数级爆炸。

但如果你限制自己只考虑线性函数呢？

100 维的一般函数：需要 10¹⁰⁰ 个参数
100 维的线性函数：只需要 10,000 个参数 (100²)
差了 10⁹⁶ 倍——这不是数量级的差别，这是物理上可能与不可能的差别。

随着维度增加，非线性参数量指数爆炸（红色），线性参数量温和增长（蓝色）

这就是为什么整个机器学习领域都遵循奥卡姆剃刀原则：

“如无必要，勿增实体。”
—— 奥卡姆的威廉，14 世纪

在 AI 里，这个原则变成了：

先用线性做主体计算（便宜、可靠、参数少）
只在必要时加一点非线性（提供表达力）
用正则化惩罚过度复杂（L1/L2/Dropout）

线性不是因为"懒"才被选择。在高维世界里，线性是唯一能承受的复杂度。

七、线性是人类认知的边界

最后，我想说一个更大的观察。

如果你回顾整个科学史，你会发现一个惊人的模式：

科学的方法论 = 找到一个坐标系，使得现象看起来是线性的。

牛顿力学：F = ma → 力和加速度成正比（线性！）
热力学：温度感觉非线性？取对数 → 线性了
相对论：时空弯曲？局部近似 → 还是线性
量子力学：波函数演化？薛定谔方程是线性的

人类能理解的数学，本质上都是线性的。非线性现象（湍流、混沌、三体问题），至今仍是未解之谜。

所以答案就出来了：

AI 离不开线性，因为——
线性是人类能理解、能计算、能优化的最强工具。
而非线性的那一点点"调味"，给了线性突破边界的能力。

闭环总结：线性在每个维度上的角色

维度	线性的角色	一句话
认知	大脑的默认操作系统	我们天生用线性思考
数学	有限参数控制无限行为	d² 个数字搞定一切
物理	叠加原理 + 傅里叶分析	拆开、分析、合起来
AI 工程	搬运工（96% 的计算量）	线性搬运 + 非线性折叠
统计	对抗维度诅咒的武器	奥卡姆剃刀的数学实现
哲学	人类认知的边界	能理解的 = 能线性化的

AI 数学系列回顾 (#19—#23)

篇号	标题	核心问题
19	万能近似定理	为什么神经网络能学任何函数？
20	MLP 知识仓库	知识存在哪里？怎么存的？
21	为什么需要 GPU	GPU 为什么比 CPU 快 100 倍？
22	矩阵乘法的几何直觉	矩阵乘法在几何上干了什么？
23	为什么 AI 离不开线性（本文）	线性为什么是 AI 的基石？

从第 19 篇到今天，我们走过了一条完整的链条：
万能近似 → 知识存储 → 硬件加速 → 几何直觉 → 线性本质
现在你知道了：AI 不是因为"凑巧"选了线性——
线性是人类认知能力所能触及的最远边界。在这条边界上，我们用 d² 个数字控制无穷个点，用一点点非线性打破边界——这就是 AI 的全部魔法。

一、你的大脑在骗你——线性直觉的"甜蜜陷阱"#

Weber-Fechner 定律：你的感觉在"骗"你#

二、什么是线性？——一个规则统治一切#

叠加原理：线性在物理中的化身#

三、线性为什么"简单”？——从有限推无限#

四、自然界的线性密码——波、光、声音#

彩蛋：Transformer 的位置编码也是正弦波！#

五、神经网络的分工——搬运工与工头#

六、高维诅咒与线性的救赎#

七、线性是人类认知的边界#

闭环总结：线性在每个维度上的角色#

AI 数学系列回顾 (#19—#23)#