DeepSeek-R1:一个模型如何学会「思考」

2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。

2026年3月21日 · 6 分钟 · 1218 字 · AI Lab

AI 的数学语言(四):矩阵乘法与 AI——理解 Transformer 的最后一块拼图

从矩阵乘法到 Attention 完整公式:softmax(QK^T/√d)×V。把四篇数学基础组装成 Transformer 的核心引擎。零基础线性代数系列完结篇。

2026年2月22日 · 3 分钟 · 635 字 · AI Lab

MoE:671B 参数的模型,为什么只用 37B 就够了?

DeepSeek-V3 拥有 6710 亿参数,但每个 token 只激活 370 亿——不到总量的 6%。这不是偷懒,这是 AI 架构设计中最精巧的一课:不是所有神经元都需要同时工作。

2026年3月23日 · 5 分钟 · 960 字 · AI Lab

AI 的数学语言(五):激活函数——神经网络的开关

ReLU:一行代码 max(0, x) 让深度学习成为可能。理解激活函数为什么是神经网络不可或缺的非线性魔法。

2026年2月22日 · 5 分钟 · 1003 字 · AI Lab

两个圆之后(一):两个圆相遇的地方

找一张白纸,画两个圆。恭喜你——你刚刚做了一件六千年前埃及人做过的事。在那个杏仁形的重叠区里,藏着 √3、黄金比例,以及一朵开遍全世界的花。

2026年4月10日 · 1 分钟 · 211 字 · AI Lab

AI Agent 热潮冷思考:当我们拆掉所有包装之后

Agent、MCP、Manus、Coze……AI 热词一个接一个。但拆掉所有包装之后,你会发现一个更深层的问题:当技术不再是瓶颈,‘该做什么’这个被我们忽略了太久的问题,终于无处可藏了。

2026年3月23日 · 3 分钟 · 458 字 · AI Lab

AI 的数学语言(六):梯度下降——AI 怎么学习

从损失函数到反向传播:AI 训练的核心算法。理解 microgpt 和 nanoGPT 训练时 loss 为什么会下降。零基础数学系列完结篇。

2026年2月22日 · 5 分钟 · 990 字 · AI Lab

两个圆之后(二):完美的形状只有五个

从生命之花中提取13个圆心,用78条直线全部连接——一个叫做麦塔特隆立方体的图案浮现了。藏在里面的,是宇宙中仅有的五种完美形状。

2026年4月11日 · 2 分钟 · 419 字 · AI Lab

AI的70年(上):从达特茅斯的梦想到漫长的寒冬

1956年,十位科学家相信20年就能造出思考的机器。70年后回望,这条路比任何人想象的都要漫长。这是一群异端者的故事——他们在所有人都放弃的年代,选择继续相信。

2026年2月24日 · 3 分钟 · 595 字 · AI Lab

两个圆之后(三):伏羲的计算机

1701年,莱布尼茨收到一封来自北京的信,附着邵雍的六十四卦方圆图。他看了很久——这和他推演二十年的二进制计数表,严丝合缝。

2026年4月12日 · 2 分钟 · 402 字 · AI Lab