DeepSeek-R1:一个模型如何学会「思考」

2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。

2026年3月21日 · 6 分钟 · 1218 字 · AI Lab

马尔可夫的幽灵——从预测下一个词到预测下一步行动

1913 年,俄国数学家马尔可夫翻开普希金的《叶甫盖尼·奥涅金》,开始数元音和辅音。他不是在做文学研究,而是在拆掉一个旧世界:下一个符号不是凭空出现的,它被前一个状态牵引。一个多世纪后,LLM 被训练去预测下一个 token,Agent 被训练去选择下一步行动。这个目标看似无聊,却把语言、知识、推理和行动都压进了一个极密的监督信号里。马尔可夫没有想到 ChatGPT,但他留下了现代 AI 最小的一条语法:状态、转移、下一步。

2026年5月7日 · 6 分钟 · 1098 字 · AI Lab

维纳没有想到的事——从防空炮到 ChatGPT,反馈如何变成智能

二战时期,数学家诺伯特·维纳研究一个残酷的问题:飞机一直在动,炮弹也需要时间飞行,防空炮到底该打向哪里?这不是简单地预测飞机下一秒的位置,而是要持续计算拦截点,并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念:反馈。智能不是一次性给出正确答案,而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶,表面上差别很大,底层却都在同一个闭环里运行:行动、观察、误差、修正。

2026年5月9日 · 5 分钟 · 857 字 · AI Lab