DeepSeek-R1:一个模型如何学会「思考」
2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。
2025 年最大的 AI 突破不是更大的模型,而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature,证明了一件事:不需要人类手把手教推理步骤,只需要给对奖励,模型就能自己学会思考。
1913 年,俄国数学家马尔可夫翻开普希金的《叶甫盖尼·奥涅金》,开始数元音和辅音。他不是在做文学研究,而是在拆掉一个旧世界:下一个符号不是凭空出现的,它被前一个状态牵引。一个多世纪后,LLM 被训练去预测下一个 token,Agent 被训练去选择下一步行动。这个目标看似无聊,却把语言、知识、推理和行动都压进了一个极密的监督信号里。马尔可夫没有想到 ChatGPT,但他留下了现代 AI 最小的一条语法:状态、转移、下一步。
二战时期,数学家诺伯特·维纳研究一个残酷的问题:飞机一直在动,炮弹也需要时间飞行,防空炮到底该打向哪里?这不是简单地预测飞机下一秒的位置,而是要持续计算拦截点,并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念:反馈。智能不是一次性给出正确答案,而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶,表面上差别很大,底层却都在同一个闭环里运行:行动、观察、误差、修正。