<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>强化学习 on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 强化学习 on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Sat, 09 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>DeepSeek-R1：一个模型如何学会「思考」</title><link>https://jason-azure.github.io/ai-blog/posts/deepseek-r1-thinking/</link><pubDate>Sat, 21 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/deepseek-r1-thinking/</guid><description>2025 年最大的 AI 突破不是更大的模型，而是一个模型学会了停下来想一想再回答。DeepSeek-R1 登上 Nature，证明了一件事：不需要人类手把手教推理步骤，只需要给对奖励，模型就能自己学会思考。</description></item><item><title>马尔可夫的幽灵——从预测下一个词到预测下一步行动</title><link>https://jason-azure.github.io/ai-blog/posts/markov-ghost/</link><pubDate>Thu, 07 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/markov-ghost/</guid><description>1913 年，俄国数学家马尔可夫翻开普希金的《叶甫盖尼·奥涅金》，开始数元音和辅音。他不是在做文学研究，而是在拆掉一个旧世界：下一个符号不是凭空出现的，它被前一个状态牵引。一个多世纪后，LLM 被训练去预测下一个 token，Agent 被训练去选择下一步行动。这个目标看似无聊，却把语言、知识、推理和行动都压进了一个极密的监督信号里。马尔可夫没有想到 ChatGPT，但他留下了现代 AI 最小的一条语法：状态、转移、下一步。</description></item><item><title>维纳没有想到的事——从防空炮到 ChatGPT，反馈如何变成智能</title><link>https://jason-azure.github.io/ai-blog/posts/feedback-cybernetics/</link><pubDate>Sat, 09 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/feedback-cybernetics/</guid><description>二战时期，数学家诺伯特·维纳研究一个残酷的问题：飞机一直在动，炮弹也需要时间飞行，防空炮到底该打向哪里？这不是简单地预测飞机下一秒的位置，而是要持续计算拦截点，并在观测误差、动作延迟和敌人机动中不断修正。这个问题把他带向一个更深的概念：反馈。智能不是一次性给出正确答案，而是在行动之后被世界纠正。梯度下降、RLHF、DeepSeek-R1、Agent、自动驾驶，表面上差别很大，底层却都在同一个闭环里运行：行动、观察、误差、修正。</description></item></channel></rss>