<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>何恺明 on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/%E4%BD%95%E6%81%BA%E6%98%8E/</link><description>Recent content in 何恺明 on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Fri, 03 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/%E4%BD%95%E6%81%BA%E6%98%8E/index.xml" rel="self" type="application/rss+xml"/><item><title>一个加号拯救了深度学习——残差连接的前世今生</title><link>https://jason-azure.github.io/ai-blog/posts/residual-connection/</link><pubDate>Fri, 03 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/residual-connection/</guid><description>2015 年，何恺明发现了一件诡异的事：56 层的神经网络比 20 层的更差——不是过拟合，是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号：y = F(x) + x。就这一个加号，让网络从 20 层一路堆到 1000 层，让 Transformer 成为可能，让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。</description></item></channel></rss>