一个加号拯救了深度学习——残差连接的前世今生
2015 年,何恺明发现了一件诡异的事:56 层的神经网络比 20 层的更差——不是过拟合,是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号:y = F(x) + x。就这一个加号,让网络从 20 层一路堆到 1000 层,让 Transformer 成为可能,让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。
2015 年,何恺明发现了一件诡异的事:56 层的神经网络比 20 层的更差——不是过拟合,是训练误差也更高。深度学习的根基似乎在动摇。然后他加了一个加号:y = F(x) + x。就这一个加号,让网络从 20 层一路堆到 1000 层,让 Transformer 成为可能,让 GPT 能有 96 层。这篇文章讲的就是这个加号的故事。