MoE:671B 参数的模型,为什么只用 37B 就够了?

DeepSeek-V3 拥有 6710 亿参数,但每个 token 只激活 370 亿——不到总量的 6%。这不是偷懒,这是 AI 架构设计中最精巧的一课:不是所有神经元都需要同时工作。

2026年3月23日 · 5 分钟 · 960 字 · AI Lab