<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>DeepSeek-V3 on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/deepseek-v3/</link><description>Recent content in DeepSeek-V3 on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Mon, 23 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/deepseek-v3/index.xml" rel="self" type="application/rss+xml"/><item><title>MoE：671B 参数的模型，为什么只用 37B 就够了？</title><link>https://jason-azure.github.io/ai-blog/posts/moe-architecture/</link><pubDate>Mon, 23 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/moe-architecture/</guid><description>DeepSeek-V3 拥有 6710 亿参数，但每个 token 只激活 370 亿——不到总量的 6%。这不是偷懒，这是 AI 架构设计中最精巧的一课：不是所有神经元都需要同时工作。</description></item></channel></rss>