中文 vs 英文:大语言模型的语言鸿沟与技术突围

为什么 GPT-3 的中文只占训练数据的 0.1%?为什么同样一句话中文要花 13 倍的 Token?国内大模型是怎么用 15 万词表逆转这个劣势的?从训练语料、Tokenizer 到 Embedding,一篇讲透中英文 LLM 的底层差异。

2026年3月3日 · 6 分钟 · 1097 字 · AI Lab