从文本到模型:LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

2026年2月17日 · 3 分钟 · 481 字 · AI Lab

LLM 全流程可视化:逐步拆解大语言模型的每一步计算

用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。

2026年2月18日 · 5 分钟 · 971 字 · AI Lab

中文 vs 英文:大语言模型的语言鸿沟与技术突围

为什么 GPT-3 的中文只占训练数据的 0.1%?为什么同样一句话中文要花 13 倍的 Token?国内大模型是怎么用 15 万词表逆转这个劣势的?从训练语料、Tokenizer 到 Embedding,一篇讲透中英文 LLM 的底层差异。

2026年3月3日 · 6 分钟 · 1097 字 · AI Lab