从文本到模型:LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

2026年2月17日 · 3 分钟 · 481 字 · AI Lab

中文 vs 英文:大语言模型的语言鸿沟与技术突围

为什么 GPT-3 的中文只占训练数据的 0.1%?为什么同样一句话中文要花 13 倍的 Token?国内大模型是怎么用 15 万词表逆转这个劣势的?从训练语料、Tokenizer 到 Embedding,一篇讲透中英文 LLM 的底层差异。

2026年3月3日 · 6 分钟 · 1097 字 · AI Lab

看见数学(一):结绳记事——人类第一次抽象

从牧羊人的绳结到 GPT 的 tokenizer,数学的起点只有一个动作:用一个东西代表另一个东西。这就是抽象——人类最伟大的发明。

2026年3月17日 · 4 分钟 · 641 字 · AI Lab