从文本到模型:LLM 数据处理全流程详解

深入了解大语言模型 (LLM) 的数据处理流程:从原始文本到 Tokenization,从 Embedding 到 Transformer,一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。

2026年2月17日 · 3 分钟 · 481 字 · AI Lab

LLM 全流程可视化:逐步拆解大语言模型的每一步计算

用一个真实的 4.3M 参数模型(nanoGPT + 西游记),逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果,不是模拟。

2026年2月18日 · 5 分钟 · 971 字 · AI Lab

AI 的数学语言(一):用数字画地图——从数轴到高维空间

从温度计上的刻度到 ChatGPT 里的词向量,理解 AI 的第一步:用一串数字描述万物。零基础线性代数系列第一篇。

2026年2月22日 · 4 分钟 · 679 字 · AI Lab

中文 vs 英文:大语言模型的语言鸿沟与技术突围

为什么 GPT-3 的中文只占训练数据的 0.1%?为什么同样一句话中文要花 13 倍的 Token?国内大模型是怎么用 15 万词表逆转这个劣势的?从训练语料、Tokenizer 到 Embedding,一篇讲透中英文 LLM 的底层差异。

2026年3月3日 · 6 分钟 · 1097 字 · AI Lab

计算机只懂 0 和 1——从莫尔斯电码到 GPT 的编码简史

Token、Embedding、Encode/Decode——这些 AI 术语听起来很新,但它们和 ASCII、Unicode 是同一件事的不同层次。计算机 200 年来一直在做同一件事:把符号变成数字。

2026年3月30日 · 5 分钟 · 994 字 · AI Lab

当数字学会了远近亲疏——从查表到 Embedding 的一步跨越

A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。

2026年4月1日 · 10 分钟 · 2042 字 · AI Lab

当 AI 学会了看——多模态大模型的架构拆解

GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么’看见’图像的?答案藏在三个组件的协作中:视觉编码器把图像切成 token,对齐模块把视觉 token 翻译成语言能懂的格式,LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA,完整拆解多模态大模型的架构。

2026年4月11日 · 11 分钟 · 2233 字 · AI Lab

万物皆向量——当 AI 选择用数学理解世界

多模态 AI 揭示了一个深刻的事实:文字、图片、声音——看似截然不同的信息形式,最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题:理解这个世界,最终都要变成语言吗?还是说,有一种比语言更底层的’表示’在承载真正的理解?

2026年4月12日 · 4 分钟 · 795 字 · AI Lab