<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Tokenization on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/tokenization/</link><description>Recent content in Tokenization on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Tue, 17 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/tokenization/index.xml" rel="self" type="application/rss+xml"/><item><title>从文本到模型：LLM 数据处理全流程详解</title><link>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</link><pubDate>Tue, 17 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</guid><description>深入了解大语言模型 (LLM) 的数据处理流程：从原始文本到 Tokenization，从 Embedding 到 Transformer，一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。</description></item><item><title>中文 vs 英文：大语言模型的语言鸿沟与技术突围</title><link>https://jason-azure.github.io/ai-blog/posts/chinese-english-llm/</link><pubDate>Tue, 03 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/chinese-english-llm/</guid><description>为什么 GPT-3 的中文只占训练数据的 0.1%？为什么同样一句话中文要花 13 倍的 Token？国内大模型是怎么用 15 万词表逆转这个劣势的？从训练语料、Tokenizer 到 Embedding，一篇讲透中英文 LLM 的底层差异。</description></item><item><title>看见数学（一）：结绳记事——人类第一次抽象</title><link>https://jason-azure.github.io/ai-blog/posts/see-math-1-counting/</link><pubDate>Tue, 17 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/see-math-1-counting/</guid><description>从牧羊人的绳结到 GPT 的 tokenizer，数学的起点只有一个动作：用一个东西代表另一个东西。这就是抽象——人类最伟大的发明。</description></item></channel></rss>