<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Embedding on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/embedding/</link><description>Recent content in Embedding on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Sun, 12 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/embedding/index.xml" rel="self" type="application/rss+xml"/><item><title>从文本到模型：LLM 数据处理全流程详解</title><link>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</link><pubDate>Tue, 17 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-data-pipeline/</guid><description>深入了解大语言模型 (LLM) 的数据处理流程：从原始文本到 Tokenization，从 Embedding 到 Transformer，一步步拆解 LLM 的工作原理。基于 nanoGPT 实战项目。</description></item><item><title>LLM 全流程可视化：逐步拆解大语言模型的每一步计算</title><link>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</link><pubDate>Wed, 18 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/llm-pipeline-visual/</guid><description>用一个真实的 4.3M 参数模型（nanoGPT + 西游记），逐步展示从输入「悟空道」到输出新字符的完整数据流。所有数值都是真实计算结果，不是模拟。</description></item><item><title>AI 的数学语言（一）：用数字画地图——从数轴到高维空间</title><link>https://jason-azure.github.io/ai-blog/posts/math-for-ai-1-vectors/</link><pubDate>Sun, 22 Feb 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/math-for-ai-1-vectors/</guid><description>从温度计上的刻度到 ChatGPT 里的词向量，理解 AI 的第一步：用一串数字描述万物。零基础线性代数系列第一篇。</description></item><item><title>中文 vs 英文：大语言模型的语言鸿沟与技术突围</title><link>https://jason-azure.github.io/ai-blog/posts/chinese-english-llm/</link><pubDate>Tue, 03 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/chinese-english-llm/</guid><description>为什么 GPT-3 的中文只占训练数据的 0.1%？为什么同样一句话中文要花 13 倍的 Token？国内大模型是怎么用 15 万词表逆转这个劣势的？从训练语料、Tokenizer 到 Embedding，一篇讲透中英文 LLM 的底层差异。</description></item><item><title>计算机只懂 0 和 1——从莫尔斯电码到 GPT 的编码简史</title><link>https://jason-azure.github.io/ai-blog/posts/ascii-to-token/</link><pubDate>Mon, 30 Mar 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/ascii-to-token/</guid><description>Token、Embedding、Encode/Decode——这些 AI 术语听起来很新，但它们和 ASCII、Unicode 是同一件事的不同层次。计算机 200 年来一直在做同一件事：把符号变成数字。</description></item><item><title>当数字学会了远近亲疏——从查表到 Embedding 的一步跨越</title><link>https://jason-azure.github.io/ai-blog/posts/embedding/</link><pubDate>Wed, 01 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/embedding/</guid><description>A=65, B=66——这些数字是死的。「大漠孤烟直，长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中，有一步跨越改变了一切：数字不再是编号，而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。</description></item><item><title>当 AI 学会了看——多模态大模型的架构拆解</title><link>https://jason-azure.github.io/ai-blog/posts/multimodal-llm-architecture/</link><pubDate>Sat, 11 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/multimodal-llm-architecture/</guid><description>GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么&amp;rsquo;看见&amp;rsquo;图像的？答案藏在三个组件的协作中：视觉编码器把图像切成 token，对齐模块把视觉 token 翻译成语言能懂的格式，LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA，完整拆解多模态大模型的架构。</description></item><item><title>万物皆向量——当 AI 选择用数学理解世界</title><link>https://jason-azure.github.io/ai-blog/posts/vectors-language-of-understanding/</link><pubDate>Sun, 12 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/vectors-language-of-understanding/</guid><description>多模态 AI 揭示了一个深刻的事实：文字、图片、声音——看似截然不同的信息形式，最终都被转化成了同一种东西——向量。然后由同一个 Transformer 用同一套 Attention 机制处理。这引出一个更根本的问题：理解这个世界，最终都要变成语言吗？还是说，有一种比语言更底层的&amp;rsquo;表示&amp;rsquo;在承载真正的理解？</description></item></channel></rss>