计算机只懂 0 和 1——从莫尔斯电码到 GPT 的编码简史
Token、Embedding、Encode/Decode——这些 AI 术语听起来很新,但它们和 ASCII、Unicode 是同一件事的不同层次。计算机 200 年来一直在做同一件事:把符号变成数字。
Token、Embedding、Encode/Decode——这些 AI 术语听起来很新,但它们和 ASCII、Unicode 是同一件事的不同层次。计算机 200 年来一直在做同一件事:把符号变成数字。
A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。