当数字学会了远近亲疏——从查表到 Embedding 的一步跨越

A=65, B=66——这些数字是死的。「大漠孤烟直,长河落日圆」——这些文字是活的。从莫尔斯电码到 GPT 的编码史中,有一步跨越改变了一切:数字不再是编号,而是坐标。它们学会了远近、方向和意思。这一步叫 Embedding。

2026年4月1日 · 10 分钟 · 2042 字 · AI Lab

当 AI 学会了看——多模态大模型的架构拆解

GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么’看见’图像的?答案藏在三个组件的协作中:视觉编码器把图像切成 token,对齐模块把视觉 token 翻译成语言能懂的格式,LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA,完整拆解多模态大模型的架构。

2026年4月11日 · 11 分钟 · 2233 字 · AI Lab

谁给了 AI 一双眼睛——从 CLIP 到开源军备竞赛

2021 年 OpenAI 发布 CLIP,让 AI 第一次’看懂’了图片。但它公开了模型权重,却藏起了 4 亿对训练数据。这引发了一场全球性的’造眼睛’军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据,Google 发明了新的训练方法,Meta 证明不需要文字也能学会看……一个模型的开源,如何改变了整个视觉 AI 生态?‘开源’到底意味着什么?

2026年4月12日 · 6 分钟 · 1093 字 · AI Lab