<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>对比学习 on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/%E5%AF%B9%E6%AF%94%E5%AD%A6%E4%B9%A0/</link><description>Recent content in 对比学习 on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Sun, 12 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/%E5%AF%B9%E6%AF%94%E5%AD%A6%E4%B9%A0/index.xml" rel="self" type="application/rss+xml"/><item><title>当 AI 学会了看——多模态大模型的架构拆解</title><link>https://jason-azure.github.io/ai-blog/posts/multimodal-llm-architecture/</link><pubDate>Sat, 11 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/multimodal-llm-architecture/</guid><description>GPT-4 能看图、Gemini 能看视频、Qwen-VL 能看中文文档——但一个语言模型是怎么&amp;rsquo;看见&amp;rsquo;图像的？答案藏在三个组件的协作中：视觉编码器把图像切成 token，对齐模块把视觉 token 翻译成语言能懂的格式，LLM 把它们和文字一起处理。本文从 ViT 到 CLIP 到 LLaVA，完整拆解多模态大模型的架构。</description></item><item><title>谁给了 AI 一双眼睛——从 CLIP 到开源军备竞赛</title><link>https://jason-azure.github.io/ai-blog/posts/clip-open-source-story/</link><pubDate>Sun, 12 Apr 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/clip-open-source-story/</guid><description>2021 年 OpenAI 发布 CLIP，让 AI 第一次&amp;rsquo;看懂&amp;rsquo;了图片。但它公开了模型权重，却藏起了 4 亿对训练数据。这引发了一场全球性的&amp;rsquo;造眼睛&amp;rsquo;军备竞赛——德国非营利组织 LAION 逆向工程出 50 亿对数据，Google 发明了新的训练方法，Meta 证明不需要文字也能学会看……一个模型的开源，如何改变了整个视觉 AI 生态？&amp;lsquo;开源&amp;rsquo;到底意味着什么？</description></item></channel></rss>