<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI安全 on AI 学习笔记</title><link>https://jason-azure.github.io/ai-blog/tags/ai%E5%AE%89%E5%85%A8/</link><description>Recent content in AI安全 on AI 学习笔记</description><generator>Hugo -- 0.146.0</generator><language>zh-CN</language><lastBuildDate>Thu, 14 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://jason-azure.github.io/ai-blog/tags/ai%E5%AE%89%E5%85%A8/index.xml" rel="self" type="application/rss+xml"/><item><title>谁在决定 AI 的性格？——从文字接龙到讨好型机器</title><link>https://jason-azure.github.io/ai-blog/posts/rlhf-alignment-sycophancy/</link><pubDate>Thu, 14 May 2026 00:00:00 +0000</pubDate><guid>https://jason-azure.github.io/ai-blog/posts/rlhf-alignment-sycophancy/</guid><description>预训练让 AI 学会文字接龙，SFT 让它学会像助手一样接龙，RLHF 让它学会哪种接龙更容易被人类喜欢。但“被喜欢”不是“真实”，“听话”不是“善良”，“安全”也不是没有价值立场。对齐 AI 的过程，表面上是在训练机器，深处是在审问人类：我们到底希望一个更聪明的存在，服从谁的规则，继承谁的偏见，代表谁的文明？</description></item></channel></rss>