万亿字节的压缩术:LLM 如何把互联网装进一个模型
你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?
你这辈子大概会读 5000 万个字。GPT 在训练时’读’过的量,相当于你读两万辈子。然后它把这些内容装进了一块硬盘里——不仅能回忆大部分内容,还能写出从未存在过的文章。这是压缩吗?是理解吗?如果互联网消失了,能靠 LLM 复原吗?
水加热到 99 度还是水,加到 100 度就成了水蒸气——这一度里发生了什么?磁铁加热到居里温度就突然失去磁性,为什么是突然?GPT-3 到 GPT-4 的『涌现能力』像凭空出现,又为什么?物理学用了一个多世纪建立了一套数学描述『量变到质变』——它叫临界现象。今天 AI 研究者在讨论的 emergent abilities,是它的直系后裔。