从信息论的视角再看大语言模型

香农（Claude Elwood Shannon）是信息论之父，也是人工智能的重要奠基人。Claude Code正是为了致敬香农而以Claude为名。本文不谈论Transformer等LLM的原理，而是从"信息" 的视角去理解大模型，希望给大家带来另一种视角的思考。

一、大语言模型是在把下一个词的熵降到最低

我们经常听到一类描述：他说的话信息量好大 / 你说的不是一句废话吗？。当我们在说出这样的话的时候，其实是将对方所说的话传递出来的信息量进行了一次大/小的判断。

那么信息量到底是什么？

1948 年，克劳德·香农（Claude Shannon）发表了《通信的数学理论》（A Mathematical Theory of Communication），奠定了信息论的基础。他做的最重要的一件事，是给"信息"这个模糊的词赋予了精确的数学含义。

香农把一个信息源的"平均意外程度"定义为熵（Entropy）。熵越高，这个系统越难以预测，传递它的信息需要越多的比特。

不用看公式，用两句话来直观感受：

“太阳明天会升起。” —— 信息量接近零。我们本来就知道，这件事没有任何不确定性。
“你今晚会捡到五百万” —— 信息量巨大，是几乎不可能发生的小概率事件。

我们怎么理解语言的熵呢？

如果每次使用平均概率接龙一个英文字母，那么每个字母出现的概率是 1/26，丢到香农公式中，可以得到单个字母的熵大约是 4.7
当然实际上英文单词中，每一个单词的概率是不一样的。我们回头去看自己键盘上有些键的键磨损更严重，大概也可以理解这个规律。

同时，必须要考虑，英语的单词单词之间存在大量的规律（the 后面大概率是名词，an 后面大概率是元音音符开头的单词。）1950年香农在论文得到的结论是：每个字母的信息熵是 2.62 bit

而语言的可预测性，正是大模型存在的关键。

大模型在训练时候做的事情，是根据前面所有的词，来预测出下一个最大概率的词，预测的越准，说明它对语言的概率结构掌握的越好，从信息论的视角看，就是说它需要将下一个词的熵压到最低。

二、压缩：把世界塞进参数

如果把模型训练过程看作是一个压缩过程，那大模型的推理过程，实际上是一种解压缩。

GPT训练的预料估计超过10万亿token，而最后得到的参数大约是1万亿的量级，语料远大于参数，所以模型其实不是在无脑记住所有的训练语料，而是提取出语言的规律

训练过程是不是可以类比为，正在总结出一套压缩算法。

压缩算法的原理是什么？

压缩算法在扫描文件的时候，把重复出现的模式替换为更短的编码来代替。文件越规律，压缩得到的文件越小。

大模型的训练做的是类似的事：把人类语言中重复出现的语法规律、常识知识、逻辑关系、风格模式，折叠进数百亿个权重参数里。这是一种压缩，但是一种我们有些难以相信的超高维的压缩。

压缩分两种：

无损压缩（如 ZIP、PNG）：解压后能完整还原原始数据，一个比特都不差。

有损压缩（如 JPEG、MP3）：解压后是原始数据的近似——大部分细节保留了，但某些高频信息被丢弃，某些边缘细节被模糊。

大模型可以类比为是一种有损压缩，他解压缩出来的内容，和你给他的训练数据并不是一模一样的，因为他压缩的是语言的规律。

三、如何理解"涌现"

大模型有一个令研究者困惑已久的现象：涌现。

模型规模小时，它只会做简单的词语拼接，几乎没有推理能力。但当参数量跨过某个阈值，能力会突然跃升——算术推理、类比推理、代码调试、翻译质量，都在某个规模节点之后急剧提升，仿佛他自己学会了。

这像是模型开智了？

延续上面的压缩来看，想象我们正在压缩一张地图

分辨率很低时，你只能看到大陆的轮廓；稍微提高分辨率，国家边界出现了；继续提高，城市出现了；再高，道路网络、山脉走向全部涌现出来。这些信息不是凭空多出来的——它们本来就在原始地图里，只是低分辨率的压缩把它们抹掉了。

语言模型的涌现是同样的逻辑。小模型压缩得很粗糙，只能捕捉表面的词语共性关系。当规模增大，压缩精度提升，模型开始能抽象出更深层的结构：语法树、因果链条、类比模式、跨领域知识迁移。这些能力本来就隐含在人类语料的概率结构里；规模足够大之前，模型没有足够的"参数带宽"去表示它们。

从压缩角度看：涌现不是奇迹，是压缩精度发生质变后的解压结果。

四、幻觉：有损压缩的必然结果

通常我们在问模型一些常见的知识的时候，他答的非常好。但当我们去问某篇论文引用了哪些其他论文的时候，他经常会乱编。这是模型产生的"幻觉"。

我们依然把模型看作是一种有损压缩，有损压缩在丢弃信息时，不是随机丢弃的，它会优先保留高频、高权重的模式，丢弃低频、边缘的细节。

对语言模型来说，这意味着：常见的知识、高频的事实、主流的观点被很好地编码了；而稀少的引用来源、具体的数字、偏僻的历史细节，则可能被模糊化，甚至被"近似替换"。

举例，假设我们问一句"鲁迅说过的关于奋斗的名言是什么？" 模型回答出来了一句错的话。

用上面的有损压缩来看，“某位名人说过一句关于奋斗的话”，这种模式在训练语料里极为常见。“鲁迅说过什么”——也是高频模式。模型把这两个高频模式在权重空间里压缩到了相邻的位置，在解压时，它流畅地输出了一个在概率意义上"合理"的结果：鲁迅 + 努力话语 + 自然语言风格。

这里有一个更深的信息论根源。香农在他的理论中证明，任何信道都有容量上界，超过这个上界传输的信息必然出错。大模型本质上也是一条信道：它把输入的问题（信号）通过有限容量的权重矩阵（信道），转化为输出（接收信号）。当被询问的信息超出了这条信道的"有效容量"，失真就不可避免。

更本质的一点：大模型的输出，是在概率分布上采样，而不是在事实库里检索。 它给出的永远是"最可能的答案"，而不是"正确的答案"。绝大多数时候，“最可能"和"正确"高度重合——这是它令人惊艳的原因。但在需要精确事实的地方，两者会分叉。分叉的那一刻，就是幻觉。

五、我们在用一个什么样的工具

香农在论文开篇就表明了信息论的研究边界：

These semantic aspects of communication are irrelevant to the engineering problem

沟通的语义方面和工程问题无关。

也就是说信息论只是为工程服务的数学工具，并不关注于语义（意义）、语用（价值）与真实性，只关注信号的统计结构（符号概率、不确定性、传输可靠性）。

信息论计算的 “信息量”（熵），只看符号出现的概率，完全不关心内容真假、对错或含义。

这像是几十年前打出的一颗子弹，如今正中眉心。

我们正在使用AI，正在用一台有损压缩机，处理越来越多需要精确解压的问题：医疗诊断、法律文书、代码安全审计。压缩机自己不知道它在哪里失真了——它只是流畅地输出概率最高的序列，带着满满的"自信”。

模型输出的从来不是真实的事实。

但这不是拒绝使用它的理由，JPEG 是有损压缩，但我们用它存储了人类历史上绝大多数照片，因为我们知道它的适用场景。

大模型也是如此——理解它的结构性局限，才是用好它的前提。

注：本文首发于腾讯内网，后被"鹅厂架构师"知乎账号转发：https://zhuanlan.zhihu.com/p/2018289602956391711