从信息论的视角再看大语言模型

香农(Claude Elwood Shannon)是信息论之父,也是人工智能的重要奠基人。Claude Code正是为了致敬香农而以Claude为名。本文不谈论Transformer等LLM的原理,而是从"信息" 的视角去理解大模型,希望给大家带来另一种视角的思考。

一、大语言模型是在把下一个词的熵降到最低

我们经常听到一类描述:他说的话信息量好大 / 你说的不是一句废话吗?。当我们在说出这样的话的时候,其实是将对方所说的话传递出来的信息量进行了一次大/小的判断。

那么信息量到底是什么?

1948 年,克劳德·香农(Claude Shannon)发表了《通信的数学理论》(A Mathematical Theory of Communication),奠定了信息论的基础。他做的最重要的一件事,是给"信息"这个模糊的词赋予了精确的数学含义。

香农把一个信息源的"平均意外程度"定义为(Entropy)。熵越高,这个系统越难以预测,传递它的信息需要越多的比特。

不用看公式,用两句话来直观感受:

  • “太阳明天会升起。” —— 信息量接近零。我们本来就知道,这件事没有任何不确定性。

  • “你今晚会捡到五百万” —— 信息量巨大,是几乎不可能发生的小概率事件。

我们怎么理解语言的熵呢?

  • 如果每次使用平均概率接龙一个英文字母,那么每个字母出现的概率是 1/26,丢到香农公式中,可以得到单个字母的熵大约是 4.7

  • 当然实际上英文单词中,每一个单词的概率是不一样的。我们回头去看自己键盘上有些键的键磨损更严重,大概也可以理解这个规律。

同时,必须要考虑,英语的单词单词之间存在大量的规律(the 后面大概率是名词,an 后面大概率是元音音符开头的单词。)1950年香农在论文得到的结论是:每个字母的信息熵是 2.62 bit

而语言的可预测性,正是大模型存在的关键。

大模型在训练时候做的事情,是根据前面所有的词,来预测出下一个最大概率的词,预测的越准,说明它对语言的概率结构掌握的越好,从信息论的视角看,就是说它需要将下一个词的熵压到最低。

二、压缩:把世界塞进参数

如果把模型训练过程看作是一个压缩过程,那大模型的推理过程,实际上是一种解压缩。

GPT训练的预料估计超过10万亿token,而最后得到的参数大约是1万亿的量级,语料远大于参数,所以模型其实不是在无脑记住所有的训练语料,而是提取出语言的规律

训练过程是不是可以类比为,正在总结出一套压缩算法。

压缩算法的原理是什么?

压缩算法在扫描文件的时候,把重复出现的模式替换为更短的编码来代替。文件越规律,压缩得到的文件越小。

大模型的训练做的是类似的事:把人类语言中重复出现的语法规律、常识知识、逻辑关系、风格模式,折叠进数百亿个权重参数里。这是一种压缩,但是一种我们有些难以相信的超高维的压缩。

压缩分两种:

无损压缩(如 ZIP、PNG):解压后能完整还原原始数据,一个比特都不差。

有损压缩(如 JPEG、MP3):解压后是原始数据的近似——大部分细节保留了,但某些高频信息被丢弃,某些边缘细节被模糊。

大模型可以类比为是一种有损压缩,他解压缩出来的内容,和你给他的训练数据并不是一模一样的,因为他压缩的是语言的规律。

三、如何理解"涌现"

大模型有一个令研究者困惑已久的现象:涌现

模型规模小时,它只会做简单的词语拼接,几乎没有推理能力。但当参数量跨过某个阈值,能力会突然跃升——算术推理、类比推理、代码调试、翻译质量,都在某个规模节点之后急剧提升,仿佛他自己学会了。

这像是模型开智了?

延续上面的压缩来看,想象我们正在压缩一张地图

分辨率很低时,你只能看到大陆的轮廓;稍微提高分辨率,国家边界出现了;继续提高,城市出现了;再高,道路网络、山脉走向全部涌现出来。这些信息不是凭空多出来的——它们本来就在原始地图里,只是低分辨率的压缩把它们抹掉了。

语言模型的涌现是同样的逻辑。小模型压缩得很粗糙,只能捕捉表面的词语共性关系。当规模增大,压缩精度提升,模型开始能抽象出更深层的结构:语法树、因果链条、类比模式、跨领域知识迁移。这些能力本来就隐含在人类语料的概率结构里;规模足够大之前,模型没有足够的"参数带宽"去表示它们。

从压缩角度看:涌现不是奇迹,是压缩精度发生质变后的解压结果。

四、幻觉:有损压缩的必然结果

通常我们在问模型一些常见的知识的时候,他答的非常好。但当我们去问某篇论文引用了哪些其他论文的时候,他经常会乱编。这是模型产生的"幻觉"。

我们依然把模型看作是一种有损压缩,有损压缩在丢弃信息时,不是随机丢弃的,它会优先保留高频、高权重的模式,丢弃低频、边缘的细节

对语言模型来说,这意味着:常见的知识、高频的事实、主流的观点被很好地编码了;而稀少的引用来源、具体的数字、偏僻的历史细节,则可能被模糊化,甚至被"近似替换"。

举例,假设我们问一句"鲁迅说过的关于奋斗的名言是什么?" 模型回答出来了一句错的话。

用上面的有损压缩来看,“某位名人说过一句关于奋斗的话”,这种模式在训练语料里极为常见。“鲁迅说过什么”——也是高频模式。模型把这两个高频模式在权重空间里压缩到了相邻的位置,在解压时,它流畅地输出了一个在概率意义上"合理"的结果:鲁迅 + 努力话语 + 自然语言风格。

这里有一个更深的信息论根源。香农在他的理论中证明,任何信道都有容量上界,超过这个上界传输的信息必然出错。 大模型本质上也是一条信道:它把输入的问题(信号)通过有限容量的权重矩阵(信道),转化为输出(接收信号)。当被询问的信息超出了这条信道的"有效容量",失真就不可避免。

更本质的一点:大模型的输出,是在概率分布上采样,而不是在事实库里检索。 它给出的永远是"最可能的答案",而不是"正确的答案"。绝大多数时候,“最可能"和"正确"高度重合——这是它令人惊艳的原因。但在需要精确事实的地方,两者会分叉。分叉的那一刻,就是幻觉。

五、我们在用一个什么样的工具

香农在论文开篇就表明了信息论的研究边界:

These semantic aspects of communication are irrelevant to the engineering problem

沟通的语义方面 和 工程问题无关。

也就是说信息论只是为工程服务的数学工具,并不关注于语义(意义)、语用(价值)与真实性,只关注信号的统计结构(符号概率、不确定性、传输可靠性)。

信息论计算的 “信息量”(熵),只看符号出现的概率,完全不关心内容真假、对错或含义

这像是几十年前打出的一颗子弹,如今正中眉心。

我们正在使用AI,正在用一台有损压缩机,处理越来越多需要精确解压的问题:医疗诊断、法律文书、代码安全审计。压缩机自己不知道它在哪里失真了——它只是流畅地输出概率最高的序列,带着满满的"自信”。

模型输出的从来不是真实的事实。

但这不是拒绝使用它的理由,JPEG 是有损压缩,但我们用它存储了人类历史上绝大多数照片,因为我们知道它的适用场景。

大模型也是如此——理解它的结构性局限,才是用好它的前提。

注:本文首发于腾讯内网,后被"鹅厂架构师"知乎账号转发:https://zhuanlan.zhihu.com/p/2018289602956391711