第二章 熵、相对熵和互信息
1.自信息量
(1)物理含义
- 自信息量表示事件发生后,事件给予观察者的信息量。
- 自信息量的大小取决于事件发生的概率。事件发生的可能性越大,它所包含的信息量就越小。 反之,事件发生的概率越小,它能给与观察者的信息量就越大。
(2)需满足的条件
-
自信息量是事件发生概率的函数
-
\(I(x) = I(p(x))\)
-
自信息量函数必须满足以下条件
-
若\(p(x_i)>p(x_j)\),则\(I(p(x_i))<I(p(x_j))\)
- 若 \(p(x)=0\),则\(I(p(x))\rightarrow\infty\)
- 若\(p(x)=1\),则\(I(p(x))=0\)
-
对于两个统计独立事件
- \(I(x_i,x_j)=I(x_i)+I(x_j)\)
(3)数学表达式
-
事件x的自信息量为
-
\(I(x)=-\log p(x)\)
- \(I(x)\)实质上是无量纲的
-
为了方便研究,根据对数的底来定义量纲
-
对数取2为底,单位为比特(bit)
- 取e为底(自然对数),单位为奈特(nat)
- 取10为底(常用对数),单位为哈特(hart)
(4)单位转换
-
对数换底公式
-
\(\log_ax=\frac{\log_bx}{\log_ba}\)
- \(1奈特=\log_2e=1.433比特,1哈特=\log_210=3.322比特\)
- \(1比特=0.693奈特,1比特=0.301哈特\)
(5)例子
英文字母中“e”出现的概率为0.105,“d”出现的概率为0.035,“y”出现的概率为0.012。分别计算它们的自信息量。
- “e”的自信息量\(I(e)=-\log0.105=3.25比特\)
- “d”的自信息量\(I(d)=-\log0.035=4.84比特\)
- “y”的自信息量\(I(e)=-\log0.012=6.83比特\)
(6)性质
- 自信息量是非负的
- 确定事件的信息量为零
- 自信息量是概率的单调递减函数
- \(I(x)\)基于随机变量X的特定取值x,不能作为整个随机变量X的信息测度
2.熵(Entropy)
(1)定义
-
一个离散随机变量X的熵\(H(X)\)定义为
-
\(H(X)=-\sum_{x\in X}p(x)\log p(x)\)
-
熵的量纲根据对数log的底来定义
-
对数取2为底,单位为比特(bit)
- 取e为底(自然对数),单位为奈特(nat)
- 取10为底(常用对数),单位为哈特(hart)
-
各单位间的换算
-
\(H_b(X)=(\log_ba)H_a(X)\)
(2)熵与信息的关系
- 消息是信息的载体
- 信息是抽象的,消息是具体的
- 一个人获得消息→消除不确定性→获得信息
- 信息的度量(信息量)和不确定性消除的程度有关,消除的不确定性=获得的信息量
- 熵是随机变量平均不确定度的度量,同时它也代表了消除随机变量不确定度所需获得的信息量
(3)熵和不确定度
- 熵是随机变量平均不确定度的度量,是平均信息量的度量
(4)零概率事件对熵的影响
- 当某一事件x出现的概率p(x)为零时,我们规定\(0\log0=0\),也就是说,增加一些零概率的项不会改变熵的值,同样,也不会影响信息量的大小
(5)熵与期望
-
随机变量X的熵可以解释为随机变量\(-\log p(X)\)的期望值
-
\(H(X)=E_p\{-\log p(x)\}\)
- 信息熵H(X)是各离散消息自信息量的数学期望,表示了每个消息提供的平均信息量
(6)性质
- 由于H(X)的表达式和热力学中熵的表达式相似,且在概念上也有相似之处,因此借用“熵”这个词,把H(X)称为信息“熵”
- 非负性:\(H(X)\ge0\),当且仅当X是一确知量时取等号
- 熵是在平均意义上来表征随机变量的总体特性的,对于给定概率分布的随机变量,熵是一个确定的值
- 对于离散随机变量,熵的值是有限的
- 熵不依赖于随机变量的实际取值,而仅依赖于其概率分布,且与概率分布的顺序无关
-
极值性:
-
\(H(x)\leq\log|x|\),其中\(|x|\)表示X的字母表中元素的个数,当且仅当X服从均匀分布时,等号成立
-
条件作用使熵减少
-
\(H(X|Y)\leq H(X)\)
- X和Y相互独立时取等号
(7)Bernoulli分布的熵
(8)联合熵(Joint Entropy)
-
定义:对于服从联合分布为p(x,y)的一对离散随机变量(X,Y),其联合熵H(X,Y)定义为
-
\(H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(x,y)=-E[\log p(X,Y)]\)
(9)条件熵(Conditional Entropy)
-
定义
-
条件熵是用来度量在已知一个随机变量的情况下,另一个随机变量还存在的不确定度
-
对于服从联合分布为p(x,y)的一对离散随机变量(X,Y),其条件熵H(Y|X)定义为
- \(\begin{gather}H(Y|X)=\sum_{x\in X}p(x)H(Y|X=x)\\ =-\sum_{x\in X}\sum_{y\in Y}p(x,y)\log p(y|x)\\ =-E[\log p(Y|X)]\end{gather}\)
(10)链式法则
-
定理:对于服从联合分布为p(x,y)的一对离散随机变量(X,Y)
-
\(H(X,Y)=H(X)+H(Y|X)\)
- \(H(X,Y)=H(Y)+H(X|Y)\)
-
推论:对于服从联合分布为p(x,y,z)的三个随机变量(X,Y,Z)
-
\(H(X,Y|Z)=H(X|Z)+H(Y|X,Z)\)
-
多个随机变量
-
\(H(X_1,X_2,...,X_n)=\sum_{i+1}^nH(X_i|X_{i-1},...,X_1)\)
-
文氏图表示
-
(11)X和Y统计独立时
- \(H(Y|X)=H(Y)\)
- \(H(X,Y)=H(X)+H(Y)\)
3.相对熵(Relative Entropy)
(1)定义
- 相对熵是两个随机分布之间距离的度量,也称为Kullback-Leibler距离
-
两个概率密度函数为p(x)和q(x)之间的相对熵定义为
-
\(D(p||q)=\sum_{x\in X}p(x)\log\frac{p(x)}{q(x)}=E_p\log\frac{p(x)}{q(x)}\)
- 约定:\(0\log\frac{0}{0}=0;0\log\frac{0}{q}=0;p\log\frac{p}{0}=\infty\)
(2)性质
- 相对熵总是非负的。而且,当且仅当p=q时相对熵为零
- 如果存在一个\(x\in X\)使得\(p(x)>0,q(x)=0\),则有\(D(p||q)=\infty\)
- 相对熵并不是真正意义上的距离,它不对称,也不满足三角不等式。我们把相对熵看作一种“距离”是方便对以后很多概念的理解。
- 一般来说\(D(p||q)\neq D(q||p)\)
(3)相对熵和机器学习
-
交叉熵(Cross-Entropy)
-
\(CrossEntropy(p,q)=E_p[-\log q]=-\sum_{x\in X}p(x)\log q(x)=H(p)+D_{KL}(p||q)\)
- 交叉熵损失函数(0-1二分类问题)
- \(L=-[y\log\hat{y}+(1-y)\log(1-\hat{y})]\)
(4)链式法则
-
对于联合概率密度函数\(p(x,y)\)和\(q(x,y)\),条件相对熵定义为
-
\(D(p(y|x)||q(y|x))=\sum_xp(x)\sum_yp(y|x)\log\frac{p(y|x)}{q(y|x)}\)
-
链式法则
-
\(D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))\)
4.互信息(Mutual Information)
(1)定义
- 互信息是一个随机变量包含另一个随机变量信息量的度量
-
两个随机变量X和Y的联合概率密度函数为p(x,y),边缘概率密度函数分别为p(x)和p(y),则互信息I(X;Y)定义为
-
\(\begin{gather}I(X;Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}\\ =D(p(x,y)||p(x)p(y))\\ =E_{p(x,y)}\log\frac{p(X,Y)}{p(X)p(Y)}\end{gather}\)
(2)熵与互信息的关系
- 熵表示单个随机变量的平均不确定度
- 条件熵表示在给定一个随机变量知识的情况下,另一个随机变量还存在的平均不确定度
- 互信息表示在给定一个随机变量知识的情况下,另一个随机变量平均不确定度的缩减量
- 互信息是一个表征信息流通的量
-
定理
-
\(I(X;Y)=H(X)-H(X|Y)\)
- \(I(X;Y)=H(Y)-H(Y|X)\)
- \(I(X;Y)=H(X)+H(Y)-H(X,Y)\)
- \(I(X;Y)=I(Y;X)\)
- \(I(X;X)=H(X)\)
-
文氏图表示
-
-
(3)链式法则
-
随机变量X和Y在给定随机变量Z时的条件互信息定义为
-
\(I(X;Y|Z)=H(X|Z)-H(X|Y,Z)=E_{p(x,y,z)\log\frac{p(X,Y|Z)}{p(X|Z)p(Y|Z)}}\)
-
链式法则:
-
\(I(X_1,X_2,...,X_n|Y)=\sum_{i=1}^{n}I(X_i;Y|X_{i-1},...,X_1)\)