shannon entropy
积分形式:
假设
如果要从中找到那个为
如果我们每次用
那么 “满足
猜测出来的
如果每个
那我们平均猜测的次数就可能少于
于是香农用
用
可以算出上面的
进一步有
other definitions
joint entropy
conditional entropy
mutual information
Huffman encoding
上面的香农熵看起来很像哈夫曼编码
事实上, 如果哈夫曼编码平均长度为
例如, 有
那么
可以看到极为接近, 且满足
KL Divergence
definition
记
(注意前面是
那么 KL 散度定义为
同时定义
KL 散度实际上是
它表示分布
property of KL divergence
非负性:
, 当且仅当 时取等 凸性
链式法则:
给出联合分布
对于条件概率的 KL 散度的期望是
其中
是 的 边际分布 那么有
由于
, 所以独立性
由
可以得到当 独立时这正好体现了独立的信息是可加的
It is not a metric
KL 散度不是一般意义上的度量 (距离), 因为不满足对称性和三角不等式
即使构造出
connections with statistical concepts
mutual information
对于联合分布
令
那么
这样看, 互信息表示了联合分布与其分量的差异程度
maximum likelihood estimation
最大似然估计里我们希望最大化
假设采样足够多数据得到的实际的频率分布为
期望对数似然希望最大化
这正是使
Shannon Channel Capacity Theorem
definition
对于一个带宽为
其中
useful inequality
定义:
则
其中
是 正态分布
利用
这一步是因为
对于
所以
所以
- 这说明在方差为
的概率密度函数中, 高斯分布 有着最大的信息熵
定义
属于指数族, 如果 如正态分布,
取
后:
定义:
即
其中
是 的充分统计量, 是 的分量 则
其中
是任意阶矩与 相同 (在 上的期望一致) 且 与 无关的指数族函数
Nyquist-Shannon Sampling Theorem
如果一个连续时间信号的频谱严格限制在
即带宽
Nyquist
Nyquist-Shannon Sampling Theorem 说明每秒最多发送
connection with entropy
Shannon 取符号的长度为
因为
由上述不等式,
并且
所以
根据 Nyquist, 每秒最多发送
所以信道容量为
实际上
而 Nyquist 定理中, 记输入
所以无噪声时, 直接代入