信息论 王立威

  • 首先谈谈我对这门课的看法,王老师授课不会循规蹈矩地按照参考教材(黑皮书信息论),他是按照自己对信息论的理解和看法来的,所以前后知识的串联性会比较强一些,另外这门课是纯英文板书、中英夹杂授课。
  • 整体上是按照信源编码和信道编码两方面展开,然后重点介绍了香农的一些工作,实际上信道方面在实际中会更重要、复杂一些,但是在各个领域包括计算中信源会涉及更多一些

L1

熵:随机信号的最低不可降低复杂度

  • 量化信息的大小
  • 如何用算法克服物理噪声

传输信息——需要事先约定 eg:传输一场比赛的结果 字符集{0,1}

W L T(平局)
0 1 10
0 11 10

第一种是否可行?
第二种是否可行? 可行->只传输一次
可行&效率max->平均编码长度?Minimize average code length

两个基本假设:

  1. infinite communication
  2. a prob distribution over the message

引入 pre-fix free 编码

  1. 无前缀->无歧义
  2. 无前缀<-×无歧义

Set AA: pre-fix free
Set BB: Uniquely decode codes 唯一可译码集合

注意前缀无码一定是唯一可译码,但反之则否

ABA\subsetneqq B,显然mincBE[l(c)]mincAE[l(c)]\min_{c\in B}E[l(c)]\le min_{c\in A}E[l(c)],但是实际上mincBE[l(c)]=mincAE[l(c)]\star \min_{c\in B}E[l(c)]= min_{c\in A}E[l(c)].     cB\implies \forall c^* \in B,使得平均码长E[l(c)]E[l(c^* )]达到最短,则cˇA\exists \check{c}^* \in A,E[l(c)]=E[l(cˇ)]E[l(c^* )]=E[l(\check{c}^*)].

如何设计cc^* 调整为cˇ\check{c}^* ?

Kraft Inequality
Assure C=(c1,c2,...,cn)C=(c_1,c_2,...,c_n) is pre-fix free: Let l1,l2,...,lnl_1,l_2,...,l_n be the length(numbers of bit) of c1,...,cnc_1,...,c_n,则l1,...lnl_1,...l_n 不能都很短(为了prefix-free)
$$\sum_{i=1}^n 2^{-l_i}\le 1$$
若二叉树为满,则\le变为严格=
平均码长最短->二叉树为满树,则有
$$\sum_{i=1}^n 2^{-l_i}=1$$
如何求解?
Minimal Average Code Length
令message M=m1,...,mnM={m_1,...,m_n}. Prob distribution P=P1,...,PnP={P_1,...,P_n}. 目标是Find C=(c1,...,cn)C=(c_1,...,c_n) prefix-free with length l1,...,lnl_1,...,l_n,同时有平均码长=i=1npili\sum_{i=1}^np_il_i(期望长度) 约束有:i=1n2li1\sum_{i=1}^n 2^{-l_i}\le 1
求解:运用拉格朗日乘子法,minL\min L
$$L=\sum_{i=1}^n p_i l_i + \lambda(\sum 2^{-l_i} - 1)$$
$$\frac{\partial L}{\partial l_i}=p_i-\lambda2^{-l_i}\ln2=0 \implies 2^{-l_i}=\frac{p_i}{\lambda \ln2}$$
$$\sum 2^{-l_i}=1,\ \sum p_i=1 \implies \lambda=\frac{1}{\ln2}$$
$$\therefore\ l_i=-\log_2 p_i \star$$
$$L^*=\sum_{i=1}^n p_i l_i=-\sum_{i=1}^n p_i \log_2 p_i$$
(lil_i是否为整数的差距不会超过1)

    log2pili<log2pi+1\implies -log_2p_i\le l_i < -log_2p_i+1

两边同乘pip_i再求和可得,HL<h+1H \le L < h+1


定义:熵(entropy)
$$H(x)=\sum_{i=1}^np_ilog_2\frac{1}{p_i}=-\sum_{i=1}^np_ilog_2p_i$$

\star此为不可压缩的最短码长,为信息的量化

信息mim_i的信息量为log2pi-log_2p_i
均匀分布的熵最大,单点分布的熵为0 e.g 对于伯努利分布X (P,1P)X~(P,1-P),有H(x)=plog2p(1p)log2(1p)H(x)=-plog_2p-(1-p)log_2(1-p)
两点分布

L2

Entropy被提出以qunantity information(量化信息)来描述uncertainty.
由琴生不等式可得. i=1npilog21pi<log2n\sum_{i=1}^np_ilog_2\frac{1}{p_i} < log_2n
信息量的刻画

  • 随机变量XX:H(X)(bits)H(X)(bits)
  • message mim_i:log21pilog_2\frac{1}{p_i}(可以看出概率小的事情信息量大)

Q:对于随机变量X:P1,P2,...Pn1,PnX:P_1,P_2,...P_{n-1},P_n,其中PnP_n可细化为q1+q2q_1+q_2

YY:为对局部信息的详细描述q1q1+q2q2q1+q2\frac{q_1}{q_1+q_2} \frac{q_2}{q_1+q_2} ZZ:P1,P2,...,Pn1,q1,q2P_1,P_2,...,P_{n_1},q_1,q_2 H(Z)=H(X)+PnH(Y)H(Z)=H(X)+P_nH(Y)

什么样的码平均码长最短? Properties of optimal code

  1. p1p2...pnp_1\le p_2...\le p_n则,C1C2...Cn|C_1|\le |C_2|\le ...\le |C_n|
  2. 满足Kraft Ineq:i=1n2ci=1\sum_{i=1}^n2^{-|c_i|}=1 for opt code
  3. cn1=cn    |c_{n-1}|=|c_n| \implies可以使cn1cnc_{n-1} c_n成为兄弟结点

Huffman哈夫曼编码:一种简单的给出的最优五前缀编码的算法。
eg: 二源码 1:0.25 2:0.25 3:0.2 4:0.15 5:0.15


联合熵、条件熵、互信息(自信息)、KL散度(相对熵)

  1. 联合熵 Joint Entropy
    两个r.v.X,Yr.v. X,Y有联合密度分布PXY=(pij)m×nP_{XY}=(p_{ij})_{m\times n},如何定义一个联合熵?
    $$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}P(x,y)log_2P(x,y)=-E[log_2P(x,y)]$$
    显然H(X,Y)H(X)+H(Y)H(X,Y)\le H(X)+H(Y) X,Y\bigtriangleup X,Y彼此独立时,H(X,Y)=H(X)+H(Y)H(X,Y)=H(X)+H(Y);X=YX=Y时,H(X,Y)=H(X)+H(Y)H(X,Y)=H(X)+H(Y)
  2. 条件熵 H(YX)H(Y|X)

    定义:
    $$H(Y|X=x_i)=\sum_{j=1}^nP(Y=y_i|X=x_i)log_2\frac{1}{P(Y=y_i|X=x_i)}$$
    $$H(Y|X)=\sum_{i=1}^n\sum_{j=1}^nP(Y=y_i|X=x_i)log_2\frac{1}{P(Y=y_i|X=x_i)}$$
    $$H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)$$
    $$\Uparrow 推导:log_2P(X,Y)=log_2P(X)+log_2P(Y|X)两边取期望$$
    $$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2(p(x,y))$$
    $$也即H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x)p(y|x)(log_2(p(x))+log_2(p(y|x)) )$$

L3

接续上一节的内容
$$H(X,Y)=H(X)+H(Y|X) (1)$$
$$H(X,Y)=H(Y)+H(X|Y) (2)$$
$$H(X,Y)\le H(X)+H(Y)(3)$$
Combine (1)&(3) and (2)&(3) 可得conditions reduce entropy
$$H(Y)\ge H(Y|X)$$
$$H(X)\ge H(X|Y)$$
则有:
$$H(X)+H(Y|X)+H(Y)+H(X|Y)=2H(X,Y)$$
$$H(X)+H(Y)-H(X,Y)=H(X,Y)-H(Y|X)-H(X|Y)$$
$$=H(X)-H(X|Y)=H(Y)-H(Y|X)$$
那么我们可以取量化这样一个量H(X)H(XY)H(X)-H(X|Y)H(Y)H(YX)H(Y)-H(Y|X): X与Y重叠那部分的信息量。


互信息(自信息):
$$I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$$
$$=H(X)+H(Y)-H(X,Y)$$
$$=\sum_{x,y}p(x,y)log_2\frac{p(x,y)}{p(x\ne y)}$$
$$=I(Y;X)$$
接下来可以进一步探讨多元形式
$$H(X_1,X_2,…,X_n)=\sum p_{1,2,…,n}log_2\frac{1}{p_{1,2,…,n} }(Joint\quad Entropy)$$
同理H(X1,X2,...,XnY1,Y2,...,Yn)H(X_1,X_2,...,X_n|Y_1,Y_2,...,Y_n)的定义
我们有:
$$H(X_1,X_2,…,X_n)=H(X_1)+H(X_2|X_1)+…+H(X_n|X_1,…,X_{n-1})$$
这样在知道一串码和其概率分布时可求其熵,但这样我们的pmf时理想化的
True PMF is P=(p1...pn)(unknown)P=(p_1...p_n)(unknown)
我们的近似:Q=(q1...qn)Q=(q_1...q_n)
两种码长差多少?
P:pilog21piP:\sum p_ilog_2\frac{1}{p_i} Q:qilog21qiQ:\sum q_ilog_2\frac{1}{q_i}
QP=pilog2piqiQ-P=\sum p_ilog_2\frac{p_i}{q_i}


相对熵/KL散度 D(PQ)D(P||Q)
$$D(P||Q)=\sum_{x\in X}p(x)log_2\frac{p(x)}{q(x)}=E_qlog_2\frac{p(x)}{q(x)}$$
Question:P、Q的KL距离和1维欧式距离之间关系?PQ1=ipiqi||P-Q||_1 = \sum_i|p_i - q_i|
$$D(P||Q) = \sum_{i} p_i \log \frac{p_i}{q_i}$$
$$\sum_{i=1}^n p_i \log \frac{p_i}{q_i} \ge \frac{1}{2} \left( \sum |p_i - q_i| \right)^2 \quad \text{(Pinsker)}$$
ps:大部分时候对数的底取决于编码空间,公式中可转换,大部分时候是以2为底,有些情况下是10或者e方便推导
简单推导:P=(p1,...,pn)Q=(q1,...,qn)P=(p_1,...,p_n)\quad Q=(q_1,...,q_n)

PQ1=piqi=piqi(piqi)+piqi(piqi)\|P-Q\|_{1}=\sum |p_i-q_i|=\sum_{p_i\ge q_i}(p_i-q_i)+\sum_{p_i\le q_i}-(p_i-q_i)

则模型可化为P~=(piqipi,piqiqi)\tilde{P}=(\sum_{p_i\ge q_i}p_i,\sum_{p_i\le q_i}q_i )
特例:伯努利分布P=(p,1p)Q=(q.1q)\bigtriangleup P=(p,1-p) \bigtriangleup Q=(q.1-q)
$$KL(P||Q)=plog\frac{p}{q}+(1-p)log\frac{1-p}{1-q}$$
$$||P-Q||_1=|p-q|+|(1-p)-(1-q)|=2|p-q|$$

L4

  1. Entropy Rate 熵率
    eg. XXr.v.r.v. X=(0.01,0.99)X=(0.01,0.99)
    (1).H(X)0.07bitH(X)\approx 0.07 bit
    (2).最短平均码长=1 bit H(X)H(X)为最优码长的下届,何时为下确界? 无限次传输时,最短码长还是0.07 bit吗?X:X1,X2,...,XTidd PX:X_1,X_2,...,X_T idd~P MinAverageCodeLengthTH(X)+1Min Average Code Length\le TH(X)+1 (受限于码长必须是整数) H(X1,X2,...,XT)=TH(X)H(X_1,X_2,...,X_T)=TH(X) 平均每次的码长即为:
    $$\frac{TH(X)+1}{T}=H(X)+\frac{1}{T}$$
    TT\to \infty ,1T0\frac{1}{T}\to 0.
    真实信源信源是一个随机过程,H(X)=limT1TH(X1,X2,...,XT)H(X)=lim_{T\to \infty}\frac{1}{T}H(X_1,X_2,...,X_T)
    假设极限存在,定义平均每一时刻的信息量增长:
    $$H(X)=lim_{T\to \infty}H(X_T|X_1,X_2,…,X_T)$$
    即为熵率:序列长度的增长速率

  1. Differential Entropy (微分熵)
    仿照离散型对连续型随机变量的讨论.
    考虑r.v.XV[0,1]r.v. X\sim V[0,1] ,连续型随机变量的熵为 \infty
    但是可以离散化XΔ[0,Δ,2Δ,...,1Δ,Δ]Δ0H(XΔ)X_{\Delta}\sim [0,\Delta,2\Delta,...,1-\Delta,\Delta] \quad \Delta \to 0 \quad H(X_{\Delta})\to \infty
    可以从形式上定义一个Entropy continuousr.v.Xpdff(x)continuous \quad r.v. X \quad pdf \quad f(x) $$h(x)=-\int f(x)\log_2f(x)dx=-E\log f(x)$$
    XX退化为 XΔX_{\Delta}
    $$H(X_{\Delta})\approx h(x)+\log_2\frac{1}{\Delta}$$
    如何证明?
    $$H(X_{\Delta})=-\sum p(x)\Delta\log_2p(x)\Delta dx$$
    $$(p(x)\Delta\approx \int p(x)dx)$$
    $$\approx -\int p(x)\log_2p(x)\Delta dx$$
    $$=h(x)+\log_2\frac{1}{\Delta}$$

反直觉的一件事:differential entropy不过是形式化定义而已
由以上的推导,我们由以下几个结论:

  • 考虑离散r.v.XY=X+cZ=axr.v.\quad X \quad Y=X+c\quad Z=ax
    $$H(X)=H(Y)=H(Z)$$
  • 考虑连续r.v.XY=aXr.v.\quad X \quad Y=aX
    $$h(Y)=h(X)+\log_2a$$
    如何证明连续的情况? Y=aXX=YaY=aX\quad \to X=\frac{Y}{a} $$\star\int P_Y(y)dy=\int \frac{1}{|a|}P_X(\frac{y}{a})dy$$
    $$h(Y)=-\int P_Y(y)\log_2P_Y(y)dy$$
    $$=-\int \frac{1}{|a|}P_X(\frac{y}{a})\log_2(\frac{1}{|a|}P_X(\frac{y}{a}))dy$$
    $$=-\int P_x(X)\log_2(\frac{1}{|a|}P_X(x))dx$$
    $$=h(x)+\log_2|a|$$

    PS:概统知识 已知XX的概率密度函数PX(x)P_X(x)Y=aX(a0)Y=aX(a\ne 0)的概率密度PY(y)P_Y(y),如何得到\star式?
    $$F_Y(y)=P(Y\le y)=P(aX\le y)$$
    $$(1).a>0 \quad P(aX\le y)=P(X\le \frac{y}{a})=F_X(\frac{y}{a})$$
    $$(2).a>0 \quad P(aX\le y)=P(X\ge \frac{y}{a})=1-F_X()\frac{y}{a}$$
    $$1.a>0 \quad P_Y(y)=\frac{\mathrm{d} }{\mathrm{d}y }F_X(\frac{y}{a})=P_X(\frac{y}{a})\frac{1}{a}$$
    $$2.a<0 \quad P_Y(y)=\frac{\mathrm{d} }{\mathrm{d}y }(1-F_X(\frac{y}{a}))=-P_X(\frac{y}{a})\frac{1}{a}=P_X(\frac{y}{a})\frac{1}{|a|}$$
    $$\therefore P_Y(y)=\frac{1}{|a|}P_X(\frac{y}{a})$$


e.g.r.v.XN(μ,σ2)δ=σ2e.g. \quad r.v. \quad X\sim N(\mu ,\sigma^2)\quad \delta=\sigma^2 \quadh(x)h(x)

$$h(x)=-E\log_2p(x)=-\frac{1}{\ln2}E\ln p(x)$$
$$\ln p(x)=-\frac{1}{2}\ln (2\pi \sigma)-\frac{(x-\mu)^2}{2\sigma}$$
$$E[\ln p(x)]=-\frac{1}{2}\ln (2\pi \sigma)-\frac{1}{2\sigma}E[(x-\mu)^2]$$
$$=-\frac{1}{2}\ln (2\pi \sigma)-\frac{1}{2}$$
$$\therefore h(x)=\frac{1}{2}\log_2(2\pi e\sigma^2)$$
$$\Longrightarrow E[g(x)]=\int_{-\infty}^{+\infty}g(x)p(x)dx $$

L5

Differential Continuous entropy在上一节中已经进行了清晰的定义,沿用这些概念,定义一些新概念。

  1. Joint differential entropy 联合熵
    $$h(X,Y)=-\int f(x,y)logf(x,y)dxdy$$
    where f(x,y)f(x,y) is he joint pdf of X,Y
  2. conditional differential entropy 条件熵
    $$h(X|Y)=-\int f(x,y)logf(x|y)dxdy$$
    $$=h(X,Y)-h(Y)$$
  3. Mutual Infoimation 互信息
    离散情况: I(X;Y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(X,Y)I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)
    X,YX,Y为连续随机变量fX,YfXYfYXf_{X,Y}\quad f_{X|Y}\quad f_{Y|X}则有定义:
    $$\int f_{XY}(X,Y)log_2\frac{f_{XY}(x,y)}{f_X(x)f_Y(y)}dxdy$$
  4. KL dicergence 相对熵
    定义f,gf,g 为两个pdfpdf(连续随机变量)定义:
    $$KL(f||g):=\int_{-\infty}^{+\infty}f(x)\log\frac{f(x)}{g(x)}$$
    $$KL(P_{\Delta}||Q_{\Delta})=^{\Delta\to 0}=KL(f||g)$$

L6

Kolmagorov Complexity 柯尔莫哥洛夫复杂度
对于 determinist object有最优描述,例如圆(o,r) 矩形(o,a,b),why optimal is (o,r)? 对于random object如何?
另一个e.g.描述一段序列 0,1{0,1}^*

  • 对与0,0,…,0全为0 显然容易 {0,repeatntimes}\{0,repeat\quad n\quad times\}
  • 011011… 显然也容易 {011,repeatntimes}\{011,repeat\quad n\quad times\}
  • 110101001… 本身无规律 方法只有copy序列本身

引入一个问题:对于一个给定问题,讨论可用一段代码计算求解问题

  • computer:能用代码实现
  • 不computer:不能用代码实现 e.g. 表示所有实数 e.g. 多元方程整数解的存在
  1. Problems Decision Problems (eg 给定L0,1decide if xL? for every x0,1L\subseteq {0,1}^* \text{decide if }x\in L\text{? for every }x\in {0,1}^*)
  2. Algorithms 一段代码alga0,1alg-a\in {0,1}^* (图灵机有限步内有解)

存在大量Problems(不可数多)没有Algorithms(可数多),事实上Problems是A lgorithms数量的幂级 S<P(S)|S|<|\mathcal{P} (S)|

[实变函数]一个集合和它的幂集无一一对应的关系
Halting Problem:给定代码input(a,i)input(a,i)能否在有限步停下来的问题
哥德尔不完备定理:若一个公理体系是内无矛盾的,则存在大量的statements无法被证明/证伪


Kolmogorov complexity
柯复杂度定义为:若字符串x0,1 is defined as:x\in {0,1}^* \text{ is defined as:}
$$K(x):=min|P|\quad P\to \text{代码}$$
$$u(P)=x:\text{执行代码输出为}x$$
对于某一个universal Turing Machine:
Q1. 对于不同的图灵机u1,u2u_1,u_2他们的K(x)K(x)有本质区别吗?
结论:uuu \quad u^* 为两个universal T.M,则存在cNc\in N 使得对x{0,1}Ku(x)Ku(x)+c c与x无关,取决于uu\forall x\in \{0,1\}^* K_u(x)\le K_u^* (x)+c \text{ c与x无关,取决于} u\text{与}u^*
Q2.固定u,Ku(x)u,K_u(x)?(怎么找到最短代码)
枚举?不可行,不存在一个算法可以决定program P 能否把输入x在有限步生成。
猜想&证明:Kolmogorov complexity不可计算?


Them Ku(X)K_u(X) is not computable
proof:若存在算法P0P_0 计算Ku(x)K_u(x) for x{0,1}\forall x \in \{0,1\}^*
这是P0P_0的长度是固定的,P0=const|P_0| = const
S1,S2,...{0,1}S_1,S_2,...\in \{0,1\}^* ,其中S1S2...|S_1|\le |S_2|\le ...

P0:Fori=1...P_0^*: For\quad i=1 ... compute Ku(Si)K_u(S_i) using P0P_0: if Ku(Si)=108K_u(S_i)=10^8 output SiS_i

P0x{0,1}K(x)\exists P_0\quad \forall x\in \{0,1\}^* \quad K(x)
P0=m|P_0|=m S0,S1,S2,...S_0,S_1,S_2,...

Pfori=1,2.....P^* \quad for\quad i=1,2..... compute K(Si)K(S_i) using P0P_0: if K(Si)m+1K(S_i)\ge m+1 output SiS_i PP^* 只调用P0P_0枚举,\therefore长度不大于m+cm+c

$$K(S)\to \ge m+1$$

PP^* 生成了一个复杂度大于其长度的代码,这与定义的“最小”矛盾

Kolmogorov complexity K(s)Pm+c\to K(s)\le |P^* |\le m+c,即K(s)K(s)不应超过PP^* 的长度


最大熵分布估计 从部分信息估计概率密度函数
常见:矩约束

$$\int f(x)dx=1$$
$$\int xf(x)dx=r_1$$
$$…$$
$$\int g_i(x)f(x)dx=r_i\text{(泛化形式)}$$
最大熵分布估计:从所有信息里面选Entropy最大的
$$max\quad -\int f(x)\ln f(x)dx \quad s.t.\quad \int f(x)dx=1,\quad \int xf(x)dx=r_1 …$$
例题:矩约束为f(x)dx=1xf(x)dx=0(一阶原点矩约束)E(x)x2f(x)dx=σ2(二阶矩约束)D(x)\int f(x)dx=1\quad \int xf(x)dx=0 \text{(一阶原点矩约束)}E(x) \quad \int x^2f(x)dx=\sigma^2\text{(二阶矩约束)}D(x)
$$PS:D(x)=E[(x-E(x))^2]=E[x^2]-(E[x])^2=\int x^2f(x)dx$$
解:首先构造拉格朗日函数
$$ \mathcal{L} (x,f(x))=-f(x)\log f(x)+\lambda_1f(x)+\lambda_2xf(x)+\lambda_3x^2f(x)$$
$$ \mathcal{J} (f)=\int_{+\infty}^{-\infty}\mathcal{L}(x,f(x))dx-\lambda_1-\lambda_2*0-\lambda_3\sigma^2 \quad \text{(泛函)}$$
$$\frac{\mathrm{d} \mathcal{L} }{\mathrm{d} f(x)}=-\log f(x)+(-f(x))\frac{1}{f(x)}+\lambda_1+\lambda_2x+\lambda_3x^2 $$
$$\therefore f(x)=e^{\lambda-1+\lambda_2x+\lambda_3x^2}\quad \text{即为正态分布}$$

L7

Channel Coding 信道编码

  1. 信道噪声
  2. 算法减少(纠正)错误
    重复编码 0—>000 1->n1 解码:最近邻
  • M1C1M_1\to C_1
  • M2C2M_2\to C_2
  • MmCmM_m\to C_m

Lower bound - {0,1}m{0,1}n\{0,1\}^m\to \{0,1\}^n

Goal:ijdH(Ci,Cj)2t+1(correct t bits error)\text{Goal:}\forall i\ne j \quad d_H(C_i,C_j)\ge 2t+1\text{(correct t bits error)}\quad 给定t,m估计n的下界

Sphere packing bound
$$M\le \frac{2^n}{\sum_{i=0}^t\binom{n}{i} }$$
总空间2n2^n 至少容纳mm 个球给出nn的下界(nn至少多大才能支持mm个码字纠正tt位错误)
Upper bound 上界(存在性分析) dH(Ci,Cj)δn(δ(0,12))d_H(C_i,C_j)\ge \delta n (\delta \in (0,\frac{1}{2}))
给定m,δm,\delta求最小的nn,使得必然存在: 2mn位字δn2^m\text{个}n\text{位字}\ge \delta n

  1. 单对坏概率上界 Chernoff界
    $$i\ne j \quad P(d_H(C_i,C_j)<\delta n)<e^{-\theta(n)}$$
  2. 全局坏概率
    $$P(\exists i\ne j,d_H(C_i,C_j)<\delta n)<C_{\alpha}^{2^m}e^{-\theta(n)}$$
  3. 概率小于1
    $$C_{\alpha}^{2^m}e^{-\theta(n)}<1$$

GV 线性关系 n>cmc为常数项,则存在C1,...,C2mn>cm\quad \text{c为常数项,则存在}C_1,...,C_{2^m} 使得dH(Ci,Cj)δnd_H(C_i,C_j)\ge \delta n
汉明码(至多纠正一个错误) 二元域GF(2)GF(2)的矩阵 零空间Null(H)={x{0,1},HX=0}Null(H)=\{x\in\{0,1\},HX=0\}

L9

Message ->Error correcting Code. {0,1}m{0,1}n\{0,1\}^m\to \{0,1\}^n

  1. Ci,Cj{0,1}n,dH(Ci,Cj)2t+1bits\forall C_i,C_j\in \{0,1\}^n,d_H(C_i,C_j)\ge 2t+1\quad bits
  2. Sphere packing bound 2ni=0t(ni)2m\frac{2^n}{\sum_{i=0}{t}\binom{n}{i} \ge 2^m }
  3. G. V. bound(Gilbert–Varshamov bound)
  4. Eifficient Encoding/Decoding Algorithm

Hamming Coding

H=[000111101100111010101]H=\begin{bmatrix} 0 & 0 & 0 & 1 & 1 & 1 & 1\\ 0 & 1 & 1 & 0 & 0 & 1 & 1\\ 1 & 0 & 1 & 0 & 1 & 0 & 1 \end{bmatrix} xi,xjNull(H)={x{0,1}7,Hx=0}x_i,x_j\in Null(H)=\{x\in \{0,1\}^7, Hx=0 \}

列线性无关,任意两列之和不为第三列

xNull(H)满足Hx=0x\in Null(H)\to \text{满足}Hx=0

解码 correct 1-bit error dH(x,Ci)1bitδ错误向量d_H(x,C_i)\le 1 \quad bit \quad \delta \to \text{错误向量}

Hx={0xCi2xδCiHx= \begin{cases} 0 \quad x\to C_i\\ 2 \quad x-\delta \to C_i \end{cases}

编码目的

  1. 信息量: mi{0,1}4m_i\in \{0,1\}^4\quad 码字 ci[mi,...]c_i\in [m_i,...]
  2. 生成矩阵:生成矩阵 GGHH零空间的4个基向量 g1,g2,g3,g4g_1,g_2,g_3,g_4构成, g1Null(H)g_1 \in Null(H),因此 HG=0HG=0
  3. 码字是基向量的线性组合 c=i=14aigi=Gac=\sum_{i=1}^4a_ig_i=Ga
  4. 生成矩阵的标准形式
    $$G=[I_4|G_3]$$
    $$c=[a|G_3a]\to \text{[信息位|监督位]}$$
  5. 监督矩阵的置换
    $$H=[P|I_3]\to G=(\frac{I_4}{P^T})$$
  6. 生成矩阵 n×kGmGmG=[IkGnk]n\times k\to G\quad m\to Gm\quad G=[I_k|G_{n-k}]
    [n,k,d]:
  • n:码字长度 n=k+rn=k+r
  • k:信息位长度
  • d:最小汉明 d2t+1d\ge 2t+1

L10

[n,k,d]->[m+1,k+1,d+1] 其中d为odd,d+1为even
方法: 通过添加全局奇偶校验位(Overall Parity Check)实现,使最小汉明距离增加1.
循环编号 由上往下每一行向右偏移一位

[1101000011010000110100001101]\begin{bmatrix} 1 & 1 & 0 & 1 & 0 & 0 & 0\\ 0 & 1 & 1 & 0 & 1 & 0 & 0\\ 0 & 0 & 1 & 1 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 & 1 & 0 & 1 \end{bmatrix}
  1. 噪声信道如何模拟? XP(YX)>YX--P(Y|X)-->Y
  2. 给定噪声信道 P(YX)P(Y|X),X会接受多少信息?
    $$I(X;Y)=D(P_{XY}||P_XP_Y)$$

信道容量: C:=maxPXI(X;Y)C:=max_{P_X}I(X;Y)
对所有的输入PXP_X,互信息最大值代表最大可靠传输速率
信道编码定理:

R:码率,每s传输bitR:\text{码率,每s传输bit} ifR<C,error correcting codeerror0\text{if}\quad R< C,\exists \text{error correcting code}\quad \text{error}\to 0\quad ifR>C,error correcting codeerrorε0\text{if}\quad R>C,\nexists \text{error correcting code}\quad \text{error}\ge \varepsilon_0

L11

渐进充分性(AEP)i.i.d

大数定理及其扩展 PP为概率分布
$$P(|\frac{1}{n}\sum X_i-E(x)|\ge\varepsilon)\to0(n\to\infty)$$
函数的定义下:
$$P(|\frac{1}{n}\sum g(X_i)-E(g(x))|\ge\varepsilon)\to0$$
熵的定义下:
$$P(|\frac{1}{n}\sum \log\frac{1}{p(x_i)}-E(\log\frac{1}{p(x)})|\ge\varepsilon)\to0$$

E(log1p(x))为信源熵,熵的定义下表明经验熵收敛于真实熵E(\log\frac{1}{p(x)})为信源熵,熵的定义下表明经验熵收敛于真实熵

典型集 A={(x1,...,xn):P(x1,..,xn)2nH(x)±ε}1.P(A)1(典型集必出现)2.P(Ac)0(非典型集合可忽略)A=\{(x_1,...,x_n):P(x_1,..,x_n)\in 2_{-nH(x)\pm \varepsilon }\}\Rightarrow 1. P(A)\approx 1(典型集必出现) 2. P(A_c)\approx 0 (非典型集合可忽略)
则有AA中元素个数|A|\to A\text{中元素个数}
$$\log P(·)=-nH(X)$$
$$\sum_{x\in A}p(x)\approx 1$$
$$|A|2^{-nH(x)}\approx1$$
$$|A|\approx2^{-nH(x)}$$


联合典型序列 定义联合AEP
$$i.i.d\quad (X_1,Y_1)(X_2,Y_2)…(X_n,Y_n)\sim P(X,Y)$$
联合分布概率
$$P_{XY}(·)\in 2^{-n(H(X,Y)\pm \varepsilon)}$$
边缘分布
$$P_X(·)\in 2^{-n(H(X)\pm \varepsilon)}$$
$$P_Y(·)\in 2^{-n(H(Y)\pm \varepsilon)}$$
[采样相关] 如何生成X1,Y1,...,Xn,YnX_1,Y_1,...,X_n,Y_n

  1. (Xi,Yi)P(X,Y)(X_i,Y_i)\sim P(X,Y)
  2. X1,...,XnP(X)Y1,...,YnP(YX)X_1,...,X_n\sim P(X) \quad Y_1,...,Y_n\sim P(Y|X)

固定序列x1,x2,...,xnx_1,x_2,...,x_n相应的采样典型序列 y1,y2,...,yny_1,y_2,...,y_n is 2nH(YX)2^{nH(Y|X)}
考虑独立的典型序列X,YX,Y,则能构成典型序列的概率为:
$$\frac{2^{nH(X,Y)} }{2^{n(H(X)+H(Y))} }=2^{-nI(X;Y)}$$

L12

香农信道编码原理 Shannon Channel Coding Theorem

R:码率,每s传输bitR:\text{码率,每s传输bit} ifR<C,error correcting codeerror0\text{if}\quad R< C,\exists \text{error correcting code}\quad \text{error}\to 0 ifR>C,error correcting codeerrorε0>0\text{if}\quad R>C,\nexists \text{error correcting code}\quad \text{error}\ge \varepsilon_0> 0

Proof Shannon Part1(Assume R<C)

  1. raw message {m1,m2,...m2nR}\{m_1,m_2,...m_{2^{nR} }\}服从均匀分布 P(mi)=12nRP(m_i)=\frac{1}{2^{nR} }
  2. Design codeBook CB=(C1,C2,...C2nR)CB=(C_1,C_2,...C_{2^{nR} })
    $$m_1\to C_1=(C_11,C_12,…,C_1n)$$
    $$m_2\to C_2=(C_21,C_22,…,C_2n)$$
    $$…$$
    $$m_{2^{nR} }\to C_{2^{nR} }=(C_{2^{nR_1} },C_{2^{nR_2} },…,C_{2^{nR_n} })$$
    idea random coding
    $$P(X)=argmax_{\rho (x)}I(X;Y)$$
  3. Decoding algorithm/mode
    Upon receiving (y1,...,yn)?>Ci(y_1,...,y_n)--?->C_i
    寻找唯一码字Ci=(x1,...,xn)s.t.(x1,...,xn,y1,..,yn)is a joint typical sequenceC_i=(x_1,...,x_n)\quad s.t.\quad (x_1,...,x_n,y_1,..,y_n)\quad \text{is a joint typical sequence}
    即满足P(X)P(YX)P(X)P(Y|X)联合典型序列(AEP),需要考虑以下情况:
    (a) 无码字与y联合 解码失败(如y本身非典型) 不考虑这种情况
    (b) 多码字与y联合 解码失败 \star \star \star
    (c) 唯一码字与y联合 无需证明
    对于情况(b):

    y为联合典型概率为2nI(X;Y)2^{-nI(X;Y)}
    其本身有2nR12nR个其它码字2^{nR}-1\approx 2^{nR}个其它码字
    $$P((b))\le 2^{nR}·2^{-nI(X;Y)}=2^{n(R-I(X;Y))}=2^{n(R-C)}$$

    R<CR< C时,nn\to \infty,2n(RC)02^{n(R-C)}\to 0

L13

范式不等式(Fan’s Inequality)
Theorem. X,YdiscreteXHH<X,Y \quad discrete X\in\mathcal{H} \quad |\mathcal{H}|<\infty
用Y估计X X^=g(Y)\hat{X}=g(Y)作为X的估计
最小化错误率 Pe:=P(X^X){PP(XY)H(XY)相关}P_e:=P(\hat{X}\ne X)\{P与P(X|Y)和H(X|Y)相关\}
$$P_e\ge \frac{H(X|Y)-1}{\log|\mathcal{H}|}$$

Proof Shannon Part2(Assume R>C)
消息M{1,2,...,2nR}M\in \{1,2,...,2^{nR}\} 均匀分布H(M)=nRH(M)=nR
信道输出Yn=(Y1,...,Yn)Y^n=(Y_1,...,Y_n),则互信息I(M;Yn)nC(C=maxI(X;Y))I(M;Y^n)\le nC(C=maxI(X;Y))
证明R>CPeε>0R>C\text{时}\quad P_e\le \varepsilon > 0
$$I(M;Y^n)=H(M)-H(M;Y^n)$$
$$H(M;Y^n)=H(M)-I(M;Y^n)$$
$$H(M)=nR\quad I(M;Y^n)\le nC$$
$$H(M;Y^m)\ge n(R-C)$$
M^=g(Yn)Pe=P(M^M)H=2nRlogH=nR\hat{M}=g(Y_n)\quad P_e=P(\hat{M}\ne M)\quad |\mathcal{H}|=2^{nR}\quad \log |\mathcal{H}|=nR
$$P_e\ge \frac{n(R-C)-1}{nR}\approx \frac{R-C}{R}=\varepsilon_0 > 0 \quad (R>C) $$


费希尔信息(Fisher Information)与克拉美劳不等式(Cramer-Rao Inequality)

  1. 无偏估计 X=(x1,...,xn)i.i.d密度函数f(X;θ)=i=1nf(xi;θ)X=(x_1,...,x_n)\quad i.i.d\quad \text{密度函数}\quad f(X;\theta)=\prod_{i=1}^nf(x_i;\theta) 目的:用x1,...,xθx_1,...,x_{\theta} 估计θ\theta
    $$\hat{\theta}=\phi(x_1,…x_n)\quad \phi:X\to R$$
    无偏估计E(ϕ(X)=θ)Var(ϕ(X))E(\phi(X)=\theta)\quad Var(\phi(X))有下届 θ^\hat{\theta}即为θ\theta的无偏估计
  2. 费舍尔信息(Fisher Information)
    定义分数函数
    $$S(X;\theta):=\frac{\partial }{\partial \theta}\ln f(X;\theta) $$
    $$E(S(X;\theta))=\int S(X;\theta)f(x;\theta)dx$$
    $$=\int \frac{\partial }{\partial \theta}\ln f(x;\theta)·f(x;\theta)dx$$
    $$=\int\frac{\partial }{\partial \theta} f(x;\theta)dx$$
    $$=\frac{\partial }{\partial \theta}\int f(x;\theta )dx$$
    $$=\frac{\partial }{\partial \theta}1=0$$
    $$E(S^2(X;\theta))=Var(S(X;\theta))$$
    定义费舍尔信息:
    $$I(\theta)=Var(S(X;\theta))=E[S(X;\theta)^2]$$
    $$Var=E[(X-E(X)^2)]=E(X^2)$$
    等价于
    $$I(\theta)=-E(\frac{\partial^2 }{\partial \theta^2}\ln f(X;\theta))$$
  3. 克拉美劳不等式
    无偏估计ϕ:XRVar(ϕ(X))1I(θ)\phi:X\to R\quad Var(\phi(X))\ge \frac{1}{I(\theta)}
    分数函数:
    $$E(\nabla_\theta \ln f(X;\theta))$$
    Fisher information:
    $$-E(\nabla_\theta^2 \ln f(X;\theta))$$
    Camer-Rao:(两者之差时半正定的)
    $$Cov(\phi(X))\ge I(\theta)^{-1}$$

L14

通信复杂度(Communication Complexity)
定义:f(x,y)f(x,y)计算函数(x,y{0,1},f为二元函数)(x,y\in\{0,1\}^*,f\text{为二元函数}) 所需交换的最大比特数

AlicexBobyAlice\to x \quad Bob\to y 有限次通信写作计算f(x,y)goal:f(x,y)\quad goal:最小通信量

时序矩阵
分块数:X(f)\mathcal{X}(f)\to将函数ff的真值表分解为若干时序矩阵的最小数量
通信复杂度的下界:
$$CC(f)\ge \log_2\mathcal{X}(f)$$
每个时序矩阵对应一种通信协议路径(固定的比特序列) 若X(f)\mathcal{X}(f)时分块数,则至少需要log2X(f)\log_2\mathcal{X}(f)来区分(因kk比特可表示2k2^k种)

log2X(f)Alice&Bob\log_2 \mathcal{X}(f)\to Alice\&Bob 都知道结果

示例1:传达EQ(X,Y)=[x=y]EQ(X,Y)=[x=y]需要多少比特?

[00011011001000010100100010110001]\begin{bmatrix} · & 00 & 01 & 10 & 11 \\ 00 & 1 & 0 & 0 & 0 \\ 01 & 0 & 1 & 0 & 0 \\ 10 & 0 & 0 & 1 & 0 \\ 11 & 0 & 0 & 0 & 1 \end{bmatrix}

若包含对角线元素则不能包含非对角线元素,否则通信协议会混淆,则每个对角线必须单独构成一个矩阵,共2n2^n个矩阵

CC(EQ)log2(2n)=n\therefore CC(EQ)\ge \log_2(2^n)=n\to至少需要n比特通讯

示例2:传达NAND(X,Y)=[¬(xy)]NAND(X,Y)=[\neg(x\wedge y)]需要多少比特?

[00011011001111011010101100111001]\begin{bmatrix} · & 00 & 01 & 10 & 11 \\ 00 & 1 & 1 & 1 & 1 \\ 01 & 1 & 0 & 1 & 0 \\ 10 & 1 & 1 & 0 & 0 \\ 11 & 1 & 0 & 0 & 1 \end{bmatrix}

$$\mathcal{X}(NAND)\ge 2^n \quad CC(F)>n$$

rank(M(f))(X)(f)rank(M(f))\text{与}\mathcal(X)(f)

$$f(x,y)\quad M(f)_{2^n\times2^n}\to Matrix$$
$$M(f)\quad\text{into some rank 1 matrices}$$
$$rank(M(f))\le \mathcal{X}(f)$$
$$rank(A+B)\le rank(A)+rank(B)$$

L15

PNT素数定理

$$P\in[n^{100},n^{101}]\quad P\le m\sim\frac{m}{lnm}\quad \text{P存在性有保障}$$
Protoacl
$$Alice:x\in{0,1}^n \quad Bob:y\in{0,1}^n$$

  1. 随机选择一个素数 p{n100,n101}p\in \{n^{100},n^{101}\}
  2. Alice选择一个t{0,1,...,p1}t\in \{0,1,...,p-1\}
  3. Alice将xx映射为多项式f(t)=xitimodpf(t)=\sum x_it_i\quad mod \quad p
  4. Alice send tandf(t)t\quad \text{and}\quad f(t)\quadto Bob(o(logp)=o(logn)bits)(o(\log p)=o(\log n)\quad bits)
  5. 接收tandf(t)t\quad \text{and}\quad f(t)\quadcompute g(t)=yitimodpg(t)=\sum y_it_i\quad mod\quad p\quad比较f(t)andg(t)f(t)\quad \text{and}\quad g(t)\quad 若相等,则为1否则为0
    fgf(t)=g(t)f\ne g \quad \text{但}f(t)=g(t)\quad说明ttfgf-g的根
    t{0,1,...,p1}t\in \{0,1,...,p-1\}h(x)=f(x)g(x)h(x)=f(x)-g(x)根的概率
    $$h(x)=\sum_{i=0}^{n-1}(x_i-y_i)t_i\quad mod \quad p$$
    其为非0多项式,且次数n1\le n-1(有限域熵多项式根的定理),即最多n1n-1 个根
    $$P(error)\le \frac{n-1}{p} \quad p\ge n^{100}$$
    $$\therefore \frac{n-1}{p}\le \frac{n}{n^{100} }\le o(n^{-99})$$

Max Entropy(多元情况)
最大熵分布是一个多元高斯N(0,Σ)N(0,\Sigma)
$$X\to d维 \quad E(X)=0\quad Cov(X)=XX^T=\Sigma$$
Let YN(0,Σ)Thenh(x)h(Y)Y\sim N(0,\Sigma)\quad Then \quad h(x)\le h(Y)
$$D(X||Y)=\int f_X(t)\ln\frac{f_X(t)}{f_Y(t)}dt$$
$$=-h(x)-\int f_X(t)\ln f_Y(t)dt$$
$$=h(Y)-h(X)\ge0$$
由d维向量,可证:
$$f_Y(t)=\frac{1}{(2\pi)^{\frac{d}{2} }det(\Sigma)^{\frac{1}{2} } }exp(-\frac{1}{2}t^T\Sigma^{-1}t)$$
$$\ln f_Y(t)=-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln det(\Sigma)-\frac{1}{2}t^T\Sigma t \quad (1)$$
$$-\int f_X(t)\ln f_Y(t)dt=\frac{d}{2}\ln(2\pi)+\frac{1}{2}\ln det(\Sigma)+\frac{1}{2}\int f_X(t)t^T\Sigma^{-1}tdt$$
$$t^T\Sigma^{-1}t\to E_X[t^T\Sigma^{-1}t]=tr(\Sigma^{-1}E[tt^T])$$
$$=tr(\Sigma^{-1}\Sigma)=tr(Id)=d$$

$$\frac{1}{2}\int f_X(t)t^T\Sigma^{-1}tdt=\frac{d}{2}\quad (2)$$
$$-\frac{d}{2}\ln(2\pi)+\frac{1}{2}\ln det(\Sigma)=\ln((2\pi)^{\frac{d}{2} }det(\Sigma)^{\frac{1}{2} })=\ln\frac{1}{f_Y^*(0)}$$
$$h(Y)=\frac{d}{2}\ln(2\pi)+\frac{1}{2}\ln det(\Sigma)+\frac{d}{2}$$
$$h(Y)=\frac{1}{2}\ln((2\pi e)^ddet(\Sigma)) \quad (3)$$

将(1)(2)(3)带入原式即可证明

❀完结撒花❀