衡量不同分布相似性常用的度量

2022-03-06 Views 研究976字6 min read

Kullback-Leibler divergence (KL散度)

KL散度也称为相对熵,是衡量两个概率分布间差异的非对称性度量,数值越大表示两个分布越相似。从Q到P的KL散度计算公式为

DKL(PQ)=P(x)logP(x)Q(x)dxD_{KL}(P||Q)=\int P(x)\log{\frac{P(x)}{Q(x)}}{\rm d}x

以P为真实分布,Q为拟合分布。最小化DKL(PQ)D_{KL}(P||Q)时,P大的地方Q也必须要大,P小的地方对Q的大小不太敏感;最小化DKL(QP)D_{KL}(Q||P)时,P小的地方Q也必须要小,P大的地方对Q的大小不太敏感。

KL散度无上界,最小值为0。

交叉熵等与KL散度加信息熵

H(P,Q)=DKL(P,Q)+H(P)H(P,Q)=P(x)logQ(x)dxH(P)=P(x)logP(x)dxH(P,Q) = D_{KL}(P,Q)+H(P) \\ H(P,Q)=-\int P(x)\log{Q(x)} {\rm d}x \\ H(P)=-\int P(x)\log{P(x)} {\rm d}x

Jensen-Shannon divergence (JS散度)

为了解决KL散度不对称的问题,JS散度的计算公式为

JSD(PQ)=12DKL(PM)+12DKL(QM)M=P+Q2JSD(P||Q) = \frac{1}{2} D_{KL}(P||M)+\frac{1}{2} D_{KL}(Q||M) \\ M = \frac{P+Q}{2}

Wasserstein distance (Earth Mover's distance)

相比于散度,Wasserstein距离是真正的距离,即使两个分布没有重合,Wasserstein距离也有意义。形象的理解是它把数据从分布P“移动成”分布Q时所需要移动的平均距离的最小值。

一般的计算公式为

Wp(P,Q)=(infJJ(P,Q)xypdJ(x,y))1/pW_{p}(P, Q)=\left(\inf _{J \in \mathcal{J}(P, Q)} \int\|x-y\|^{p} d J(x, y)\right)^{1 / p}

其中J(P,Q)\mathcal{J}(P,Q)是所有联合分布的集合,且满足边缘分布分别为P和Q。当该式取得下确界时,JJ表示了最优传输的方案。
特例

  1. p=1p=1

W1(P,Q)=sup{f(x)dP(x)f(x)dQ(x):fF}W_{1}(P, Q)=\sup \left\{\int f(x) d P(x)-\int f(x) d Q(x): f \in \mathcal{F}\right\}

其中F\mathcal{F}代表所有RdR\R^d \rightarrow \R,且满足一阶Lipschitz平滑的函数集

  1. d=1d=1,有闭式解

Wp(P,Q)=(01F1(z)G1(z)p)1/pW_{p}(P, Q)=\left(\int_{0}^{1}\left|F^{-1}(z)-G^{-1}(z)\right|^{p}\right)^{1 / p}

其中F,GF,G分别为分布P,QP,Q的累积分布函数

  1. d=1d=1,从PP采样X1,,XnX_1, \dots,X_n,从QQ采样Y1,,YnY_1,\dots,Y_n

Wp(P,Q)=(i=1nX(i)Y(i)p)1/pW_{p}(P, Q)=\left(\sum_{i=1}^{n}\left\|X_{(i)}-Y_{(i)}\right\|^{p}\right)^{1 / p}

  1. PN(μ1,Σ1),QN(μ2,Σ2)P\sim N(\mu_1,\Sigma_1),Q\sim N(\mu_2,\Sigma_2)

W22(P,Q)=μ1μ22+B2(Σ1,Σ2)B2(Σ1,Σ2)=tr(Σ1)+tr(Σ2)2tr[(Σ11/2Σ2Σ11/2)1/2]\begin{gathered} W_2^{2}(P, Q)=\left\|\mu_{1}-\mu_{2}\right\|^{2}+B^{2}\left(\Sigma_{1}, \Sigma 2\right) \\ B^{2}\left(\Sigma_{1}, \Sigma 2\right)=\operatorname{tr}\left(\Sigma_{1}\right)+\operatorname{tr}\left(\Sigma_{2}\right)-2 \operatorname{tr}\left[\left(\Sigma_{1}^{1 / 2} \Sigma_{2} \Sigma_{1}^{1 / 2}\right)^{1 / 2}\right] \end{gathered}

Total Varation distance

δ(P,Q)=supAP(A)Q(A)=12pq\delta(P,Q) =\sup_A |P(A)-Q(A)| = \frac{1}{2}\int |p-q|

Hellinger distance

H(P,Q)=(pq)2H(P,Q) = \sqrt{\int(\sqrt{p}-\sqrt{q})^{2}}

KL散度、Total Variation distanc、Helinger distance都是f-divergence的特例

EOF