Contents

指数分布族

PRML, 2.4 The Exponential Family

指数分布族中的分布具备很多共同的重要特性。

给定参数 $\boldsymbol{\eta}$,$\mathbf{x}$ 上的指数分布族被定义为这种形式的分布的集合:

$$ p(\mathbf{x}|\boldsymbol{\eta})=h(\mathbf{x})g(\boldsymbol{\eta})\exp\{\boldsymbol{\eta}^\mathsf{T}\mathbf{u}(\mathbf{x})\} \label{EFD} $$

$\mathbf{x}$ 可能是标量或向量,可能是离散的或连续的。$\boldsymbol{\eta}$ 叫作分布的 自然参数 (natural parameter),$\mathbf{u}(\mathbf{x})$ 表示 $\mathbf{x}$ 的函数。$g(\boldsymbol{\eta})$ 可以解释为系数,从而确保分布是归一化的,因此满足:

$$ g(\boldsymbol{\eta})\int h(\mathbf{x}) \exp\{\boldsymbol{\eta}^\mathsf{T}\mathbf{u}(\mathbf{x})\} \mathrm{d}\mathbf{x}=1 \label{EFD-1} $$

伯努利分布

Bernoulli Distribution.

$$ p(x|\mu)=\text{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} $$

把右边表示成对数的指数:

$$ \begin{aligned} p(x|\mu)&=\exp\{x\ln\mu+(1-x)\ln(1-\mu)\}\\ &=(1-\mu)\exp\left\{\left(\frac{\mu}{1-\mu}\right)x\right\} \end{aligned} $$

与 $\eqref{EFD}$ 相比较可以得到:

$$ \eta=\ln\left(\frac{\mu}{1-\mu}\right) $$

从而有:

$$ \mu=\frac{1}{1+\exp(-\eta)}=\sigma(\eta) $$

因此伯努利分布可以写成标准形式:

$$ \begin{aligned} p(x|\eta)&=(1-\sigma(\eta))\exp(\eta x)\\ &=\sigma(-\eta)\exp(\eta x)\\ u(x) &= x \\ h(x) &= 1 \\ g(\eta) &= \sigma(-\eta) \end{aligned} $$

类别分布

Categorical Distribution.

$$ p(\mathbf{x}|\boldsymbol{\mu})=\prod_{k=1}^M \mu_k^{x_k} = \exp\left\{\sum_{k=1}^M x_k\ln \mu_k\right\} $$

其中 $\mathbf{x}=(x_1,\dots,x_M)^\mathsf{T}$,写成标准形式为:

$$ \begin{aligned} p(\mathbf{x}|\boldsymbol{\eta}) &= \exp(\boldsymbol{\eta}^\mathsf{T}\mathbf{x}) \\ \mathbf{u}(\mathbf{x}) &= \mathbf{x} \\ h(\mathbf{x}) &= 1\\ g(\boldsymbol{\eta}) &= 1 \end{aligned} $$

其中 $\eta_k=\ln\mu_k,\boldsymbol{\eta}=(\eta_1,\dots,\eta_M)^\mathsf{T}$。

参数 $\eta_k$ 不是独立的,因为要满足以下约束:

$$ \begin{aligned} \sum_{k=1}^M \mu_k &= 1 \\ \sum_{k=1}^M x_k &= 1 \end{aligned} $$

所以给定任意 $M-1$ 个参数,剩下的一个是固定的。在某些情况下,去掉这个限制比较方便。

$$ \begin{aligned} \exp&\left\{\sum_{k=1}^M x_k\ln\mu_k\right\}\\ &=\exp\left\{\sum_{k=1}^{M-1} x_k\ln\mu_k+\left(1-\sum_{k=1}^{M-1}\right)\ln\left(1-\sum_{k=1}^{M-1}\mu_k\right)\right\}\\ &=\exp\left\{\sum_{k=1}^{M-1} x_k\ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right)+\ln\left(1-\sum_{k=1}^{M-1}\mu_k\right)\right\}\\ \end{aligned} $$

其中 $0 \le \mu_k \le 1,\sum_{k=1}^{M-1} \le 1$。

现在定义:

$$ \ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right)=\eta_k $$

所以:

$$ \begin{aligned} \frac{\sum_{j=1}^{M-1}\mu_j}{1-\sum_{j=1}^{M-1}\mu_j}&=\sum_{j=1}^{M-1}\exp(\eta_j)\\ \frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}&=\exp(\eta_k) \end{aligned} $$

所以:

$$ \mu_k=\frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)} $$

这个就是 $\text{softmax}$ 函数。

写成标准形式:

$$ \begin{aligned} p(\mathbf{x}|\boldsymbol{\eta})&=\left(1-\sum_{k=1}^{M-1}\mu_k\right)\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\ &=\left(1-\sum_{k=1}^{M-1}\frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}\right)\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\ &=\frac{1}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\ &=\left(1+\sum_{k=1}^{M-1}\exp(\eta_k)\right)^{-1}\exp(\boldsymbol{\eta}^{\mathsf{T}}\mathbf{x}) \end{aligned} $$

其中 $\boldsymbol{\eta}=(\eta_1,\dots,\eta_{M-1})^{\mathsf{T}}$,与标准形式比较:

$$ \begin{aligned} \mathbf{u}(\mathbf{x}) &= \mathbf{x} \\ h(\mathbf{x}) &= 1 \\ g(\boldsymbol{\eta}) &= \left(1+\sum_{k=1}^{M-1}\exp(\eta_k)\right)^{-1} \end{aligned} $$

高斯分布

Gaussian distribution.

对于单变量高斯分布,有:

$$ \begin{aligned} p(x|\mu,\sigma^2)&=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} \\ &=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{x^2}{2\sigma^2}+\frac{\mu x}{2\sigma^2}-\frac{\mu^2}{2\sigma^2}\} \end{aligned} $$

与标准形式比较,有:

$$ \begin{aligned} \boldsymbol{\eta} &= \binom{\frac{\mu}{\sigma^2}}{\frac{-1}{2\sigma^2}} \\ \mathbf{u}(x) &= \binom{x}{x^2} \\ h(\mathbf{x}) &= \frac{1}{\sqrt{2\pi}}\\ g(\boldsymbol{\eta}) &=\sqrt{-2\eta_2}\exp\left(\frac{\eta_1^2}{4\eta_2}\right) \end{aligned} $$

最大似然与充分统计量

考虑使用最大似然对 $\eqref{EFD}$ 中的参数 $\boldsymbol{\eta}$ 进行估计。在 $\eqref{EFD-1}$ 中对 $\boldsymbol{\eta}$ 求梯度。

$$ \begin{aligned} &\nabla g(\boldsymbol{\eta})\cdot\int h(\mathbf{x}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\} \mathrm{d} \mathbf{x} \\ &+ g(\boldsymbol{\eta})\int h(\mathbf{x}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=0 \end{aligned} $$

所以有:

$$ -\frac{1}{g(\boldsymbol{\eta})}\nabla g(\boldsymbol{\eta})=\int \underbrace{h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\}}_{p(\mathbf{x}|\boldsymbol{\eta})} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=\mathbb{E}(\mathbf{u}(\mathbf{x})) $$

所以有:

$$ -\nabla\ln g(\boldsymbol{\eta})=\mathbb{E}(\mathbf{u}(\mathbf{x})) \label{EFD-2} $$

Note that the covariance of $\mathbf{u}(\mathbf{x})$ can be expressed in terms of the second derivativesof $g(\boldsymbol{\eta})$, and similarly for higher order moments. Thus, provided we can normalize a distribution from the exponential family, we can always find its moments by simple differentiation.

现在考虑一组独立同分布的数据 $\mathbf{X}=\{\mathbf{x}_1,\dots,\mathbf{x}_N\}$,它的似然函数为:

$$ p(\mathbf{X}|\boldsymbol{\eta})=\left(\prod_{n=1}^N h(\mathbf{x}_n)\right) g(\boldsymbol{\eta})^N \exp\left\{\boldsymbol{\eta}^{\mathsf{T}}\sum_{n=1}^N\mathbf{u}(\mathbf{x})\right\} \label{EFD-ML} $$

令 $\ln p(\mathbf{X}|\boldsymbol{\eta})$ 关于 $\boldsymbol{\eta}$ 的梯度为 0,可以得到最大似然估计 $\boldsymbol{\eta}_{\text{ML}}$ 满足的条件:

$$ -\nabla\ln g(\boldsymbol{\eta}_{\text{ML}})=\frac{1}{N}\sum_{n=1}^N\mathbf{u}(\mathbf{x}) \label{EFD-3} $$

原则上可以通过解这个方程来得到 $\boldsymbol{\eta}_{\text{ML}}$,这个最大似然估计的解只依赖于 $\sum_n\mathbf{u}(\mathbf{x})$,因此这个量被称为分布 $\eqref{EFD}$ 的 充分统计量 (sufficient statistic)。我们不需要存储整个数据集本身,只需要存储充分统计量的值即可。例如,对于伯努利分布,函数 $\mathbf{u}(x)$ 就等于 $x$,因此我们只需要存储数据点 $\{x_n\}$ 的和即可。而对于高斯分布,$\mathbf{u}(x) = (x,x^2)^{\mathsf{T}}$,因此我们应该同时存储 $\{x_n\}$ 的和以及 $\{x_n^2\}$ 的和。如果我们考虑极限 $N\to\infty$,那么 $\eqref{EFD-3}$ 的右边就等于 $\mathbb{E}(\mathbf{u}(\mathbf{x}))$,与 $\eqref{EFD-2}$ 相比,在这种情况下的最大似然估计就等于真实值 $\boldsymbol{\eta}$。

共轭先验

Conjugate priors.

一般来说,对于给定的概率分布 $p(\mathbf{x}|\boldsymbol{\eta})$,我们可以找到一个先验 $p(\boldsymbol{\eta})$ 与似然函数共轭,所以后验分布与先验分布有相同的函数形式。对于属于指数族分布 $\eqref{EFD}$ 的任何分布,存在可以写成下面形式的共轭先验:

$$ p(\boldsymbol{\eta}|\boldsymbol{\chi},\nu)=f(\boldsymbol{\chi,\nu}) g(\boldsymbol{\eta})^\nu \exp\{\nu\boldsymbol{\eta}^\mathsf{T}\boldsymbol{\chi}\} \label{EFD-prior} $$

其中 $f(\boldsymbol{\chi,\nu})$ 是归一化系数,$g(\boldsymbol{\eta})$ 与 $\eqref{EFD}$ 中的相同。为了证明这个确实是共轭的,我们用似然函数 $\eqref{EFD-ML}$ 乘以先验 $\eqref{EFD-prior}$ 得到后验后验分布,忽略归一化系数:

$$ p(\boldsymbol{\eta}|\mathbf{X},\boldsymbol{\chi},\nu)\propto g(\boldsymbol{\eta})^{\nu+N}\exp\left\{\boldsymbol{\eta}^\mathsf{T}\left(\sum_{n=1}^N\mathbf{u}(\mathbf{x}_n)+\nu\boldsymbol{\chi}\right)\right\} $$

这与 $\eqref{EFD-prior}$ 有相同的函数形式,从而证明了共轭性。此外,参数 $\nu$ 可以解释为先验中的有效伪观测 (pseudo-observations) 数量。

无信息先验

Noninformative priors.