指数分布族

2022-05-31 1619 words 4 minutes

Contents

PRML, 2.4 The Exponential Family

指数分布族中的分布具备很多共同的重要特性。

给定参数 $\boldsymbol{\eta}$，$\mathbf{x}$ 上的指数分布族被定义为这种形式的分布的集合：

$$ p(\mathbf{x}|\boldsymbol{\eta})=h(\mathbf{x})g(\boldsymbol{\eta})\exp\{\boldsymbol{\eta}^\mathsf{T}\mathbf{u}(\mathbf{x})\} \label{EFD} $$

$\mathbf{x}$ 可能是标量或向量，可能是离散的或连续的。$\boldsymbol{\eta}$ 叫作分布的 自然参数 (natural parameter)，$\mathbf{u}(\mathbf{x})$ 表示 $\mathbf{x}$ 的函数。$g(\boldsymbol{\eta})$ 可以解释为系数，从而确保分布是归一化的，因此满足：

$$ g(\boldsymbol{\eta})\int h(\mathbf{x}) \exp\{\boldsymbol{\eta}^\mathsf{T}\mathbf{u}(\mathbf{x})\} \mathrm{d}\mathbf{x}=1 \label{EFD-1} $$

伯努利分布

Bernoulli Distribution.

$$ p(x|\mu)=\text{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} $$

把右边表示成对数的指数：

$$ \begin{aligned} p(x|\mu)&=\exp\{x\ln\mu+(1-x)\ln(1-\mu)\}\\ &=(1-\mu)\exp\left\{\left(\frac{\mu}{1-\mu}\right)x\right\} \end{aligned} $$

与 $\eqref{EFD}$ 相比较可以得到：

$$ \eta=\ln\left(\frac{\mu}{1-\mu}\right) $$

从而有：

$$ \mu=\frac{1}{1+\exp(-\eta)}=\sigma(\eta) $$

因此伯努利分布可以写成标准形式：

$$ \begin{aligned} p(x|\eta)&=(1-\sigma(\eta))\exp(\eta x)\\ &=\sigma(-\eta)\exp(\eta x)\\ u(x) &= x \\ h(x) &= 1 \\ g(\eta) &= \sigma(-\eta) \end{aligned} $$

类别分布

Categorical Distribution.

$$ p(\mathbf{x}|\boldsymbol{\mu})=\prod_{k=1}^M \mu_k^{x_k} = \exp\left\{\sum_{k=1}^M x_k\ln \mu_k\right\} $$

其中 $\mathbf{x}=(x_1,\dots,x_M)^\mathsf{T}$，写成标准形式为：

$$ \begin{aligned} p(\mathbf{x}|\boldsymbol{\eta}) &= \exp(\boldsymbol{\eta}^\mathsf{T}\mathbf{x}) \\ \mathbf{u}(\mathbf{x}) &= \mathbf{x} \\ h(\mathbf{x}) &= 1\\ g(\boldsymbol{\eta}) &= 1 \end{aligned} $$

其中 $\eta_k=\ln\mu_k,\boldsymbol{\eta}=(\eta_1,\dots,\eta_M)^\mathsf{T}$。

参数 $\eta_k$ 不是独立的，因为要满足以下约束：

$$ \begin{aligned} \sum_{k=1}^M \mu_k &= 1 \\ \sum_{k=1}^M x_k &= 1 \end{aligned} $$

所以给定任意 $M-1$ 个参数，剩下的一个是固定的。在某些情况下，去掉这个限制比较方便。

$$ \begin{aligned} \exp&\left\{\sum_{k=1}^M x_k\ln\mu_k\right\}\\ &=\exp\left\{\sum_{k=1}^{M-1} x_k\ln\mu_k+\left(1-\sum_{k=1}^{M-1}\right)\ln\left(1-\sum_{k=1}^{M-1}\mu_k\right)\right\}\\ &=\exp\left\{\sum_{k=1}^{M-1} x_k\ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right)+\ln\left(1-\sum_{k=1}^{M-1}\mu_k\right)\right\}\\ \end{aligned} $$

其中 $0 \le \mu_k \le 1,\sum_{k=1}^{M-1} \le 1$。

现在定义：

$$ \ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right)=\eta_k $$

所以：

$$ \begin{aligned} \frac{\sum_{j=1}^{M-1}\mu_j}{1-\sum_{j=1}^{M-1}\mu_j}&=\sum_{j=1}^{M-1}\exp(\eta_j)\\ \frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}&=\exp(\eta_k) \end{aligned} $$

所以：

$$ \mu_k=\frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)} $$

这个就是 $\text{softmax}$ 函数。

写成标准形式：

$$ \begin{aligned} p(\mathbf{x}|\boldsymbol{\eta})&=\left(1-\sum_{k=1}^{M-1}\mu_k\right)\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\ &=\left(1-\sum_{k=1}^{M-1}\frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}\right)\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\ &=\frac{1}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\ &=\left(1+\sum_{k=1}^{M-1}\exp(\eta_k)\right)^{-1}\exp(\boldsymbol{\eta}^{\mathsf{T}}\mathbf{x}) \end{aligned} $$

其中 $\boldsymbol{\eta}=(\eta_1,\dots,\eta_{M-1})^{\mathsf{T}}$，与标准形式比较：

$$ \begin{aligned} \mathbf{u}(\mathbf{x}) &= \mathbf{x} \\ h(\mathbf{x}) &= 1 \\ g(\boldsymbol{\eta}) &= \left(1+\sum_{k=1}^{M-1}\exp(\eta_k)\right)^{-1} \end{aligned} $$

高斯分布

Gaussian distribution.

对于单变量高斯分布，有：

$$ \begin{aligned} p(x|\mu,\sigma^2)&=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} \\ &=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{x^2}{2\sigma^2}+\frac{\mu x}{2\sigma^2}-\frac{\mu^2}{2\sigma^2}\} \end{aligned} $$

与标准形式比较，有：

$$ \begin{aligned} \boldsymbol{\eta} &= \binom{\frac{\mu}{\sigma^2}}{\frac{-1}{2\sigma^2}} \\ \mathbf{u}(x) &= \binom{x}{x^2} \\ h(\mathbf{x}) &= \frac{1}{\sqrt{2\pi}}\\ g(\boldsymbol{\eta}) &=\sqrt{-2\eta_2}\exp\left(\frac{\eta_1^2}{4\eta_2}\right) \end{aligned} $$

最大似然与充分统计量

考虑使用最大似然对 $\eqref{EFD}$ 中的参数 $\boldsymbol{\eta}$ 进行估计。在 $\eqref{EFD-1}$ 中对 $\boldsymbol{\eta}$ 求梯度。

$$ \begin{aligned} &\nabla g(\boldsymbol{\eta})\cdot\int h(\mathbf{x}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\} \mathrm{d} \mathbf{x} \\ &+ g(\boldsymbol{\eta})\int h(\mathbf{x}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=0 \end{aligned} $$

所以有：

$$ -\frac{1}{g(\boldsymbol{\eta})}\nabla g(\boldsymbol{\eta})=\int \underbrace{h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\}}_{p(\mathbf{x}|\boldsymbol{\eta})} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=\mathbb{E}(\mathbf{u}(\mathbf{x})) $$

所以有：

$$ -\nabla\ln g(\boldsymbol{\eta})=\mathbb{E}(\mathbf{u}(\mathbf{x})) \label{EFD-2} $$

Note that the covariance of $\mathbf{u}(\mathbf{x})$ can be expressed in terms of the second derivativesof $g(\boldsymbol{\eta})$, and similarly for higher order moments. Thus, provided we can normalize a distribution from the exponential family, we can always find its moments by simple differentiation.

现在考虑一组独立同分布的数据 $\mathbf{X}=\{\mathbf{x}_1,\dots,\mathbf{x}_N\}$，它的似然函数为：

$$ p(\mathbf{X}|\boldsymbol{\eta})=\left(\prod_{n=1}^N h(\mathbf{x}_n)\right) g(\boldsymbol{\eta})^N \exp\left\{\boldsymbol{\eta}^{\mathsf{T}}\sum_{n=1}^N\mathbf{u}(\mathbf{x})\right\} \label{EFD-ML} $$

令 $\ln p(\mathbf{X}|\boldsymbol{\eta})$ 关于 $\boldsymbol{\eta}$ 的梯度为 0，可以得到最大似然估计 $\boldsymbol{\eta}_{\text{ML}}$ 满足的条件：

$$ -\nabla\ln g(\boldsymbol{\eta}_{\text{ML}})=\frac{1}{N}\sum_{n=1}^N\mathbf{u}(\mathbf{x}) \label{EFD-3} $$

原则上可以通过解这个方程来得到 $\boldsymbol{\eta}_{\text{ML}}$，这个最大似然估计的解只依赖于 $\sum_n\mathbf{u}(\mathbf{x})$，因此这个量被称为分布 $\eqref{EFD}$ 的 充分统计量 (sufficient statistic)。我们不需要存储整个数据集本身，只需要存储充分统计量的值即可。例如，对于伯努利分布，函数 $\mathbf{u}(x)$ 就等于 $x$，因此我们只需要存储数据点 $\{x_n\}$ 的和即可。而对于高斯分布，$\mathbf{u}(x) = (x,x^2)^{\mathsf{T}}$，因此我们应该同时存储 $\{x_n\}$ 的和以及 $\{x_n^2\}$ 的和。如果我们考虑极限 $N\to\infty$，那么 $\eqref{EFD-3}$ 的右边就等于 $\mathbb{E}(\mathbf{u}(\mathbf{x}))$，与 $\eqref{EFD-2}$ 相比，在这种情况下的最大似然估计就等于真实值 $\boldsymbol{\eta}$。

共轭先验

Conjugate priors.

一般来说，对于给定的概率分布 $p(\mathbf{x}|\boldsymbol{\eta})$，我们可以找到一个先验 $p(\boldsymbol{\eta})$ 与似然函数共轭，所以后验分布与先验分布有相同的函数形式。对于属于指数族分布 $\eqref{EFD}$ 的任何分布，存在可以写成下面形式的共轭先验：

$$ p(\boldsymbol{\eta}|\boldsymbol{\chi},\nu)=f(\boldsymbol{\chi,\nu}) g(\boldsymbol{\eta})^\nu \exp\{\nu\boldsymbol{\eta}^\mathsf{T}\boldsymbol{\chi}\} \label{EFD-prior} $$

其中 $f(\boldsymbol{\chi,\nu})$ 是归一化系数，$g(\boldsymbol{\eta})$ 与 $\eqref{EFD}$ 中的相同。为了证明这个确实是共轭的，我们用似然函数 $\eqref{EFD-ML}$ 乘以先验 $\eqref{EFD-prior}$ 得到后验后验分布，忽略归一化系数：

$$ p(\boldsymbol{\eta}|\mathbf{X},\boldsymbol{\chi},\nu)\propto g(\boldsymbol{\eta})^{\nu+N}\exp\left\{\boldsymbol{\eta}^\mathsf{T}\left(\sum_{n=1}^N\mathbf{u}(\mathbf{x}_n)+\nu\boldsymbol{\chi}\right)\right\} $$

这与 $\eqref{EFD-prior}$ 有相同的函数形式，从而证明了共轭性。此外，参数 $\nu$ 可以解释为先验中的有效伪观测 (pseudo-observations) 数量。

无信息先验

Noninformative priors.