PRML, 2.4 The Exponential Family
指数分布族中的分布具备很多共同的重要特性。
给定参数 $\boldsymbol{\eta}
$,$\mathbf{x}
$ 上的指数分布族被定义为这种形式的分布的集合:
$$ p(\mathbf{x}|\boldsymbol{\eta})=h(\mathbf{x})g(\boldsymbol{\eta})\exp\{\boldsymbol{\eta}^\mathsf{T}\mathbf{u}(\mathbf{x})\}
\label{EFD} $$
$\mathbf{x}
$ 可能是标量或向量,可能是离散的或连续的。$\boldsymbol{\eta}
$ 叫作分布的 自然参数 (natural parameter),$\mathbf{u}(\mathbf{x})
$ 表示 $\mathbf{x}
$ 的函数。$g(\boldsymbol{\eta})
$ 可以解释为系数,从而确保分布是归一化的,因此满足:
$$ g(\boldsymbol{\eta})\int h(\mathbf{x}) \exp\{\boldsymbol{\eta}^\mathsf{T}\mathbf{u}(\mathbf{x})\} \mathrm{d}\mathbf{x}=1
\label{EFD-1} $$
伯努利分布
Bernoulli Distribution.
$$ p(x|\mu)=\text{Bern}(x|\mu)=\mu^x(1-\mu)^{1-x} $$
把右边表示成对数的指数:
$$ \begin{aligned}
p(x|\mu)&=\exp\{x\ln\mu+(1-x)\ln(1-\mu)\}\\
&=(1-\mu)\exp\left\{\left(\frac{\mu}{1-\mu}\right)x\right\}
\end{aligned} $$
与 $\eqref{EFD}
$ 相比较可以得到:
$$ \eta=\ln\left(\frac{\mu}{1-\mu}\right) $$
从而有:
$$ \mu=\frac{1}{1+\exp(-\eta)}=\sigma(\eta) $$
因此伯努利分布可以写成标准形式:
$$ \begin{aligned}
p(x|\eta)&=(1-\sigma(\eta))\exp(\eta x)\\
&=\sigma(-\eta)\exp(\eta x)\\
u(x) &= x \\
h(x) &= 1 \\
g(\eta) &= \sigma(-\eta)
\end{aligned} $$
类别分布
Categorical Distribution.
$$ p(\mathbf{x}|\boldsymbol{\mu})=\prod_{k=1}^M \mu_k^{x_k} = \exp\left\{\sum_{k=1}^M x_k\ln \mu_k\right\} $$
其中 $\mathbf{x}=(x_1,\dots,x_M)^\mathsf{T}
$,写成标准形式为:
$$ \begin{aligned}
p(\mathbf{x}|\boldsymbol{\eta}) &= \exp(\boldsymbol{\eta}^\mathsf{T}\mathbf{x}) \\
\mathbf{u}(\mathbf{x}) &= \mathbf{x} \\
h(\mathbf{x}) &= 1\\
g(\boldsymbol{\eta}) &= 1
\end{aligned} $$
其中 $\eta_k=\ln\mu_k,\boldsymbol{\eta}=(\eta_1,\dots,\eta_M)^\mathsf{T}
$。
参数 $\eta_k
$ 不是独立的,因为要满足以下约束:
$$ \begin{aligned}
\sum_{k=1}^M \mu_k &= 1 \\
\sum_{k=1}^M x_k &= 1
\end{aligned} $$
所以给定任意 $M-1
$ 个参数,剩下的一个是固定的。在某些情况下,去掉这个限制比较方便。
$$ \begin{aligned}
\exp&\left\{\sum_{k=1}^M x_k\ln\mu_k\right\}\\
&=\exp\left\{\sum_{k=1}^{M-1} x_k\ln\mu_k+\left(1-\sum_{k=1}^{M-1}\right)\ln\left(1-\sum_{k=1}^{M-1}\mu_k\right)\right\}\\
&=\exp\left\{\sum_{k=1}^{M-1} x_k\ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right)+\ln\left(1-\sum_{k=1}^{M-1}\mu_k\right)\right\}\\
\end{aligned} $$
其中 $0 \le \mu_k \le 1,\sum_{k=1}^{M-1} \le 1
$。
现在定义:
$$ \ln\left(\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}\right)=\eta_k $$
所以:
$$ \begin{aligned}
\frac{\sum_{j=1}^{M-1}\mu_j}{1-\sum_{j=1}^{M-1}\mu_j}&=\sum_{j=1}^{M-1}\exp(\eta_j)\\
\frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j}&=\exp(\eta_k)
\end{aligned} $$
所以:
$$ \mu_k=\frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)} $$
这个就是 $\text{softmax}
$ 函数。
写成标准形式:
$$ \begin{aligned}
p(\mathbf{x}|\boldsymbol{\eta})&=\left(1-\sum_{k=1}^{M-1}\mu_k\right)\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\
&=\left(1-\sum_{k=1}^{M-1}\frac{\exp(\eta_k)}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}\right)\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\
&=\frac{1}{1+\sum_{j=1}^{M-1}\exp(\eta_j)}\exp\left\{\sum_{k=1}^{M-1} x_k\eta_k\right\}\\
&=\left(1+\sum_{k=1}^{M-1}\exp(\eta_k)\right)^{-1}\exp(\boldsymbol{\eta}^{\mathsf{T}}\mathbf{x})
\end{aligned} $$
其中 $\boldsymbol{\eta}=(\eta_1,\dots,\eta_{M-1})^{\mathsf{T}}
$,与标准形式比较:
$$ \begin{aligned}
\mathbf{u}(\mathbf{x}) &= \mathbf{x} \\
h(\mathbf{x}) &= 1 \\
g(\boldsymbol{\eta}) &= \left(1+\sum_{k=1}^{M-1}\exp(\eta_k)\right)^{-1}
\end{aligned} $$
高斯分布
Gaussian distribution.
对于单变量高斯分布,有:
$$ \begin{aligned}
p(x|\mu,\sigma^2)&=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} \\
&=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\{-\frac{x^2}{2\sigma^2}+\frac{\mu x}{2\sigma^2}-\frac{\mu^2}{2\sigma^2}\}
\end{aligned} $$
与标准形式比较,有:
$$ \begin{aligned}
\boldsymbol{\eta} &= \binom{\frac{\mu}{\sigma^2}}{\frac{-1}{2\sigma^2}} \\
\mathbf{u}(x) &= \binom{x}{x^2} \\
h(\mathbf{x}) &= \frac{1}{\sqrt{2\pi}}\\
g(\boldsymbol{\eta}) &=\sqrt{-2\eta_2}\exp\left(\frac{\eta_1^2}{4\eta_2}\right)
\end{aligned} $$
最大似然与充分统计量
考虑使用最大似然对 $\eqref{EFD}
$ 中的参数 $\boldsymbol{\eta}
$ 进行估计。在 $\eqref{EFD-1}
$ 中对 $\boldsymbol{\eta}
$ 求梯度。
$$ \begin{aligned}
&\nabla g(\boldsymbol{\eta})\cdot\int h(\mathbf{x}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\} \mathrm{d} \mathbf{x} \\
&+ g(\boldsymbol{\eta})\int h(\mathbf{x}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=0
\end{aligned} $$
所以有:
$$ -\frac{1}{g(\boldsymbol{\eta})}\nabla g(\boldsymbol{\eta})=\int \underbrace{h(\mathbf{x}) g(\boldsymbol{\eta}) \exp \{\boldsymbol{\eta}^{\mathsf{T}}\mathbf{u}(\mathbf{x})\}}_{p(\mathbf{x}|\boldsymbol{\eta})} \mathbf{u}(\mathbf{x}) \mathrm{d} \mathbf{x}=\mathbb{E}(\mathbf{u}(\mathbf{x})) $$
所以有:
$$ -\nabla\ln g(\boldsymbol{\eta})=\mathbb{E}(\mathbf{u}(\mathbf{x}))
\label{EFD-2} $$
Note that the covariance of $\mathbf{u}(\mathbf{x})
$ can be expressed in terms of the second derivativesof $g(\boldsymbol{\eta})
$, and similarly for higher order moments. Thus, provided we can normalize a distribution from the exponential family, we can always find its moments by simple differentiation.
现在考虑一组独立同分布的数据 $\mathbf{X}=\{\mathbf{x}_1,\dots,\mathbf{x}_N\}
$,它的似然函数为:
$$ p(\mathbf{X}|\boldsymbol{\eta})=\left(\prod_{n=1}^N h(\mathbf{x}_n)\right) g(\boldsymbol{\eta})^N \exp\left\{\boldsymbol{\eta}^{\mathsf{T}}\sum_{n=1}^N\mathbf{u}(\mathbf{x})\right\}
\label{EFD-ML} $$
令 $\ln p(\mathbf{X}|\boldsymbol{\eta})
$ 关于 $\boldsymbol{\eta}
$ 的梯度为 0,可以得到最大似然估计 $\boldsymbol{\eta}_{\text{ML}}
$ 满足的条件:
$$ -\nabla\ln g(\boldsymbol{\eta}_{\text{ML}})=\frac{1}{N}\sum_{n=1}^N\mathbf{u}(\mathbf{x})
\label{EFD-3} $$
原则上可以通过解这个方程来得到 $\boldsymbol{\eta}_{\text{ML}}
$,这个最大似然估计的解只依赖于 $\sum_n\mathbf{u}(\mathbf{x})
$,因此这个量被称为分布 $\eqref{EFD}
$ 的 充分统计量 (sufficient statistic)。我们不需要存储整个数据集本身,只需要存储充分统计量的值即可。例如,对于伯努利分布,函数 $\mathbf{u}(x)
$ 就等于 $x
$,因此我们只需要存储数据点 $\{x_n\}
$ 的和即可。而对于高斯分布,$\mathbf{u}(x) = (x,x^2)^{\mathsf{T}}
$,因此我们应该同时存储 $\{x_n\}
$ 的和以及 $\{x_n^2\}
$ 的和。如果我们考虑极限 $N\to\infty
$,那么 $\eqref{EFD-3}
$ 的右边就等于 $\mathbb{E}(\mathbf{u}(\mathbf{x}))
$,与 $\eqref{EFD-2}
$ 相比,在这种情况下的最大似然估计就等于真实值 $\boldsymbol{\eta}
$。
共轭先验
Conjugate priors.
一般来说,对于给定的概率分布 $p(\mathbf{x}|\boldsymbol{\eta})
$,我们可以找到一个先验 $p(\boldsymbol{\eta})
$ 与似然函数共轭,所以后验分布与先验分布有相同的函数形式。对于属于指数族分布 $\eqref{EFD}
$ 的任何分布,存在可以写成下面形式的共轭先验:
$$ p(\boldsymbol{\eta}|\boldsymbol{\chi},\nu)=f(\boldsymbol{\chi,\nu}) g(\boldsymbol{\eta})^\nu \exp\{\nu\boldsymbol{\eta}^\mathsf{T}\boldsymbol{\chi}\}
\label{EFD-prior} $$
其中 $f(\boldsymbol{\chi,\nu})
$ 是归一化系数,$g(\boldsymbol{\eta})
$ 与 $\eqref{EFD}
$ 中的相同。为了证明这个确实是共轭的,我们用似然函数 $\eqref{EFD-ML}
$ 乘以先验 $\eqref{EFD-prior}
$ 得到后验后验分布,忽略归一化系数:
$$ p(\boldsymbol{\eta}|\mathbf{X},\boldsymbol{\chi},\nu)\propto g(\boldsymbol{\eta})^{\nu+N}\exp\left\{\boldsymbol{\eta}^\mathsf{T}\left(\sum_{n=1}^N\mathbf{u}(\mathbf{x}_n)+\nu\boldsymbol{\chi}\right)\right\} $$
这与 $\eqref{EFD-prior}
$ 有相同的函数形式,从而证明了共轭性。此外,参数 $\nu
$ 可以解释为先验中的有效伪观测 (pseudo-observations) 数量。
无信息先验
Noninformative priors.