第九章 广义线性模型和指数家族
9.1 简介
我们现在已经遇到了许多不同的概率分布,如:高斯分布,伯努利分布,学生t分布,均匀分布,gamma分布等。其实在这些分布里面,有很多的分布其实是属于一个分布家族,这个家族就叫做指数家族(exponential family)。在这一章节中,我们主要就是讨论指数家族分布的一些性质。
9.2 指数家族
在我们进行正式的定义指数家族之前,我们先说明一下它为什么这么重要的理由:
1. 在一定的规则条件下,是唯一一个有有限的充分统计量的家族(有限的指充分统计量的数目并不随着数据量的增加而增加),这意味着我们可以把数据压缩到归纳到一个有限的统计量集合而不丢失任何的信息。对于在线学习这个是非常有用的。
2. 指数家族是唯一一个存在共轭先验的这样一个分布家族,这样可以大大简化后验分布的计算 (Sec. 9.2.5)。
3. 指数族可以被证明是在用户选择的某些约束条件下,能够做出假设最少的分布族 (Sec. 9.2.6)。
4. 指数家族是广义线性模型的核心 (Sec. 9.3)。
5. 指数家族是变分推理的核心 (Sec. 21.2)。
9.2.1 定义
对于一个pdf或者pmf
而言,其中
,并且有
,如果它具有以下的形式,就被称之为指数家族:
,其中:
其中称之为自然参数(natural parameters)或者是典范参数(canonical parameters),
称为充分统计量(sufficient statistics),
称之为配分函数(partition function),
称之为 log partition function或者是cumulant function(累积量函数)。
是一个标量,我们一般设置为1,如果说
,我们就说它是一个自然的指数家族。
书中的9.2式子也可以被写作
,其中
,如果说
这个就叫做curved exponential family,这意味着相比于参数我们有更多的统计量。如果
,那么这个模型就被称之为规范形式,我们接下来的模型在不加说明的情况下都是规形式。
9.2.2 例子
下面我们来举一些具体的例子帮助理解上面的定义
9.2.2.1 伯努利
在伯努利分布中,我们有
,那么它的分布可以被写成如下的指数家族的形式:
![]()
其中
。但是这样的表示不是最简的,因为有一个性质我们没用到那就是
,所以说我们把伯努利分布换一种形式来写:
,这样我们就有
并且
,我们可以将均值参数从规范参数中恢复即:![]()
9.2.2.2 多分类分布(Multinoulli)
multinoulli 可以被写成如下的形式:

其中
,那么对应到指数家族的形式就是如下:
,其中我们有:
,我们可以从规范参数中恢复出均值参数
,并且我们有:
,因此
,如果我们定义
,那么我们有
,其中是softmax function。这个就不是minimal的情况了。
9.2.2.3 单变量的高斯
单变量的高斯模型也可以被写成指数家族的形式:
其中
9.2.2.4 非指数家族分布
并不是所有的分布都可以写成指数家族的形式,比如均匀分布,学生t分布就不是指数家族的。
9.2.3 Log partition function
对于指数家族来说有一个重要的性质就是关于log partition 函数的导数就是充分统计量的累计量,所以说有时候也叫做累积函数。那么什么是累积量呢,之前我们都学过中心矩,这是统计量的一种,在统计方面,累积量可以比矩更具有优势,每个独立随机变量之和的累积量是加数的相应累积量的总和。那么一阶累积量就是E[X],二阶的累积量就是var[X]。下面我们将对与1维的情况进行证明,二维的情况就直接给出结论。
我们有:


这里我们使用了
,对于高维度的情况,我们有:
,因此
,由于协方差矩阵肯定是正定的,所以说其实
一定是一个凸函数。

本文深入探讨了指数家族的定义、性质及其在统计学中的重要性,包括其与有限充分统计量的关系、共轭先验的存在以及最大熵原理。此外,文章详细阐述了广义线性模型(GLMs)的概念,强调了GLMs中指数家族分布的使用,以及如何通过链接函数将输入与输出关联起来。GLMs的极大似然估计、贝叶斯推断和Probit回归作为GLMs的实例也得到了讨论,包括Probit回归的梯度下降优化、隐变量解释和多任务学习的应用。
444

被折叠的 条评论
为什么被折叠?



