09 Generalized linear models and the exponential family

最新推荐文章于 2026-07-04 15:15:38 发布

原创

最新推荐文章于 2026-07-04 15:15:38 发布 · 335 阅读

9.3 广义线性模型(Generalized linear models,缩写为GLMs)

线性回归和逻辑回归都属于广义线性模型的特例(McCullagh and Nelder 1989).
这些模型中输出密度都是指数族分布(参考本书9.2),而均值参数都是输入的线性组合,经过可能是非线性的函数,比如逻辑函数等等.下面就要详细讲一下广义线性模型(GLMs).为了记号简单,先看标量输出的情况.(这就排除了多远逻辑回归,不过这只是为表述简单而已.)

9.3.1 基础知识

要理解广义线性模型,首先要考虑一个标量响应变量的无条件分布(unconditional dstribution)的情况:

$p(yi∣θ,σ2)=exp⁡[yiθ−A(θ)σ2+c(yi,σ2)]p(y_i|\theta,\sigma^2)=\exp[\frac{y_i\theta - A(\theta)}{\sigma^2}+c(y_i,\sigma^2)]$ (9.77)

上式中的 $σ2\sigma^2$ 叫做色散参数(dispersion parameter),通常设为1. $θ\theta$ 是自然参数,A是配分函数,c是归一化常数.例如,在逻辑回归的情况下, $θ\theta$ 就是对数比值比(log-odds ratio), $θ=log⁡(μ1−μ)\theta =\log ( \frac{\mu}{1-\mu} )$ ,其中 $μ=E[y]=p(y=1)\mu=\mathrm{E}[y]=p(y=1)$ 是均值参数(mean parameter),参考本书9.2.2.1.要从均值参数转成自然参数(natural parameter),可以使用一个函数 $ϕ\phi$ ,也就是 $θ=Ψ(μ)\theta=\Psi(\mu)$ .这个函数由指数族分布的形式唯一确定(uniquely determined).实际上这是一个可逆映射(invertible mapping),所以也就有 $μ=Ψ−1(θ)\mu=\Psi^{-1}(\theta)$ .另外通过本书9.2.3可以知道这个均值可以通过对配分函数(partition function)求导而得到,也就是有 $μ=Ψ−1(θ)=A′(θ)\mu=\Psi^{-1}(\theta)=A'(\theta)$ .

然后加上输入/协变量(covariates).先定义一个输入特征的线性函数:

$ηi=wTxi\eta_i =w^T x_i$ (9.78)

分布	Link $g(μ)g(\mu)$	$θ=ψ(μ)\theta=\psi(\mu)$	$μ=ψ−1(θ)=E[y]\mu =\psi^{-1}(\theta)=\mathrm{E}[y]$
$N(μ,σ2)N(\mu,\sigma^2)$	indentity	$θ=μ\theta=\mu$	$μ=θ\mu=\theta$
$Bin(N,μ)Bin(N,\mu)$	logit	$θ=log⁡μ1−μ\theta=\log\frac{\mu}{1-\mu}$	$μ=sigm(θ)\mu=sigm(\theta)$
$Poi(μ)Poi(\mu)$	log	$θ=log⁡(μ)\theta =\log(\mu)$	$μ=eθ\mu=e^\theta$

表 9.1 常见广义线性模型(GLMs)的连接函数(link function) $ψ\psi$ .

然后使这个分布的均值为这个线性组合的某个可逆单调函数.通过转换,得到这个函数就叫做均值函数(mean function),记作 $g^{-1}$ ,所以:
$μi=g−1(ηi)=g−1(wTxi)\mu_i =g^{-1}(\eta_i) =g^{-1}(w^Tx_i)$ (9.79)

如图9.1所示为这个简单模型的总结.

均值函数(mean function)的逆函数,记作 $g ()$ ,就叫做连接函数(link function).我们可以随意选择任意函数来作为连接函数,只要是可逆的,以及均值函数 $g ()$ 有适当的范围.例如在逻辑回归里面,就设置 $μi=g−1(ηi)=sigm(ηi)\mu_i =g^{-1}(\eta_i)=sigm(\eta_i)$ .

连接函数有一个特别简单的形式,就是 $g=ϕg=\phi$ ,这也叫做规范连接函数(canonical link function).这种情况下则有 $θi=ηi=wTxi\theta_i=\eta_i=w^Tx_i$ ,所以模型就成了:

$p(yi∣xi,w,σ2)=exp⁡[yiwTxi−A(wTxi)σ2+c(yi,σ2)]p(y_i|x_i,w,\sigma^2)=\exp [\frac{y_iw^Tx_i -A(w^Tx_i)}{\sigma^2}+c(y_i,\sigma^2)]$ (9.80)

表格9.1中所示的是一些分布和规范连接函数.可见伯努利分布或者二项分布的规范连接函数是 $g(μ)=log⁡(η/(1−η))g(\mu)=\log (\eta/(1-\eta))$ ,而你函数是逻辑函数(logistic function) $μ=sigm(η)\mu =sigm(\eta)$ .

基于本书9.2.3的结果,可以得到响应变量的均值和方差:

$\begin{aligned} \mathrm{E}[y|x_i,w,\sigma^2]&= \mu_i =A'(\theta_i) &\text{(9.81)}\\ var[y|x_i,w,\sigma^2]&= \sigma_i^2 =A''(\theta_i)\sigma^2 &\text{(9.82)}\\ \end{aligned}$

为了记好清楚,接下来就看一些简单样例.

对于线性回归,则有:

$log⁡p(yi∣xi,w,σ2)=yiμi−μi2/2σ2−12(yi2σ2+log⁡(2πσ2))\log p(y_i|x_i,w,\sigma^2)=\frac{y_i\mu_i-\mu_i^2/2}{\sigma^2}-\frac{1}{2}(\frac{y_i^2}{\sigma^2}+\log(2\pi\sigma^2))$ (9.83)

其中 $yi∈R,θi=μi=wTxiy_i\in R,\theta_i=\mu_i =w^Tx_i$ ,而 $A(θ)=θ2/2A(\theta)=\theta^2/2$ ,所以 $E[yi]=μi,var[yi]=σ2\mathrm{E}[y_i]=\mu_i,var[y_i]=\sigma^2$ .

对于二项回归(binomial regression),则有:

$log⁡p(yi∣xi,w)=yilog⁡(πi1−πi+Nilog⁡(1−πi)+log⁡Niyi\log p(y_i|x_i,w) =y_i \log(\frac{\pi_i}{1-\pi_i}+N_i\log(1-\pi_i)+\log\begin{aligned} N_i\\ y_i \end{aligned}$ (9.84)

其中 $0,1,...,Ni},πi=sigm(wTxi),θi=log⁡(πi/(1−πi))=wTxi,σ2=1y_i \in \{0,1,...,N_i\},\pi_i =sigm(w^Tx_i),\theta_i=\log (\pi_i/(1-\pi_i))=w^Tx_i,\sigma^2=1$ . $A(θ)=Nilog⁡(1+eθ)A(\theta)=N_i\log (1+e^\theta)$ ,所以 $E[yi]=Niπi=μi,var[yi]=Niπi(1−πi)\mathrm{E}[y_i]=N_i\pi_i =\mu_i,var[y_i]= N_i\pi_i(1-\pi_i)$

对于泊松分布(poisson regression),则有:
$log⁡p(yi∣xi,w)=yilog⁡μi−μi−log⁡(yi!)\log p(y_i|x_i,w)= y_i \log \mu_i -\mu_i -\log(y_i!)$ (9.85)

其中 $0,1,2,...},μi=exp⁡(wTxi),θ=log⁡(μi)=wTxi,σ2=1y_i\in \{0,1,2,...\},\mu_i =\exp (w^Tx_i),\theta=\log(\mu_i)=w^Tx_i,\sigma^2=1$ .而 $A(θ)=eθA(\theta)=e^\theta$ ,所以 $E[yi]=var[yi]=μi\mathrm{E}[y_i]=var[y_i]=\mu_i$ .泊松回归在生物统计中应用很广,其中的 $y_i$ 可能代表着给定人群或者地点的病患数目,或者高通量测序背景下基因组位置的读数数量,参考(Kuan et al. 2009).

9.3.2 最大似然估计(MLE)和最大后验估计(MAP)

广义线性模型的最重要的一个性质就是可以用和逻辑回归拟合的同样方法来进行拟合.对数似然函数形式如下所示:

$\begin{aligned} l(w) = \log p(D|w)&= \frac{1}{\sigma^2}\sum^N_{i=1}l_i &\text{(9.86)}\\ l_i&\overset{\triangle}{=} \theta_i y_i-A(\theta_i) &\text{(9.87)}\\ \end{aligned}$