9.3 广义线性模型(Generalized linear models,缩写为GLMs)
线性回归和逻辑回归都属于广义线性模型的特例(McCullagh and Nelder 1989).
这些模型中输出密度都是指数族分布(参考本书9.2),而均值参数都是输入的线性组合,经过可能是非线性的函数,比如逻辑函数等等.下面就要详细讲一下广义线性模型(GLMs).为了记号简单,先看标量输出的情况.(这就排除了多远逻辑回归,不过这只是为表述简单而已.)
9.3.1 基础知识
要理解广义线性模型,首先要考虑一个标量响应变量的无条件分布(unconditional dstribution)的情况:
p(yi∣θ,σ2)=exp[yiθ−A(θ)σ2+c(yi,σ2)]p(y_i|\theta,\sigma^2)=\exp[\frac{y_i\theta - A(\theta)}{\sigma^2}+c(y_i,\sigma^2)]p(yi∣θ,σ2)=exp[σ2yiθ−A(θ)+c(yi,σ2)](9.77)
上式中的σ2\sigma^2σ2叫做色散参数(dispersion parameter),通常设为1.θ\thetaθ是自然参数,A是配分函数,c是归一化常数.例如,在逻辑回归的情况下,θ\thetaθ就是对数比值比(log-odds ratio),θ=log(μ1−μ)\theta =\log ( \frac{\mu}{1-\mu} )θ=log(1−μμ),其中μ=E[y]=p(y=1)\mu=\mathrm{E}[y]=p(y=1)μ=E[y]=p(y=1)是均值参数(mean parameter),参考本书9.2.2.1.要从均值参数转成自然参数(natural parameter),可以使用一个函数ϕ\phiϕ,也就是θ=Ψ(μ)\theta=\Psi(\mu)θ=Ψ(μ).这个函数由指数族分布的形式唯一确定(uniquely determined).实际上这是一个可逆映射(invertible mapping),所以也就有μ=Ψ−1(θ)\mu=\Psi^{-1}(\theta)μ=Ψ−1(θ).另外通过本书9.2.3可以知道这个均值可以通过对配分函数(partition function)求导而得到,也就是有μ=Ψ−1(θ)=A′(θ)\mu=\Psi^{-1}(\theta)=A'(\theta)μ=Ψ−1(θ)=A′(θ).
然后加上输入/协变量(covariates).先定义一个输入特征的线性函数:
ηi=wTxi\eta_i =w^T x_iηi=wTxi(9.78)
| 分布 | Link g(μ)g(\mu)g(μ) | θ=ψ(μ)\theta=\psi(\mu)θ=ψ(μ) | μ=ψ−1(θ)=E[y]\mu =\psi^{-1}(\theta)=\mathrm{E}[y]μ=ψ−1(θ)=E[y] |
|---|---|---|---|
| N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) | indentity | θ=μ\theta=\muθ=μ | μ=θ\mu=\thetaμ=θ |
| Bin(N,μ)Bin(N,\mu)Bin(N,μ) | logit | θ=logμ1−μ\theta=\log\frac{\mu}{1-\mu}θ=log1−μμ | μ=sigm(θ)\mu=sigm(\theta)μ=sigm(θ) |
| Poi(μ)Poi(\mu)Poi(μ) | log | θ=log(μ)\theta =\log(\mu)θ=log(μ) | μ=eθ\mu=e^\thetaμ=eθ |
表 9.1 常见广义线性模型(GLMs)的连接函数(link function)ψ\psiψ.
然后使这个分布的均值为这个线性组合的某个可逆单调函数.通过转换,得到这个函数就叫做均值函数(mean function),记作g−1g^{-1}g−1,所以:
μi=g−1(ηi)=g−1(wTxi)\mu_i =g^{-1}(\eta_i) =g^{-1}(w^Tx_i)μi=g−1(ηi)=g−1(wTxi)(9.79)
如图9.1所示为这个简单模型的总结.
均值函数(mean function)的逆函数,记作g()g()g(),就叫做连接函数(link function).我们可以随意选择任意函数来作为连接函数,只要是可逆的,以及均值函数g()g()g()有适当的范围.例如在逻辑回归里面,就设置μi=g−1(ηi)=sigm(ηi)\mu_i =g^{-1}(\eta_i)=sigm(\eta_i)μi=g−1(ηi)=sigm(ηi).
连接函数有一个特别简单的形式,就是g=ϕg=\phig=ϕ,这也叫做规范连接函数(canonical link function).这种情况下则有θi=ηi=wTxi\theta_i=\eta_i=w^Tx_iθi=ηi=wTxi,所以模型就成了:
p(yi∣xi,w,σ2)=exp[yiwTxi−A(wTxi)σ2+c(yi,σ2)]p(y_i|x_i,w,\sigma^2)=\exp [\frac{y_iw^Tx_i -A(w^Tx_i)}{\sigma^2}+c(y_i,\sigma^2)]p(yi∣xi,w,σ2)=exp[σ2yiwTxi−A(wTxi)+c(yi,σ2)](9.80)
表格9.1中所示的是一些分布和规范连接函数.可见伯努利分布或者二项分布的规范连接函数是g(μ)=log(η/(1−η))g(\mu)=\log (\eta/(1-\eta))g(μ)=log(η/(1−η)),而你函数是逻辑函数(logistic function)μ=sigm(η)\mu =sigm(\eta)μ=sigm(η).
基于本书9.2.3的结果,可以得到响应变量的均值和方差:
E[y∣xi,w,σ2]=μi=A′(θi)(9.81)var[y∣xi,w,σ2]=σi2=A′′(θi)σ2(9.82) \begin{aligned} \mathrm{E}[y|x_i,w,\sigma^2]&= \mu_i =A'(\theta_i) &\text{(9.81)}\\ var[y|x_i,w,\sigma^2]&= \sigma_i^2 =A''(\theta_i)\sigma^2 &\text{(9.82)}\\ \end{aligned} E[y∣xi,w,σ2]var[y∣xi,w,σ2]=μi=A′(θi)=σi2=A′′(θi)σ2(9.81)(9.82)
为了记好清楚,接下来就看一些简单样例.
对于线性回归,则有:
logp(yi∣xi,w,σ2)=yiμi−μi2/2σ2−12(yi2σ2+log(2πσ2))\log p(y_i|x_i,w,\sigma^2)=\frac{y_i\mu_i-\mu_i^2/2}{\sigma^2}-\frac{1}{2}(\frac{y_i^2}{\sigma^2}+\log(2\pi\sigma^2))logp(yi∣xi,w,σ2)=σ2yiμi−μi2/2−21(σ2yi2+log(2πσ2))(9.83)
其中yi∈R,θi=μi=wTxiy_i\in R,\theta_i=\mu_i =w^Tx_iyi∈R,θi=μi=wTxi,而A(θ)=θ2/2A(\theta)=\theta^2/2A(θ)=θ2/2,所以E[yi]=μi,var[yi]=σ2\mathrm{E}[y_i]=\mu_i,var[y_i]=\sigma^2E[yi]=μi,var[yi]=σ2.
对于二项回归(binomial regression),则有:
logp(yi∣xi,w)=yilog(πi1−πi+Nilog(1−πi)+logNiyi\log p(y_i|x_i,w) =y_i \log(\frac{\pi_i}{1-\pi_i}+N_i\log(1-\pi_i)+\log\begin{aligned} N_i\\ y_i \end{aligned}logp(yi∣xi,w)=yilog(1−πiπi+Nilog(1−πi)+logNiyi(9.84)
其中yi∈{ 0,1,...,Ni},πi=sigm(wTxi),θi=log(πi/(1−πi))=wTxi,σ2=1y_i \in \{0,1,...,N_i\},\pi_i =sigm(w^Tx_i),\theta_i=\log (\pi_i/(1-\pi_i))=w^Tx_i,\sigma^2=1yi∈{ 0,1,...,Ni},πi=sigm(wTxi),θi=log(πi/(1−πi))=wTxi,σ2=1. A(θ)=Nilog(1+eθ)A(\theta)=N_i\log (1+e^\theta)A(θ)=Nilog(1+eθ),所以E[yi]=Niπi=μi,var[yi]=Niπi(1−πi)\mathrm{E}[y_i]=N_i\pi_i =\mu_i,var[y_i]= N_i\pi_i(1-\pi_i)E[yi]=Niπi=μi,var[yi]=Niπi(1−πi)
对于泊松分布(poisson regression),则有:
logp(yi∣xi,w)=yilogμi−μi−log(yi!)\log p(y_i|x_i,w)= y_i \log \mu_i -\mu_i -\log(y_i!)logp(yi∣xi,w)=yilogμi−μi−log(yi!)(9.85)
其中yi∈{ 0,1,2,...},μi=exp(wTxi),θ=log(μi)=wTxi,σ2=1y_i\in \{0,1,2,...\},\mu_i =\exp (w^Tx_i),\theta=\log(\mu_i)=w^Tx_i,\sigma^2=1yi∈{ 0,1,2,...},μi=exp(wTxi),θ=log(μi)=wTxi,σ2=1.而A(θ)=eθA(\theta)=e^\thetaA(θ)=eθ,所以E[yi]=var[yi]=μi\mathrm{E}[y_i]=var[y_i]=\mu_iE[yi]=var[yi]=μi.泊松回归在生物统计中应用很广,其中的yiy_iyi可能代表着给定人群或者地点的病患数目,或者高通量测序背景下基因组位置的读数数量,参考(Kuan et al. 2009).
9.3.2 最大似然估计(MLE)和最大后验估计(MAP)
广义线性模型的最重要的一个性质就是可以用和逻辑回归拟合的同样方法来进行拟合.对数似然函数形式如下所示:
l(w)=logp(D∣w)=1σ2∑i=1Nli(9.86)li=△θiyi−A(θi)(9.87) \begin{aligned} l(w) = \log p(D|w)&= \frac{1}{\sigma^2}\sum^N_{i=1}l_i &\text{(9.86)}\\ l_i&\overset{\triangle}{=} \theta_i y_i-A(\theta_i) &\text{(9.87)}\\ \end{aligned} l(w)=logp(D∣w)li=

1784

被折叠的 条评论
为什么被折叠?



