维刚

第3章-从线性概率模型到广义线性模型(2)

简介

回顾上节文章中提到的logistic和probit模型：

我们假定了潜变量模型
y*=xβ+u
(y=1，when y*>0; y=0，when y*<=0)
中的残差变量服从对应的是logistic分布或正态分布，并且我们假定
$P(y=1|x)=G(β_0+β_1x_1+β_2x_2+…+β_nx_n)=G(β_0+xβ)=G(xβ)$
的变换函数G()为对应的"标准的Logistic随机变量的累计分布函数"或
“标准的正态随机变量的累计分布函数”。

那么这两个模型的因变量都是离散的或者说是定性( or 分类)变量。
这类变量除了第一节讨论的名义变量中的二元变量外，还有下面三种形式：

名义变量中的多元变量
定序变量
计数变量

备注：
1，由0-1二元变量的期望等于P(Y=1|x)的概率可知，我们的研究问题也可以是针对因变量为概率型
2，对于因变量为数据值的数据，也是可以分组为上述几种离散数据的形式的
3，对于因变量的意义为“占比”时，可以转换为计数问题
4，根据变量的层级关系：名义变量<定序变量 <计数或者说间隔变量，我们的模型适用情况如下，低层的模型可以适用于高层，反之不成立。举例说明，针对名义变量设计出来模型可以适用于定序变量，但是针对定序变量设计出来的模型不适用于名义变量。但是要记住一点，这种跨层级模型使用方式并不是最优的，因为模型并没有充分利用数据中的信息。

接下来，我们思考，并学习：
1，如果残差不服从logistics分布或正态分布，而服从其他分布时的情况
2，变换函数，除了logit变换，还有其他的变换形式时的情况
3，有没有一种能够概括这些模型的统一方法

正文

一，我们先来回归一些常用的离散变量的概率分布

1，伯努利分布(0-1分布)

$P r (x = 1) = p, P r (x = 0) = 1 - p, 0 < p < 1$
$E (x) = p$
$D (x) = p (1 - p)$

例子：扔硬币正面朝上的概率

2，二项分布

二项分布是n次独立的伯努利试验。

$P (x = k) =$ $\left(\begin{array}{} n \\ k \end{array}\right)p^k(1-p)^{n-k}=b(k; n,p)$
$E (x) = n p$
$D (x) = n p (1 - p)$

np之积>5时，分布近似正态分布
例子：扔硬币k次正面朝上的概率p

3，多项分布

多项式分布是二项式分布的推广，把二项分布公式推广至多种状态，就得到了多项分布。

某随机实验如果有k个可能结局 $A_1、A_2、…、A_k$ ，分别将他们的出现次数记为随机变量 $X_1、X_2、…、X_k$ ，它们的概率分布分别是 $p_1，p_2，…，p_k$ ，那么在n次采样的总结果中， $A_1$ 出现 $n_1$ 次、 $A_2$ 出现 $n_2次、…、A_k$ 出现 $n_k$ 次的这种事件的出现概率P有下面公式：

$P(X_1=n_1,X_2=n_2,...,X_k=n_k)=\frac{n!}{n_1!n_2!...n_k!}p_1^{n_1}p_2^{n_2}...p_k^{n_k}, \sum^k_{i=1}{n_i}_=n$

$E[n_i] = n p_i$
$D[n_i] = n p_i(1-p_i)$

例子：扔骰子，k次中均由其中一个面(比如说点数6)朝上的概率

4，负二项分布

二项分布从状态上扩展，即为多项分布，从试验成功的次数上来研究，即拓展为负二项分布。

已知一个事件在伯努利试验中每次的出现概率是 $p$ ，在一连串伯努利试验中，一件事件刚好在第 $r + k$ 次试验出现第 $r$ 次的概率。（当r是整数时，负二项分布又称帕斯卡分布）。

若 $X = k$ 表示在第r次成功之前，失败的次数，则

$P r (x = k) =$ $\left(\begin{array}{} r+k-1 \\ k \end{array}\right)p^r(1-p)^{k}=f(k;r,p)$

$E(x)=\frac{r(1-p)}{p}$

$D(x)=\frac{r(1-p)}{p^2}$

例子：扔硬币，刚好在第r+k次试验出现第r次正面朝上的概率

5，泊松分布

在二项分布的基础上，如果 $n \to \infty$ ， $p=\frac{\lambda}{n}→0时，则极限结果为泊松分布。$

$P(X=x)=\frac{\lambda^x}{x!}e^{-\lambda}$

$E(x)=D(x)=\lambda$

X:一定时间或空间内，稀有事件发生的个数，一般服从泊松分布
当二项分布的p很小，n很大时，极限分布为泊松分布
当然，二项分布、泊松分布与正态分布之间都有关系，

参见

5.1 泊松分布的：overdispersion
我们知道，理论上，泊松分布的期望和方差是相等的，但此时若观测到的样本方差系统地大于分布假设下的方差，就出现了所谓的 “超散布性”(overdispersion)，类似地，若出现方差偏小的情况，也就相应出现了 “超聚集性”(underdispersion)。

5.2 当泊松分布出现overdispersion现象时，通常可以转换成使用负二项分布进行建模。
负二项分布可以看成是广义的泊松分布，它可由 X|λ∼Poisson(λ) 且 λ∼Gamma(α,β)，推导得到。

(1) 如果， $f(x|λ)=Pr(X=x|λ)=\frac{λ^xe^{−λ}}{x!}$
(2) 且， $\frac{a^β}{Г(β)}λ^{β-1}e^{-aλ}$
(3) 我们可以得到，联合概率
$P r (X = x ∣ λ) P r (λ)$

$=\frac{λ^xe^{−λ}}{x!}*\frac{a^β}{Г(β)}λ^{β-1}e^{-aλ}$

$=\frac{a^β}{x!•Г(β)}λ^{x+β-1}e^{-(a+1)λ}$

则，x的边际分布即为负二项分布：

$Pr(X=x)=\frac{a^β}{x!•Г(β)}\int^{∞}_{0}λ^{x+β-1}e^{-(a+1)λ}dλ$
$=C_{n+β-1}^{n}(\frac{a}{a+1})^β(\frac{1}{a+1})^n$

表示，第r=β次成功的负二项分布，且成功的概率为 $p=\frac{a}{a+1}$ ，

6，引入先验信息

二项分布或多项分布中，随机事件发生的概率是固定的，但是如果对于总体中的不同个体，，随机事件发生是概率是不同时，在贝叶斯研究体系下，我们就可以引入先验概率对不同个体的发生概率进行的估计，然后再根据后验概率进行调整。

6.1 共轭分布

如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X) 有相同的形式，那么就称先验分布与似然函数是共轭分布.

共轭性质：

当先验为 Beta ，似然为 Binomial分布时，后验仍然为 Beta ，但是这里的 Beta 是融入了 Binomial分布的计数的;
当先验为 Dirichlet，似然为 Multinomial 分布时，后验仍然为 Dirichlet，但是这里的 Dirichlet是融入了 Multinomial 分布的计数的.

6.2 Beta-Binomial distribution
假设，X|π∼Bin(n,π)，π∼Beta(α,β)
我们就可以根据数据得到π的先验概率，进而计算π的后验概率，最终推断出似然函数。

6.3 Dirichlet-MultiNomial distribution
略

二，Poisson 回归

我们回顾一下简介中提到的前两个问题，如果残差分布，以及变化函数是其他情况时，回归模型会变成什么情况？下面以poison回归为例进行思考。

当因变量研究的是计数或比率问题时：我们通常假设残差u服从Poisson分布（回归分析中假定x是确定性变量，由于残差服从泊松分布，所以因变量y也服从于泊松分布），
G()变换为指数函数exp() (连接函数link=log())。则，此时对应的回归方程，则是Poisson回归。

1，假设我们有n个观测值， $y_1,y_2...,y_n$ 是分别服从泊松分布的随机变量，且 $Y_{i}$ ~ $Poisson(μ_i)$

$Pr\{Y=y\}=\frac{e^{-μ}μ^y}{y!}$

性质1：
且，满足(μ>0):
$E (Y) = v a r (Y) = μ$

从上式可知，任何影响均值的因素都会影响到方差，所以，同方差性假设不再适用与泊松数据。

性质2：
如果， $Y_{1}$ ~ $P(μ_1)$ ， $Y_{2}$ ~ $P(μ_2)$ ，则 $Y_{1}+Y_{2}$ ~ $P(μ_1+μ_2)$

2, log 变换

因为 $E(y_i|x_i) = μ_i$ ，在线性概率模型中，我们研究的是 $E(y_i|x_i)$ 与 $x_i'β$ 之间的线性关系，如果二者之间不再是线性关系，也不再像logistics中的logit关系，而是log关系，则

$log(μ_i)$ = $x_i'β$ 即为泊松回归模型的一般形式。

3，比率问题
单位时间或空间上的计数即为比率，对于泊松分布来说，问题转化为u/t
$l o g (μ / t) = α + β x$
$l o g (μ) - l o g (t) = α + β x$
$l o g (μ) = α + β x + l o g (t)$
$μ = e x p (α + β x + l o g (t)) = (t) e x p (α) e x p (β x)$

三，GLM(广义线性模型)

我们回顾一下简介中提到的最后个问题，有没有什么通用的形式，能抽象的把一类变换的模型整理到一起呢？我们来做一些变换看看。

条件1，
我们定义线性自变量(linear predictor)
$\eta_i=\beta_0+\beta_1x_{1i}+...+\beta_px_{pi}$

条件2，
我们定义连接方程(link function)，描述了因变量的期望与线性自变量之间的关系
$g(\mu_i)=\eta_i$

如果 $θ = η$ ，此时的连接方程又叫，Canonical link function.

例，对于线性回归方程来说，g(x)=x
所以， $g(\mu)=\mu=\eta$ ,即 $E(y)=\beta_0+\beta_1x_{1}+...+\beta_px_{p}$

条件3，因变量的方差，是其期望值方差的函数表达式

$Var(Y_i)=\frac{\phi V(\mu_i)}{w_i}$
其中， $\phi$ 是方差的离散性参数， $w_i$ 是方差V(x)的权重，一般为1。
而，方差V(x)的函数表达式，因条件1的假设不同而不同。

满足前三个条件的前提下，
我们定义广义线性模型的一般形式为

$f(y;\theta,\phi)=exp\{\frac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi) \}$

其中，
$\mu=E(y;\theta,\phi)=b'(\theta)$ ， $\mu$ 是一个关于 $\theta$ 的函数
$var(y)=b''(\theta)a(\phi)$

Y分布	$\theta$	Canonical link : g(x)	$\phi$	$V(\mu)$	$E(y)=\mu(\theta)=b'(\theta)$
Normal~ $N(\mu,\sigma^2)$	$θ_i=\eta_i$	g(x)=x	$\sigma^2$	1	$\theta$
Binomial~ $B(m,\pi)/m$	$θ_i=\eta_i$	g(x)=logit(x)= $log(\frac{x}{1-x})$	1/m	$\mu(1-\mu)$	$\frac{e^\theta}{(1+e^\theta)}$
Poisson~ $P(\mu)$	$θ_i=\eta_i$	g(x)=ln(x)	1	$\mu$	$e^{\theta}$
Gamma~ $G(\mu,v)$	$θ_i=\eta_i$	g(x)=1/x	$v^{-1}$	$\mu^2$	$-\frac{1}{\theta}$
Inverse Gaussian~ $IG(\mu,\sigma^2/w)$	$θ_i=\eta_i$	g(x)= $1/x^2$	$\sigma^2$	$\mu^3$	$(-2\theta)^{-1/2}$

根据Canonical link， $θ_i=\eta_i$ ，即广义线性模型公式中的 $θ_i$ 可以被替换为 $\eta_i$

并且又因
$\mu=E(y;\theta,\phi)=b'(\theta)$
$\eta=g(\mu)$
$\mu=g^{-1}(\eta)=b'(\theta)=b'(\eta)$
$g^{-1}(\eta)=b'(\eta)$
所以， $g^{-1}()=b'()$

上一节：第3章-从线性概率模型到广义线性模型(1)

原文参考
斯坦福机器学习cs229-2-Generative Learning algorithms
https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF
http://data.princeton.edu/wws509/notes/c4a.pdf
http://www.cnblogs.com/ooon/p/5845917.html
https://www.casact.org/pubs/dpp/dpp04/04dpp1.pdf

你可能感兴趣的:(【从模型到算法】)

html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache