广义线性模型理解

本文纯属个人理解,恳求指正。

广义线性回归能做什么?为什么我们要使用广义线性回归?

这俩天看到了广义线性回归这个概念,百度上面基本是吴恩达的copy版本,知乎上面都是大神写的,表示看完等于没看。

看了prml也还是弄不太清楚这个广义线性回归是干嘛的。

不过经过我反复思考我把我想到的写下来,大家参考参考,(只是我自己的理解)恳求指正。

回归分析的输出变量通常记做Y,也称为因变量(dependent)、响应变量(response);输入变量通常记做x1,…,xp,也称为自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、预测变量(predictor)

在做回归分析的时候,我们做预测y可能是普通的回归分析(比如预测房价)或者是二项分布的预测(0-1俩类)或者是多项分布的预测(k类)或者是柏松分布的预测(在某个时间点人流量的预测)此外y还有很多分布。

下面先介绍普通线性模型:


广义线性模型理解_第1张图片

一般线性模型我们的几个问题:

1.响应变量YY和误差项ϵ服从正态分布Y服从正态分布是我们假设的,(比如在预测房价的时候,我们的预测结果可能在正确值附近波动),ϵ服从正态分布是中心极限定理的一个假设。

2.预测量xi未知参数βi非随机性
xi我们的样本的一个特征值,参数一开始在上帝眼中是固定不变的,(我们可以用最小二乘来求),所以他们有非随机性。

3.俩边同时取期望:ϵ服从均值为0的正态分布,所以这项可以去掉,其余各项都是常数(上帝视角)。


那么广义线性模型到底是干嘛的呢?

在做回归分析的时候,我们做预测y可能是普通的回归分析(比如预测房价)或者是二项分布的预测(0-1俩类)或者是多项分布的预测(k类)或者是柏松分布的预测(在某个时间点人流量的预测)此外y还有很多分布。

广义线性模型里采用的联接函数 (link function) 理论上可以是任意的,而不再局限于f(x)=xf(x)=x。当然了联接函数的选取必然地必须适应于具体的研究案例。,如正态分布对应于恒等式,泊松分布对应于自然对数函数等。

当我们的y不属于普通回归能预测的时候(也就是y不是正态分布的时候),比如我们经典的y服从0-1分布,一个二分类的问题,我们找了sigmod函数来做联接函数。



广义线性模型理解_第2张图片

当我们确定Y的分布时候,联结函数通过广义线性模型就自动生成了。

你可能感兴趣的:(machine,learning)