线性回归和逻辑回归都是广义线性模型的特例。
如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族。
这是《数理统计》课本中的相关定义,大多数利用的定义如下(y不是一个变量,是一个群):
(1)
上述公式与《数理统计》课本中的公式,含义一样,在具体的表示方面可能有细微差别,下面讨论均针对公式1展开。
在上述情况下,当与确定后,就确定了指数数分布族中的一种分布模型,以为参数的分布模型。
其实,大多数的概率分布都属于指数分布族:
伯努利分布(Bernoulli):对 0、1 问题进行建模;
二项分布(Multinomial):对 K 个离散结果的事件建模;
泊松分布(Poisson):对计数过程进行建模,比如网站访问量的计数问题,放射性衰变的数目,商店顾客数量等问题;
伽马分布(gamma)与指数分布(exponential):对有间隔的正数进行建模,比如公交车的到站时间问题;
β 分布:对小数建模;
Dirichlet 分布:对概率分布进建模;
Wishart 分布:协方差矩阵的分布;
高斯分布(Gaussian)
广义线性模型是在指数分布簇上做出相关假设得出的,在指数分布簇(1)的基础上,给出三条假设:
从线性回归、Logistic回归(分类算法)分析,广义线性模型是怎么推到和应用到回归【线性回归】和分类【Logistic】问题。
回顾:
线性回归:
然后给出损失函数,对损失函数最值化处理求解,得到w,进而得到最终拟合出的线性回归曲线。
Logistic回归[分类算法]:
其中:
加了一个sigmoid函数,通过sigmoid函数,将最终结果,归到0-1范围内,即最终分类概率,求解w的方法同上。
对于线性回归和逻辑回归实际上都可以看作是一个的问题 ,在参数固定,给定x情况下,y服从某种概率分布(指数分布簇)。
线性回归推到如下:
对概率作出假设,(1,假设服从正态分布指数分布),假设(2)
Logistic推导如下:
广义线性模型GLM是通过假设一个概率分布并将其化成指数分布族形式,从而得到不同的模型。
三者之间的关系:广义线性模型可以解释线性回归构建的模型,广义线性模型中的假设是从指数分布簇出发的。
[1]https://blog.csdn.net/weixin_37140379/article/details/82289704
[2]https://fighterhit.oschina.io/2017/12/24/machine_learning_notes/%E4%BB%8E%E5%B9%BF%E4%B9%89%E7%BA%BF%E6%80%A7%E6%A8%A1%E5%9E%8B%E7%90%86%E8%A7%A3%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92/
[3] https://www.cnblogs.com/zhangyuhang3/p/6873339.html