回归模型(背景和原理)

回归模型是做数据分析,统计建模和机器学习最先接触的模型,在大学读书的时候关注的就是计算过程,很多人在学习数学以及在数学基础上的研究,常常被复杂的公式所影响。有时候需要跳出来,看这些公式的目的,用途等,或许可以了解的更好。我准备从背景、数学原理、机器学习算法、python语言、模型解释和模型变化等方面来和大家交流回归模型。
一、回归模型产生的背景
“回归”是由英国著名生物学家兼统计学家高尔顿(Francis Galton,1822~1911,生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了1078对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。
1855年, 高尔顿发表《遗传的身高向平均数方向的回归》一文,他和他的学生卡尔•皮尔逊Karl•Pearson通过观察1078对夫妇的身高数据,以每对夫妇的平均身高作为自变量,取他们的一个成年儿子的身高作为因变量,分析儿子身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,两者近乎一条直线。当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系,分析出儿子的身高y与父亲的身高x大致可归结为一下关系:
y=33.73+0.516x (单位为英寸)
根据换算公式1英寸=0.0254米, 1米=39.37英寸。单位换算成米后:
Y= 0.8567+0.516
X (单位为米);
假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。
这种趋势及回归方程表明父母身高每增加一个单位时,其成年儿子的身高平均增加0.516个单位。这就是回归一词最初在遗传学上的含义。
有趣的是,通过观察,高尔顿还注意到,尽管这是一种拟合较好的线形关系,但仍然存在例外现象:矮个父母所生的儿子比其父要高,身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说,当父母身高走向极端,子女的身高不会象父母身高那样极端化,其身高要比父母们的身高更接近平均身高,即有**“回归”到平均数去的趋势**,这就是统计学上最初出现“回归”时的涵义,高尔顿把这一现象叫做“向平均数方向的回归” (regression toward mediocrity)。虽然这是一种特殊情况,与线形关系拟合的一般规则无关,但“线形回归”的术语却因此沿用下来,作为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法。
下图可视为回归的图示(基于高斯分布)。
回归模型(背景和原理)_第1张图片
二、回归的数学原理
1.指数族分布(Exponential Family)
i. 指数族分布的表达式是
在这里插入图片描述
从概率密度图的角度上,概率密度分布图的形状与指数函数的图形有一定的类似,说明了概率密度的分布可以用指数函数框架来表示。
η被称为分布的自然参数(natural parameter,也称为规范参数canonical parameter);
T(y)是充分统计量(sufficient statistic),通常情况下有T(y)=y;
a(η)被称为对数划分函数log partition function。
很多分布都可以写成指数族分布。
ii.伯努利分布(Bernoulli distribution)与高斯分布(Gaussian distribution)的指数族分布标准表达式。
伯努利分布(Bernoulli distribution):逻辑回归的数学假设
p(y=1;ϕ)=ϕ;p(y=0;ϕ)=1−ϕ
在这里插入图片描述

在这里插入图片描述
回归模型(背景和原理)_第2张图片
高斯分布(Gaussian distribution):线性回归的数学假设
令高斯分布N(μ,1),μ为分布的均值,方差对最终θ和h(θ)的选择没有影响,设置为1。
在这里插入图片描述

回归模型(背景和原理)_第3张图片
2. 广义线性回归
广义线性模型是把自变量的线性预测函数当做因变量的预测值,广义线性模型是基于指数族分布的。
三个前提:
1)在这里插入图片描述
2)给定x,目标函数是T(y)的期望E[T(y)|x],并且通常T(y)=y
3)自然参数η与输入特征x呈线性相关,即
实数时,在这里插入图片描述
向量时,在这里插入图片描述

你可能感兴趣的:(回归模型)