matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗

点击蓝字 关注我们

1

样本与总体回归系数的区分

简单回顾一下:  属于样本值,而   是总体值。总体值是未知的但它是确定的,正因为它是未知的,所以我们才要检验它是否等于0。 而   是根据样本计算出来的,它具体是多少,我们是知道的,不需要再检验。 比如前文中所举的教育程度和收入的例子,通过抽取1000名研究对象,我们计算出来一个回归方程(样本): 由上式可以知道:   ,即X的回归系数,所以它已经是确定等于200了,不可能再来检验它是否等于0。 好比我们做身高的单样本t检验时,零假设会写“总体均数   是否等于1.75”,而不是说检验“   ”,   是多少已经根据样本计算出来了。 这一点内容看似很简单,但其实经常有同学犯糊涂,所以,还是值得专门说一下。

2

回归系数的计算

搞清楚了   和   的区别,我们今天重点来看看   是怎么来的。因为我们获得的是样本数据,所以只能计算出   ,不能准确地算出   ,但是可以通过   来推断   的大小,当然主要是与“0”比。 借用我们讲相关分析时的例子:探讨粮食中某种毒素(DON)对骨关节炎评分(OAP)的影响,数据如下: matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第1张图片 无论是做回归还是相关分析,我们拿到数据的第一步应该是先画一个散点图:以因变量Y为纵轴,以自变量X为横轴(如果有多个自变量,则让Y逐一与X画散点图)。 本例我们研究的是DON对OAP的影响,所以以OAP为Y,以DON为X,散点图如下: matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第2张图片 如上图,两变量之间正向的线性关系还是很明显的,随着DON的提升,OAP也有上升的趋势,所以推测,粮食中DON毒素可能会导致患者关节炎的发生。 我们现在希望通过回归分析来定量地衡量DON对OAP的影响,就是希望求出回归方程中的   值,更准确而言,就是求X的回归系数。 回归方程在几何上是一条直线,所以问题归结于怎么样找到一条这样的直线。 因为我们希望回归直线尽可能最优,所以就需要做出的直线离各散点的综合距离最小。 如下图中的u1、u2,代表了散点与回归直线的距离。 matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第3张图片 如下图,我们根据肉眼观察,对关节炎的数据画出来两条线:蓝线和红线,问题是到底选择哪一条线呢? matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第4张图片 肉眼观察肯定不靠谱,只能通过数学计算来比较判断,如何判断呢?本质上这是一个求最小值的问题。 上面说过了,我们希望得到的直线离所有散点的综合距离最小,怎么把这句话转变成数学计算呢? 所谓的“综合距离”最小,用数学的语言来表达就是让下面这个式子取最小值 因为 所以   综合起来可以写成: a5cd44053645191dcf79de2a55873566.png 重点看上式的右边,我们要知道,   都是已知的(抽样获取的),只有   和  是未知的,所以可以通过求最小值时将它们计算出来。 别被复杂的式子唬住,其实这里只需要初中或高中的数学就能解决。耐心的小伙伴可以尝试展开一下,其实就是一个二次函数。 如果稍微有点高数的基础,可以把它构造成一个二元函数,然后分别对   和  求偏导数,还记得吗?导数为零的点是极值点。 求解出来的结果是: matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第5张图片

以上这个过程就是大家总能听到的“最小二乘法”。

回到我们关节炎的例子,最后得出其回归方程为:

matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第6张图片 matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第7张图片

来源:“丁点帮你”公众号


【免责声明】《管理学刊》微信公众平台所转载的专题文章,仅作学术交流之用,未有任何商业目的;本平台对文中观点保持中立;文章版权属于原作者,如果分享内容有侵权或非授权发布之嫌,请联系我们,我们会及时审核处理。

matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第8张图片 matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第9张图片

扫二维码|关注我们

微信号|glxk2009

电话|0373-3683517

matlab最小二乘法求参数_回归系列(二)| 最小二乘法真有那么复杂吗_第10张图片

你可能感兴趣的:(matlab最小二乘法求参数,最小二乘法建模例题)