一文详解线性回归原理

前言

本文将简单介绍线性回归算法的原理以及推导过程,因为本人也是新手,只按照新手思维去一步步思考,如有错误还请大家指出~~

1、概述

线性回归模型是用一条曲线拟合一个或多个自变量x与因变量y之间的关系。若曲线是一条直线,则为一元线性回归;若是超平面,则是多元线性回归;否则是非线性回归,常见的非线性回归包括多项式回归、逻辑回归。通过样本学习映射关系f:x->y,得到的预测结果y是连续值变量。

2、原理推导

一文详解线性回归原理_第1张图片

3、损失函数

损失函数是用来判断一条拟合曲线的拟合效果,我们的目标就是最小化损失函数,所以要找到对于的权重参数使得损失函数最小。
一般线性回归的损失函数的定义为:
在这里插入图片描述
一文详解线性回归原理_第2张图片
在这里插入图片描述
因为RSS的大小与样本数量有关,不能对比模型拟合效果的好坏,所以为了消除样本量差异的影响,使用均方误差(MSE)拟合:
一文详解线性回归原理_第3张图片

4、过拟合和欠拟合问题

4.1 欠拟合

欠拟合就是所训练模型没有很好的捕捉到数据特征,故而不能很好的拟合数据。例如平时学习不认真的同学,到期末考试只是背了课题大纲,真正考试时你大部分答不上来,成绩不理想。

4.1.1 欠拟合解决方法
1) 增加特征:通过特征组合、泛化、相关性等得到新特征并添加训练。
2) 添加多项式特征:将线性模型通过添加二次项或者三次线使模型泛化能力更强。
3) 减少正则化参数:正则化是为了防止过拟合,出现欠拟合则应该减少正则化参数。

4.2 过拟合

过拟合就是模型把数据特征学习得太透彻,以致于把噪音数据也学习进去了,导致测试时不能很好的识别测试数据,使得模型泛化能力变差。例如一个同学把所有题目背下来,到考试时题目变一下就不会了,从而导致成绩也不理想。

4.2.2 过拟合解决方法
1) 重新清洗数据:过拟合的一个原因是因为数据不纯,噪音数据太多,所以可以重新清洗数据时数据更干净。
2) 增大训练数据量
3) 采用正则化方法:正则化包括L1、L2正则化,即在目标函数后面加上对应的范数。
4) 采用dropout方法:在训练过程中以一定的概率让一些参数不工作(在神经网络在常用)。

5、总结

本文对线性回归做了一个简单的原理解释及其推导,下面将继续线性回归实战,欢迎大家关注哦(如有错误请大神指出!)。

你可能感兴趣的:(昌哥的机器学习笔记,机器学习,过拟合)