机器学习中的算法-线性回归算法原理推导

原创文章,如需转载请保留出处
本博客为唐宇迪老师python数据分析与机器学习实战课程学习笔记

一. 线性回归算法概述
线性回归(Linear Regression)是一种通过属性的线性组合来进行预测的线性模型,其目的是找到一条直线或者一个平面或者更高维的超平面,使得预测值与真实值之间的误差最小化。

优点:结果具有很好的可解释性(w直观表达了各属性在预测中的重要性),计算熵不复杂。
缺点:对非线性数据拟合不好
适用数据类型:数值型和标称型数据

标称型:一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果(一般用于分类)
数值型:可以在无限的数据中取,而且数值比较具体化,例如4.02,6.23这种值(一般用于回归分析)

1.1 线性回归
机器学习中的算法-线性回归算法原理推导_第1张图片

  • 机器学习分有监督学习和无监督学习。
  • 有监督学习分回归和分类。
    回归:通过数据最终预测出一个值。
    分类:根据样本特征对样本进行类别判定的过程。

1.2 解释
如何找出一条线,能解释额度和工资、年龄之间关系
机器学习中的算法-线性回归算法原理推导_第2张图片
1.3 通过数学讨论
机器学习中的算法-线性回归算法原理推导_第3张图片

  • θ1和θ2称为权重参数,对最终结果产生较大的影响。
  • θ0是偏置参数,对最终结果产生较小的影响

二.误差项分析
2.1 误差理解
机器学习中的算法-线性回归算法原理推导_第4张图片
y:表示真实值
θx:表示预测值
ε:表示真实值与预测值之间的误差

2.2 误差
机器学习中的算法-线性回归算法原理推导_第5张图片
2.3 得出似然函数
机器学习中的算法-线性回归算法原理推导_第6张图片
误差项肯定是越小越好了,那么接下来要讨论的就是什么样的参数和特征的组合能够让误差项最小呢? 这里就引入了似然函数的作用。似然函数的作用就是要根据样本来求什么样的参数和特征的组成能够最接近真实值。越接近真实值则误差越小。

三.似然函数求解
3.1似然函数定义
似然函数:根据样本推参数值。(我们关注的量不再是事件的发生概率,而是已知发生了某些事件,我们希望知道参数应该是多少。)
机器学习中的算法-线性回归算法原理推导_第7张图片
机器学习中的算法-线性回归算法原理推导_第8张图片
(若干个数的乘机取对数,就等于取对数后再相加)
四.目标函数推导
机器学习中的算法-线性回归算法原理推导_第9张图片
机器学习中的算法-线性回归算法原理推导_第10张图片

  • 问题一:为什么引入似然函数
  • 问题二:为什么对似然函数进行log变换
  • 问题三:在进行变换时,为什么使J(θ)越小越好
    (在L(θ)中,让预测值成为真实值的可能性,当然越大越好)

五.线性回归求解
5.1 求出θ
机器学习中的算法-线性回归算法原理推导_第11张图片
怎么计算最小二乘法的公式的最小值。这里面就要涉及到导数的相关知识了,
机器学习中的算法-线性回归算法原理推导_第12张图片
把这个式子求一下偏导。
机器学习中的算法-线性回归算法原理推导_第13张图片
将打开的式子,根据矩阵求导的三个重要公式
机器学习中的算法-线性回归算法原理推导_第14张图片
我们就可以把偏导的值求出来,
机器学习中的算法-线性回归算法原理推导_第15张图片
最终得到结果:
机器学习中的算法-线性回归算法原理推导_第16张图片
X和Y都是已知的,那么得到了最终的参数值。

5.2 评估方法
机器学习中的算法-线性回归算法原理推导_第17张图片

你可能感兴趣的:(机器学习,线性回归算法,机器学习,线性回归)