机器学习从零开始系列连载(2)——线性回归

作者:张磊

编辑:赵一帆

本周剩余内容:

2. 建模方法回顾

    2.0 偏差与方差

    2.1 线性回归-Linear Regression

        2.1.1 模型原理

        2.1.2 损失函数

    2.2 支持向量机-Support Vector Machine

        2.2.1 模型原理

        2.2.2 损失函数

        2.2.3 核方法

    2.3 逻辑回归-Logistic Regression

        2.3.1 模型原理

        2.3.2 损失函数

    2.4 Bagging and Boosting框架

        2.4.1 Bagging框架

        2.4.2 Boosting框架

    2.5 Additive Tree 模型

        2.5.1 Random Forests

        2.5.2 AdaBoost with trees

        2.5.3 Gradient Boosting Decision Tree

        2.5.4 简单的例子

    2.6 人工神经网络-Neural Network

        2.6.1 神经元

        2.6.2 神经网络的常用结构

        2.6.3 一个简单的神经网络例子


以通用的监督学习为例,基本包含4个部分:

机器学习从零开始系列连载(2)——线性回归_第1张图片

01

偏差与方差

● 在机器学习算法中,偏差是由先验假设的不合理带来的模型误差,高偏差会导致欠拟合: 所谓欠拟合是指对特征和标注之间的因果关系学习不到位,导致模型本身没有较好的学到历史经验的现象;


● 方差表征的是模型误差对样本发生一定变化时的敏感度,高方差会导致过拟合:模型对训练样本中的随机噪声也做了拟合学习,导致在未知样本上应用时出现效果较差的现象;


● 机器学习模型的核心之一在于其推广能力,即在未知样本上的表现。

对方差和偏差的一种直观解释

机器学习从零开始系列连载(2)——线性回归_第2张图片

一个例子,假如我们有预测模型:

0?wx_fmt=png

我们希望用f^e(x)估计f(x),如果使用基于square loss 的线性回归,则误差分析如下:

机器学习从零开始系列连载(2)——线性回归_第3张图片 机器学习从零开始系列连载(2)——线性回归_第4张图片

所以大家可以清楚的看到模型学习过程其实就是对偏差和方差的折中过程。

02

模型原理

标准线性回归通过对自变量的线性组合来预测因变量,组合自变量的权重通过最小化训练集中所有样本的预测平方误差和来得到,原理如下。

● 预测函数 

0?wx_fmt=png

● 参数学习-采用最小二乘法 

0?wx_fmt=png

所有机器学习模型的成立都会有一定的先验假设,线性回归也不例外,它对数据做了以下强假设:

● 自变量相互独立,无多重共线性

● 因变量是自变量的线性加权组合:

0?wx_fmt=png

● 所有样本独立同分布(iid),且误差项服从以下分布:

0?wx_fmt=png

最小二乘法与以上假设的关系推导如下:

机器学习从零开始系列连载(2)——线性回归_第5张图片

使用MLE(极大似然法)估计参数如下:

机器学习从零开始系列连载(2)——线性回归_第6张图片

线性回归有两个重要变体:

● Lasso Regression:采用L1正则并使用MAP做参数估计

● Ridge Regression:采用L2正则并使用MAP做参数估计

关于正则化及最优化后续会做介绍。


03

损失函数

0?wx_fmt=png

进一步阅读可参考:Least Squares

https://en.wikipedia.org/wiki/Least_squares


你可能感兴趣的:(机器学习从零开始系列连载(2)——线性回归)