机器学习入门(基础知识、线性回归算法)

文章目录

  • 1.机器学习基础
    • 1.1监督学习
    • 1.2无监督学习
  • 1.3泛化能力、过拟合、欠拟合
    • 1.3.1泛化能力
      • 1.3.2泛化能力的度量
      • 1.3.3过拟合与欠拟合
    • 1.4交叉验证法
  • 线性回归
    • 线性回归原理
    • 线性回归函数
    • 线性回归优化方法
    • 线性回归评估指标
    • sklearn参数详解及调用方法

1.机器学习基础

1.1监督学习

监督学习(supervised learning)

  • 主要任务:
    模型能够对任意给定的输入,对其相应的输出做一个好的预测。<给定一个输入产生一个输出>,对于每一个数据<训练集、测试集>都会有一个对应的输出值<标签、预测值>
  • 主要模型
    监督学习的主要模型:线性回归、逻辑回归、支持向量机、k近邻、决策树、随机森林

1.2无监督学习

非监督学习(unsupervised learning)

  • 主要任务:
    模型数据没有标记信息,一般被认为是非监督学习
  • 主要模型聚类、降维等

1.3泛化能力、过拟合、欠拟合

1.3.1泛化能力

  • 泛化能力:
    机器学习的目标是模型能在新的样本<未知样本5>中也能很好的试用,对于分类模型也希望在样本空间可以得到很好的分类,模型适用于新样本的能力称为泛化能力。## 可以理解为模型举一反三的能力

1.3.2泛化能力的度量

  • 性能度量:衡量模型泛化能力的评价标准。对比不同模型的能力时,使用不同的性能度量会带来不同的评判结果。模型的好坏是相对的,什么样的模型是好的,不仅取决于算法,还取决于需求
    其中回归最常用的性能度量是均方误差
  • 误差:训练误差与泛化误差
    在机器学习中,我们把实际预测输出与样本真实输出之间的差异成为“误差”(error),在训练集上的误差称为“训练误差”(经验误差),在新样本上的误差称为“泛化误差”

1.3.3过拟合与欠拟合

  • 过拟合:
    过拟合表示模型对于训练模型"太过",表现为训练误差(经验误差)较小而"泛化误差较大"。

  • 产生原因
    1 训练数据集样本单一,训练样本不足。训练样本要尽可能的全面,覆盖所有的数据类型。
    2 训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征,忽略了真实输入和输出之间的关系。
    3 模型过于复杂。

  • 解决方法

  • 欠拟合:
    则表示模型的学习能力过弱,带来的误差较大

  • 解决方法(欠拟合):

  • 添加数据特征量

  • 减少正则化

1.4交叉验证法

  • 主流方法:K-fold Cross Validation(记为K-CV)
    X次X折交叉验证法
    将数据集D划分为N个大小相似完全互斥的子集(D1,D2,D3,D4…),并依次将D1(D2,D3)作为测试集,其它组合为训练集训练模型N次,对模型值进行平均,这个N为折
    对于数据子集的划分有多种多样,为了带来样本划分带来的影响,我们对数据集进行P次不同的划分,则为次。
    经典应用:留一法,对M个样本划分为M个子集,进行M次建模取其平均值。

线性回归

线性回归原理

线性回归函数

  • 假设函数:
    以一元为例
  • 代价函数
    在这里插入图片描述
  • 目标函数
    在这里插入图片描述

线性回归优化方法

梯度下降法:通过一步一步迭代,边训练数据,边调整参数,计算偏导,使回归使终是保持梯度下降的,即最优,来得到最小化的损失函数和此时的模型参数值

牛顿法:在梯度下降原理基础上,优化的二阶收敛,下降过程中采用二次曲面,考虑了每走一步对当前最大角度产生的影响,梯度下降是一阶收敛,一个平面下静态的拟合局部,只考虑了本步静态的最大方向。
所以牛顿法比梯度下降法下降要快。

拟牛顿法:在每一步迭代时只要求知道目标函数梯度,通过测量梯度变化构造一个目标函数的模型,使之产生超线性收敛性。不需要二阶层数信息。可以用来解决无约事,约事,和大规模的优化问题。
它是解非线性方程组及最优化计算中最有效的方法之一。

线性回归评估指标

SSE(误差平方和):误差平方和,即(真实值-预测值)的平方和
同样的数据集的情况下,SSE越小,误差越小,模型效果越好
缺点:随着样本增加,SSE必然增加,也就是说,不同的数据集的情况下,SSE比较没有意义

R-square(决定系数):1- 误差平方和/原始真实数据与平均值差方和。综合考虑了预测数据和原始数据的误差以及原始数据的离散程度。消除了原始数据离散程度的影响。
R^2 越接近1,表示方程变量对y的解释能力越强,模型对数据拟合越好。
R^2 越接近0,表明模型拟合越差。
缺点:数据集的样本越大,R^2越大,所以,不同数据集的模型结果比较会有一定的误差
Adjusted R-square:校正决定系数。加入样本数据和特征数据评价指标,消除了样本数据和特征数量的影响。

sklearn参数详解及调用方法

LinearRegression(fit_intercept=True,normalize=False,copy_X=True,n_jobs=1)
fit_intercept:是否有截据,如果没有则直线过原点。
normalize:是否将数据归一化
copy_X:默认为True,当为True时,X会被copied,否则X将会被覆写。
n_jobs:默认值为1。计算时使用的核数

你可能感兴趣的:(机器学习入门(基础知识、线性回归算法))