传统机器学习笔记——概述

目录

  • 一.机器学习概述
    • 1.1.机器学习三要素:
    • 1.2.机器学习核心技术
    • 1.3.机器学习基本流程
    • 1.4.机器学习的主要类别
      • 1.4.1.分类问题
      • 1.4.2.回归问题
      • 1.4.3.聚类问题
      • 1.4.4.降维问题
    • 1.5.模型评估与选择
      • 1.5.1.机器学习与数据拟合
      • 1.5.2.训练集与测试集
      • 1.5.3.经验误差
      • 1.5.4.过拟合
      • 1.5.5.偏差
      • 1.5.6.方差
      • 1.5.7.偏差与方差的平衡
      • 1.5.8.性能度量指标
        • 1.5.8.1.回归问题常用误差
        • 1.5.8.2.分类问题常用评价指标
      • 1.5.9.评估方法
      • 1.5.10.模型调优与选择准则
      • 1.5.11.怎么选择最优模型

  之前一直零零散散学了些传统机器学习的知识,很不系统,于是准备再复习复习,系统的整理一遍机器学习的知识。在正式介绍机器学习个中算法之前,我们需要先了解一下机器学的大致框架,机器学习到底是什么东西,他涵盖有哪些知识点,他有什么用。

一.机器学习概述

  简言之就是寻找一个函数。深度学习是机器学习的子集,机器学习是人工智能的子集。

1.1.机器学习三要素:

  数据、模型、算法

1.2.机器学习核心技术

  分类,回归,聚类,异常检测。其中异常检测是对数据点的分布规律进行分析,识别与正常数据及差异较大的离群点。

1.3.机器学习基本流程

  数据预处理(Processing)、模型学习(Learning)、模型评估(Evaluation)、新样本预测(Prediction)。

1.4.机器学习的主要类别

  监督学习,无监督学习,强化学习。监督学习主要分为分类和回归;无监督学习主要分为聚类和降维;强化学习主要分为Q-learning和时间差学习。

1.4.1.分类问题

  二分类,多分类,多标签分类。
  常用算法:KNN算法、逻辑回归算法、朴素贝叶斯算法、决策树模型、随机森林分类模型、GBDT模型、XGBoost模型、支持向量机模型。

1.4.2.回归问题

  常用算法:决策树模型、随机森林分类模型、GBDT模型、回归树模型、支持向量机模型等。

1.4.3.聚类问题

  常用算法:k-means

1.4.4.降维问题

  常用算法:PCA降维算法

1.5.模型评估与选择

1.5.1.机器学习与数据拟合

  机器学习最典型的监督学习为分类与回归问题。分类问题中,我们学习出来一条「决策边界」完成数据区分;在回归问题中,我们学习出拟合样本分布的曲线。

1.5.2.训练集与测试集

  • 训练集(Training Set):帮助训练模型,简单的说就是通过训练集的数据让确定拟合曲线的参数。
  • 测试集(Test Set):为了测试已经训练好的模型的精确度。

1.5.3.经验误差

  在训练集的数据上进行学习。模型在训练集上的误差称为「经验误差」(Empirical Error)。但是经验误差并不是越小越好,因为我们希望在新的没有见过的数据上,也能有好的预估结果。

1.5.4.过拟合

  模型在训练集上表现的很好,但是在交叉验证集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(Generalization)能力较差。
防止过拟合的方法:正则化(如L1L2),数据集扩增,DroupOut

1.5.5.偏差

  偏差(Bias),它通常指的是模型拟合的偏差程度。给定无数套训练集而期望拟合出来的模型就是平均模型。偏差就是真实模型和平均模型的差异。也可理解成指用很简单模型逼近可能极其复杂的现实问题所产生的误差。

1.5.6.方差

  方差(Variance),它通常指的是模型的平稳程度(简单程度)。也可理解成指的是使用不同训练集估计函数产生的变化量。

1.5.7.偏差与方差的平衡

传统机器学习笔记——概述_第1张图片
可以参考西下这个链接:https://cloud.tencent.com/developer/article/1751478

1.5.8.性能度量指标

  性能度量是衡量模型泛化能力的数值评价标准,反映了当前问题(任务需求)。使用不同的性能度量可能会导致不同的评判结果。

1.5.8.1.回归问题常用误差

  • 平均绝对误差(Mean Absolute Error,MAE),又叫平均绝对离差,是所有标签值与回归模型预测值的偏差的绝对值的平均。
  • 平均绝对百分误差(Mean Absolute Percentage Error,MAPE)是对MAE的一种改进,考虑了绝对误差相对真实值的比例。
  • 均方误差(Mean Square Error,MSE)相对于平均绝对误差而言,均方误差求的是所有标签值与回归模型预测值的偏差的平方的平均。
  • 均方根误差(Root-Mean-Square Error,RMSE),也称标准误差,是在均方误差的基础上进行开方运算。RMSE会被用来衡量观测值同真值之间的偏差。
  • R平方,决定系数,反映因变量的全部变异能通过目前的回归模型被模型中的自变量解释的比例。比例越接近于1,表示当前的回归模型对数据的解释越好,越能精确描述数据的真实分布。

1.5.8.2.分类问题常用评价指标

  详细内容强参考我的另一篇博文:准确率,精准率,召回率,真正率,假正率,ROC/AUC

  • 错误率:分类错误的样本数占样本总数的比例。

  • 精确率:分类正确的样本数占样本总数的比例。

  • 查准率(也称准确率),即在检索后返回的结果中,真正正确的个数占你认为是正确的结果的比例。

  • 查全率(也称召回率),即在检索结果中真正正确的个数,占整个数据集(检索到的和未检索到的)中真正正确个数的比例。

  • F1是一个综合考虑查准率与查全率的度量,其基于查准率与查全率的调和平均定义:即:F1度量的一般形式-Fβ,能让我们表达出对查准率、查全率的不同偏好。

  • ROC曲线(Receiver Operating Characteristic Curve)全称是「受试者工作特性曲线」。综合考虑了概率预测排序的质量,体现了学习器在不同任务下的「期望泛化性能」的好坏。ROC曲线的纵轴是「真正例率」(TPR),横轴是「假正例率」(FPR)。

  • AUC(Area Under ROC Curve)是ROC曲线下面积,代表了样本预测的排序质量。

1.5.9.评估方法

  • 留出法。留出法(Hold-out)是机器学习中最常见的评估方法之一,它会从训练数据中保留出验证样本集,这部分数据不用于训练,而用于模型评估。
  • 交叉验证法( Cross Validation)。k 折交叉验证对 k 个不同分组训练的结果进行平均来减少方差,因此模型的性能对数据的划分就不那么敏感,对数据的使用也会更充分,模型评估结果更加稳定。
  • 自助法(Bootstrap)是一种用小样本估计总体值的一种非参数方法,在进化和生态学研究中应用十分广泛。

1.5.10.模型调优与选择准则

  表达能力好,复杂度低。

  • 表达力好的模型,可以较好地对训练数据中的规律和模式进行学习;
  • 复杂度低的模型,方差较小,不容易过拟合,有较好的泛化表达。

1.5.11.怎么选择最优模型

(1)验证集评估选择

  • 切分数据为训练集和验证集。
  • 对于准备好的候选超参数,在训练集上进行模型,在验证集上评估。

(2)网格搜索/随机搜索交叉验证

  • 通过网格搜索/随机搜索产出候选的超参数组。
  • 对参数组的每一组超参数,使用交叉验证评估效果。
  • 选出效果最好的超参数。

(3)贝叶斯优化

  • 基于贝叶斯优化的超参数调优。

  这篇博文我们见到介绍了下关于机器学习的概述,知道了什么是机器学习,机器学习的基本内容是什么以及机器学习是用来干嘛的。下篇博文我们将正式开始介绍机器学习里面的各种算法。

你可能感兴趣的:(机器学习,机器学习,人工智能,算法)