机器学习监督学习流程图解释_监督学习解释

机器学习监督学习流程图解释

机器学习是人工智能的一个分支,其中包括用于根据数据自动创建模型的算法 。 在较高的级别上,有四种机器学习:监督学习,无监督学习, 强化学习和主动机器学习。 由于强化学习和主动机器学习相对较新,因此有时会从此类列表中将其省略。 您也可以将半监督学习添加到列表中,这没错。

[理解机器学习的意义: 人工智能,机器学习和深度学习:您需要知道的一切 。 | 深度学习解释了 。 | 机器学习的解释 。 | 机器学习算法的解释 。 | 软件工程师的机器学习技能 。 | 通过InfoWorld大数据和分析报告时事通讯深入了解分析和大数据。 ]

什么是监督学习?

有监督的学习从带有正确答案(目标值)的训练数据开始。 学习过程结束后,您将获得一个带有一组权重调整模型的模型,该模型可以预测尚未标记的相似数据的答案。

您想训练一个精度高而又不会过度拟合或拟合不足的模型。 高精度意味着您已经优化了损失功能。 在分类问题的情况下,准确性是模型为其产生正确输出的示例的比例。

过度拟合意味着该模型与它所看到的数据紧密相关,以至于它不能推广到它所没有看到的数据。 欠拟合意味着该模型不够复杂,无法捕获数据中的潜在趋势。

选择损失函数以反映模型的“缺陷”。 您可以将损失最小化以找到最佳模型。 对于数值(回归)问题,损失函数通常是均方误差(MSE),也可表示为均方根误差(RMSE)或均方根偏差(RMSD)。 这对应于数据点和模型曲线之间的欧几里得距离。 对于分类(非数字)问题,损失函数可能基于少数度量之一,包括ROC曲线(AUC)下的面积,平均准确度,精确调用和对数损失。 (有关下面的AUC和ROC曲线的更多信息。)

为了避免过度拟合,您通常将标记的数据分为两组,大部分用于训练,少数用于验证或测试。 验证集损失通常高于训练集损失,但这是您所关心的,因为它不应该对模型表现出偏见。

对于小型数据集,使用固定的保留集进行测试验证可能会导致统计数据不足。 解决此问题的一种方法是使用交叉验证方案,其中不同的折叠(数据子集)轮流成为不同训练时期的保留集。

我提到过AUC是ROC曲线下的面积。 ROC是接收机工作特性曲线; 该术语来自无线电信号分析,但从本质上讲,ROC曲线通过绘制真阳性率与假阳性率来显示分类器的敏感性。 ROC曲线下的高面积是好的,因此,当您将其用作损失函数的基础时,您实际上要最大化AUC。

机器学习的数据清理

野外没有干净的数据。 为了对机器学习有用,必须积极过滤数据。 例如,您将要:

  1. 查看数据,并排除所有缺少大量数据的列。
  2. 再次查看数据,然后选择要用于预测的列( 特征选择 )。 迭代时,您可能希望更改功能选择。
  3. 在其余列中排除仍缺少数据的任何行。
  4. 纠正明显的错别字并合并等效答案。 例如,美国,美国,美国和美国应合并为一个类别。
  5. 排除数据超出范围的行。 例如,如果您要分析纽约市内的出租车行程,则需要过滤出市区外边界以外的接送或送经纬度和经度行。

您可以做更多的事情,但这取决于收集的数据。 这可能很乏味,但是如果您在机器学习管道中设置了数据清理步骤,则可以随意修改并重复进行。

机器学习的数据编码和规范化

要将分类数据用于机器分类,您需要将文本标签编码为另一种形式。 有两种常见的编码。

一种是标签编码 ,这意味着每个文本标签值都用数字代替。 一种一键编码 ,这意味着每个文本标签值都将变成具有二进制值(1或0)的列。 大多数机器学习框架都具有为您进行转换的功能。 通常,单热编码是首选,因为标签编码有时会使机器学习算法混淆,以为编码列是有序的。

要将数字数据用于机器回归,通常需要将数据标准化。 否则,具有较大范围的数字可能趋于主导特征向量之间的欧几里得距离,其影响可能会以其他场为代价被放大,并且最陡的下降优化可能会难以收敛。 有多种方法可以对数据进行标准化和标准化以进行机器学习,包括最小-最大标准化,均值标准化,标准化以及按比例缩放到单位长度。 此过程通常称为特征缩放

机器学习的特征工程

特征是观察到的现象的单个可测量属性或特征。 “特征”的概念与解释变量的概念有关,该解释变量在诸如线性回归之类的统计技术中使用。 特征向量将单行的所有特征组合为数值向量。

选择特征的部分技巧是选择最少的一组变量来解释问题。 如果两个变量高度相关,则要么需要将它们组合为一个特征,要么应将其删除。 有时人们进行主成分分析以将相关变量转换为一组线性不相关变量。

人们用来构造新特征或降低特征向量维数的一些转换很简单。 例如,从Year of Death Year of Birth减去Year of Birth Year of Death然后构建Age at Death ,这是生命周期和死亡率分析的主要自变量。 在其他情况下, 特征构造可能不是那么明显。

通用机器学习算法

机器学习算法有数十种,其复杂度从线性回归和逻辑回归到深度神经网络和集合(其他模型的组合)不等。 但是,一些最常见的算法包括:

  • 线性回归,也称为最小二乘回归(用于数值数据)
  • Logistic回归(用于二进制分类)
  • 线性判别分析(用于多类别分类)
  • 决策树(用于分类和回归)
  • 朴素贝叶斯(用于分类和回归)
  • K近邻,又名KNN(用于分类和回归)
  • 学习矢量量化,又名LVQ(用于分类和回归)
  • 支持向量机,又名SVM(用于二进制分类)
  • 随机森林,一种“装袋”(引导聚合)集成算法(用于分类和回归)
  • 增强方法(包括AdaBoost和XGBoost)是集成算法,它们创建一系列模型,其中每个增量模型都试图纠正先前模型的错误(用于分类和回归)
  • 神经网络(用于分类和回归)

超参数调整

超参数是自由变量,而不是机器学习模型中要调整的权重。 超参数因算法而异,但通常包括学习率,该学习率用于控制在为一批计算出误差后所应用的校正大小。

现在,一些生产机器学习平台提供了自动超参数调整。 从本质上讲,您告诉系统要更改哪些超参数,以及可能要优化的指标,然后系统会在允许的所有运行中扫描这些超参数。 (Google Cloud Machine Learning Engine的超参数调整会从TensorFlow模型中提取适当的指标,因此您不必指定它。)

扫描超参数有三种主要的搜索算法:贝叶斯优化,网格搜索和随机搜索。 贝叶斯优化往往是最有效的。 您可以轻松地在代码中实现自己的超参数扫描,即使您使用的平台无法自动执行该操作。

总而言之,监督学习将标记的训练数据转变为调整后的预测模型。 在此过程中,您需要清理和归一化数据,设计一组线性不相关的特征,并尝试多种算法以找到最佳模型。

翻译自: https://www.infoworld.com/article/3403403/supervised-learning-explained.html

机器学习监督学习流程图解释

你可能感兴趣的:(机器学习监督学习流程图解释_监督学习解释)