数据分类机器学习算法(支持向量机 | 朴素贝叶斯 | 逻辑回归 | 决策树 | 神经网络)

分类

分类算法是机器学习技术,用于预测输入数据属于哪个类别。他们是有监督的学习任务,这意味着他们需要标记的训练示例。

案例

  • 根据症状,实验室结果和历史诊断预测临床诊断
  • 使用索赔金额,药物易感性,疾病和提供者等数据预测医疗保健索赔是否为欺诈

以下是用于预测分类结果的最常用算法的介绍:支持向量机,朴素贝叶斯,逻辑回归,决策树和神经网络

支持向量机

如果在n维空间(其中n是要素数量)中绘制数据,则支持向量机(SVM)会尝试拟合最能区分类别的超平面。 当您有一个新的数据点时,它相对于超平面的位置将预测该点属于哪个类别。

优点:

  • 高精确度
  • 即使非线性可分离也能够找到解
  • 适用于高维空间

缺点:

  • 难以解释
  • 训练大型数据集可能会很慢
  • 内存密集型

术语解释

n维空间—一维(1D)空间简单地表示为一条线,而二维(2D)被称为笛卡尔平面,您可以在其中上下左右移动。概括地说,使用n维空间。

hyperplane(超平面)—一维(1D)空间中的超平面是一个点。 在二维(2D)空间中,它是一条线。 3维(3D)空间中的超平面是一个平面,是一个平面。 为了概括任何维度,该概念称为超平面。

类别-术语类别和类别可以互换使用。

支持状态机算法

朴素贝叶斯

朴素贝叶斯(Naive Bayes)假设所有功能都是独立的,它们独立地为目标变量的类别做出了贡献; 这并不总是成立,这就是为什么它被称为“朴素”。 根据各种概率和似然值出现在数据中的频率以及使用称为贝叶斯定理的公式计算出的最终概率来计算各种概率和似然值。

优点:

  • 简单易懂
  • 计算速度快
  • 适用于高维空间(很多功能)

缺点:

  • 如果变量之间存在显着依赖关系,则性能将受到抑制
  • 如果出现在测试数据中的类没有出现在训练数据中,则其概率为零

术语解释

独立-如果一个特征的值不影响另一个特征的值,则两个特征是独立的。如果一个事件的发生概率不影响另一事件的发生,则两个事件是独立的。

概率-概率是指某种事物可能会发生或在特定情况下扩展的范围。

目标变量-这就是正在尝试预测的事物,例如一项行动是否具有欺诈性;产品价格

似然性-在给定标准的情况下发生事件的概率可以表示为在事件发生时该条件发生的似然性。

贝叶斯定理—贝叶斯定理是用于确定条件概率的数学公式。

朴素贝叶斯算法

逻辑回归

逻辑回归预测二元结果的概率。 如果新观察值的概率高于设定的阈值,则将其预测为该类。 对于有多个类的方案,有一些方法可以使用逻辑回归。

优点:

  • 快速计算,并可以轻松地用新数据进行更新
  • 输出可以解释为概率;这可以用于排名
  • 可以使用正则化技术来防止过度拟合

缺点:

  • 无法学习复杂的关系
  • 难以捕获非线性关系(没有可能很复杂的第一个转换数据)

术语解释

概率-概率是指某种事物可能会发生或在特定情况下扩展的范围。

二元结果-二元结果表示变量将是两个可能值之一,即1或0。1表示该观察值在类中,而0则表示该值不在类中。

观察值—观察值是一个示例,即数据中的数据点或行。

过度拟合-过度拟合模型将发现训练数据中特定的有用特征,从而对训练数据具有非常高的准确性。但是,由于无法泛化,因此对测试数据的准确性较低。

非线性关系-非线性关系意味着第一个变量的变化不一定与第二个变量的恒定变化相对应。但是,它们可能会相互影响,但这似乎是可以预见的。

逻辑回归预测

决策树

决策树学习如何最好地将数据集拆分为单独的分支,从而使其学习非线性关系。

随机森林(RF)和梯度增强树(GBT)是两种算法,可构建许多单独的树并汇总其预测。当他们使用结果集合做出最终决定时,它们被称为“整合技术”。

优点:

  • 单个决策树快速训练
  • 强大的抗噪能力和缺失值
  • “开箱即用”的RF表现非常出色

缺点:

  • 单一决策树易于过度拟合
  • 复杂的树木很难解释

术语解释

非线性关系-非线性关系意味着第一个变量的变化不一定与第二个变量的恒定变化相对应。但是,它们可能会相互影响,但这似乎是可以预见的。

合并-这是一种合并数据的方法,通常通过取平均数来完成。

**噪声-**噪声是指数据点不正确,这可能会导致发现不正确的模式。 如果它们离群,通常会加以识别,这意味着它们与其余数据集有很大不同。 但是,请谨慎操作,因为某些异常值可能是有效的数据点,值得调查。

过度拟合-过度拟合模型将在发现的数据中发现特定的有用功能后,对训练数据具有非常高的准确性。但是,由于无法概括,它对测试数据的准确性较低。

决策树和随机森林预测

神经网络

神经网络可以使用神经元层来学习复杂的模式,这些层可以对数据进行数学转换。 输入和输出之间的层称为“隐藏层”。 神经网络可以学习其他算法无法轻易发现的特征之间的关系。

优点:

  • 适用于许多领域的强大功能/最新技术(例如计算机视觉,语音识别)
  • 甚至可以学习非常复杂的关系
  • 隐藏层减少了对特征工程的需求(无需了解底层数据)

缺点:

  • 需要大量数据
  • 容易过拟合
  • 训练时间长
  • 需要大型数据集的强大计算能力(价格昂贵)
  • 模型是一个“黑匣子”,无法解释

术语解释

神经元 - 人工神经元是一种数学函数。 它需要将一个或多个输入乘以称为“权重”的值并相加在一起的值。 然后,该值将传递到称为“激活函数”的非线性函数,该函数成为输出。

输入-将要素作为输入传递,例如大小,品牌,位置等。

输出-这是目标变量,我们正在尝试预测的变量,例如一件商品的价格。

隐藏层-这些层是数学上可以转换数据的许多神经元。 它们被称为“隐藏”,因为用户仅关注传递要素的输入层和进行预测的输出层。

特征工程-特征工程是将原始数据转换为更有意义的过程的过程,通常涉及与具有领域专业知识的人员合作。

过度拟合-过度拟合模型将在发现的数据中发现特定的有用功能后,对训练数据具有非常高的准确性。但是,由于无法泛化,它对测试数据的准确性较低。

**模型-**机器学习算法经过训练后会创建一个模型,这是一个数学函数,可用于进行新的观察并计算适当的预测。

神经网络预测

详情参阅 - 亚图跨际

你可能感兴趣的:(机器学习,Python,python,numpy,scikit-learn)