分类算法是机器学习技术,用于预测输入数据属于哪个类别。他们是有监督的学习任务,这意味着他们需要标记的训练示例。
以下是用于预测分类结果的最常用算法的介绍:支持向量机,朴素贝叶斯,逻辑回归,决策树和神经网络
如果在n维空间(其中n是要素数量)中绘制数据,则支持向量机(SVM)会尝试拟合最能区分类别的超平面。 当您有一个新的数据点时,它相对于超平面的位置将预测该点属于哪个类别。
优点:
缺点:
n维空间—一维(1D)空间简单地表示为一条线,而二维(2D)被称为笛卡尔平面,您可以在其中上下左右移动。概括地说,使用n维空间。
hyperplane(超平面)—一维(1D)空间中的超平面是一个点。 在二维(2D)空间中,它是一条线。 3维(3D)空间中的超平面是一个平面,是一个平面。 为了概括任何维度,该概念称为超平面。
类别-术语类别和类别可以互换使用。
朴素贝叶斯(Naive Bayes)假设所有功能都是独立的,它们独立地为目标变量的类别做出了贡献; 这并不总是成立,这就是为什么它被称为“朴素”。 根据各种概率和似然值出现在数据中的频率以及使用称为贝叶斯定理的公式计算出的最终概率来计算各种概率和似然值。
优点:
缺点:
独立-如果一个特征的值不影响另一个特征的值,则两个特征是独立的。如果一个事件的发生概率不影响另一事件的发生,则两个事件是独立的。
概率-概率是指某种事物可能会发生或在特定情况下扩展的范围。
目标变量-这就是正在尝试预测的事物,例如一项行动是否具有欺诈性;产品价格
似然性-在给定标准的情况下发生事件的概率可以表示为在事件发生时该条件发生的似然性。
贝叶斯定理—贝叶斯定理是用于确定条件概率的数学公式。
逻辑回归预测二元结果的概率。 如果新观察值的概率高于设定的阈值,则将其预测为该类。 对于有多个类的方案,有一些方法可以使用逻辑回归。
优点:
缺点:
概率-概率是指某种事物可能会发生或在特定情况下扩展的范围。
二元结果-二元结果表示变量将是两个可能值之一,即1或0。1表示该观察值在类中,而0则表示该值不在类中。
观察值—观察值是一个示例,即数据中的数据点或行。
过度拟合-过度拟合模型将发现训练数据中特定的有用特征,从而对训练数据具有非常高的准确性。但是,由于无法泛化,因此对测试数据的准确性较低。
非线性关系-非线性关系意味着第一个变量的变化不一定与第二个变量的恒定变化相对应。但是,它们可能会相互影响,但这似乎是可以预见的。
决策树学习如何最好地将数据集拆分为单独的分支,从而使其学习非线性关系。
随机森林(RF)和梯度增强树(GBT)是两种算法,可构建许多单独的树并汇总其预测。当他们使用结果集合做出最终决定时,它们被称为“整合技术”。
优点:
缺点:
非线性关系-非线性关系意味着第一个变量的变化不一定与第二个变量的恒定变化相对应。但是,它们可能会相互影响,但这似乎是可以预见的。
合并-这是一种合并数据的方法,通常通过取平均数来完成。
**噪声-**噪声是指数据点不正确,这可能会导致发现不正确的模式。 如果它们离群,通常会加以识别,这意味着它们与其余数据集有很大不同。 但是,请谨慎操作,因为某些异常值可能是有效的数据点,值得调查。
过度拟合-过度拟合模型将在发现的数据中发现特定的有用功能后,对训练数据具有非常高的准确性。但是,由于无法概括,它对测试数据的准确性较低。
神经网络可以使用神经元层来学习复杂的模式,这些层可以对数据进行数学转换。 输入和输出之间的层称为“隐藏层”。 神经网络可以学习其他算法无法轻易发现的特征之间的关系。
优点:
缺点:
神经元 - 人工神经元是一种数学函数。 它需要将一个或多个输入乘以称为“权重”的值并相加在一起的值。 然后,该值将传递到称为“激活函数”的非线性函数,该函数成为输出。
输入-将要素作为输入传递,例如大小,品牌,位置等。
输出-这是目标变量,我们正在尝试预测的变量,例如一件商品的价格。
隐藏层-这些层是数学上可以转换数据的许多神经元。 它们被称为“隐藏”,因为用户仅关注传递要素的输入层和进行预测的输出层。
特征工程-特征工程是将原始数据转换为更有意义的过程的过程,通常涉及与具有领域专业知识的人员合作。
过度拟合-过度拟合模型将在发现的数据中发现特定的有用功能后,对训练数据具有非常高的准确性。但是,由于无法泛化,它对测试数据的准确性较低。
**模型-**机器学习算法经过训练后会创建一个模型,这是一个数学函数,可用于进行新的观察并计算适当的预测。
详情参阅 - 亚图跨际