技术干货|你需要知道的 10 种常见机器学习算法

您可能会遇到的第一个问题 不同类型的机器学习算法有哪些,它们有什么用,以及我应该选择哪一种?这篇文章将帮助您回答这些问题。

常用机器学习算法

首先,有几种不同的方法可以对机器学习算法进行分类。一种方法是基于训练数据的样子。 数据科学家在训练数据方面使用了三种 不同的类别:

  • Supervised,根据标记的历史数据(通常由人类注释)对算法进行训练,以尝试预测未来的结果。
  • 相比之下,无监督使用算法试图通过自己提取规则或模式来理解的未标记数据。
  • 半监督,这是上述两种方法的混合,通常具有未标记数据的优势,以及少量监督(标记)数据。

另一种对算法进行分类的方法——从业务角度来看更实用——是根据它们的工作方式以及它们可以解决的问题类型对它们进行分类,这就是我们在这里要做的。这里也有三个基本类别:回归聚类分类算法。下面,我们将详细介绍每一个。

回归算法

基本上有两种我们在业务环境中常见的回归算法。这些都是基于您可能熟悉的统计数据的相同回归。

1. 线性回归

描述得非常简单,线性回归基于一组数据点绘制一条线,称为因变量(绘制在 y 轴上)和解释变量(绘制在 x 轴上)。

技术干货|你需要知道的 10 种常见机器学习算法_第1张图片

线性回归是一种常用的统计模型,可以被认为是一种用于理解数值数据的瑞士军刀。例如,线性回归可用于通过将各种价格的销售额与其销售额进行映射来了解价格变化对商品和服务的影响,以帮助指导定价决策。根据具体的用例,线性回归的一些变体,包括岭回归、 套索回归多项式回归也可能是合适的。

2. 阿里玛

ARIMA(“自回归综合移动平均”)模型可以被认为是一种特殊类型的回归 模型。

技术干货|你需要知道的 10 种常见机器学习算法_第2张图片

 

它允许您探索与时间相关的数据点,因为它将数据点理解为一个序列,而不是彼此独立。因此,ARIMA 模型对于进行时间序列分析特别有用,例如需求和价格预测。

聚类算法

聚类算法通常用于在数据集中查找组,并且有几种不同类型的算法可以做到这一点。

3. k均值聚类

k - means聚类通常用于将具有相关特征的组分离并将它们组合在一起。

技术干货|你需要知道的 10 种常见机器学习算法_第3张图片

希望制定客户细分策略的企业可能会使用k均值聚类来更好地定位客户群体应该响应的营销活动。k均值聚类的另一个用例是检测保险欺诈,使用过去显示出欺诈保险提供者倾向的历史数据来检查当前案例。

4. 凝聚和分裂聚类

凝聚聚类是一种用于为数据集群寻找层次关系的方法。

技术干货|你需要知道的 10 种常见机器学习算法_第4张图片

它使用自下而上的方法,将每个单独的数据点放入自己的集群中,然后将相似的集群合并在一起。相比之下,分裂聚类采用相反的方法,假设所有数据点都在同一个聚类中,然后从那里划分相似的聚类。

这些聚类算法的及时用例是跟踪病毒。通过使用 DNA 分析,科学家们能够更好地了解突变率和传播模式。

分类算法

这种类型的机器学习算法类似于聚类,但是虽然聚类算法用于查找数据中的类别并将数据点分类到这些类别中,但分类算法将数据分类到预定义的类别中。

5. k-最近邻

不要与k均值聚类混淆,k近邻是一种模式分类方法,它查看呈现的数据,扫描所有过去的经验,并识别最相似的一个。

技术干货|你需要知道的 10 种常见机器学习算法_第5张图片

k最近邻通常用于信用卡交易中的活动分析,将交易与之前的交易进行比较。异常行为,例如使用信用卡在另一个国家/地区购物,可能会触发发卡机构欺诈检测部门的呼叫。这种机器学习算法也可以用于视觉模式识别,现在它经常被用作零售商防损策略的一部分。

6. 基于树的算法

基于树的算法,包括决策树、随机森林和梯度提升树,用于解决分类问题。决策树擅长理解具有许多分类变量的数据集,即使在某些数据缺失的情况下也能发挥作用。

技术干货|你需要知道的 10 种常见机器学习算法_第6张图片

它们主要用于预测建模,有助于营销,回答诸如“我们应该采取哪些策略?”之类的问题。决策树可能会帮助电子邮件营销人员根据特定优惠决定哪些客户更有可能订购。

随机森林算法使用多棵树来进行更完整的分析。在随机森林算法中,创建了多棵树,森林使用其树的平均决策进行预测。

梯度提升树(GBT) 也使用决策树,但依靠迭代方法来纠正单个决策树模型中的任何错误。GBT 被广泛认为是数据科学家可用的最强大的预测方法之一,制造商可以使用它来 优化产品或服务的定价 以获得最大利润,以及其他用例。

7.支持向量机

根据一些从业者的说法,支持向量机 (SVM)是最流行的机器学习算法。它是一种分类(或有时是回归)算法,用于将数据集分成类,例如,两个不同的类可能由划分类之间区别的线分隔。

技术干货|你需要知道的 10 种常见机器学习算法_第7张图片

可能有无数条线路可以完成这项工作,但 SVM 有助于找到最佳线路。数据科学家正在各种业务应用程序中使用 SVM,包括图像分类、人脸检测、手写识别和生物信息学。

8. 神经网络

神经网络是一组旨在识别模式并尽可能模仿人脑的算法。神经网络,就像大脑一样,能够适应不断变化的条件,即使是那些原本不打算的条件。

技术干货|你需要知道的 10 种常见机器学习算法_第8张图片

可以通过提供一组狗的图像训练来教神经网络识别狗的图像。一旦算法处理了训练集,它就可以将新图像分类为“狗”或“非狗”。然而,神经网络不仅仅适用于图像,还可以用于文本、音频、时间序列数据等。有许多不同类型的神经网络,都针对它们要处理的特定任务进行了优化。

神经网络的一些业务应用包括天气预报、人脸检测和识别、将语音转录为文本以及股市预测。营销人员正在使用神经网络来定位特定内容,并向最愿意对内容采取行动的客户提供优惠。

深度学习实际上是神经网络的一个子集,其中算法通过分析大型数据集来“学习”。深度学习有无数的商业用途,在许多情况下,它可以胜过更通用的机器学习算法。例如,深度学习通常不需要人工输入来创建特征,因此它擅长理解文本、语音和图像识别、自动驾驶以及许多其他用途。

其他需要注意的机器学习算法

除了上述类别之外,还有其他类型的算法可以在模型创建和训练过程中使用来帮助该过程,例如模糊匹配和特征选择算法。

9. 模糊匹配

模糊匹配是一种聚类算法,即使由于拼写错误等数据问题,即使项目不完全相同也可以进行匹配。对于一些自然语言处理任务,使用模糊匹配进行预处理可以将结果提高 3% 到 5%。

 

技术干货|你需要知道的 10 种常见机器学习算法_第9张图片

一个典型的用例是客户档案管理。模糊匹配可让您将非常相似的地址识别为相同地址,以便两个相似地址仅使用一个唯一的记录 ID 和源文件。

10. 特征选择算法

特征选择算法用于减少模型中输入参数的数量。较少数量的输入变量可以降低运行模型的计算成本,并提高模型的性能。

技术干货|你需要知道的 10 种常见机器学习算法_第10张图片

常用的技术(如PCAMRMR)对于从减少的特征子集中获取尽可能多的信息很有用。使用特征子集可能是有益的,因为您的模型可能不会被噪声混淆,并且算法的计算时间会减少。例如,特征选择已用于显示商业竞争对手的关系。

你可能感兴趣的:(人工智能,机器学习,算法,python)