原文:https://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/
在这篇文章中,我们将介绍最流行的机器学习算法。
浏览该领域的主要算法以了解可用的方法是有用的。
有很多算法可用,当算法名称被抛出时,它会感到压倒性的,并且您只需要知道它们是什么以及它们在哪里适合。
我想给你两种方法来思考和分类你可能在现场遇到的算法。
这两种方法都很有用,但我们将专注于按相似性对算法进行分组,并继续浏览各种不同的算法类型。
阅读本文后,您将更好地理解最受欢迎的监督式学习机器学习算法以及它们之间的关系。
最适合的线条的一个很酷的例子。弱成员是灰色的,组合预测是红色的。
算法可以根据与经验或环境的交互或任何我们想要调用输入数据的不同方式对问题建模。
它首先考虑算法可以采用的学习风格,这在机器学习和人工智能教科书中很受欢迎。
算法只有少数几种主要的学习方式或学习模型,我们将在这里介绍几种适合的算法和问题类型。
这种分类或组织机器学习算法的方法非常有用,因为它会强制您考虑输入数据和模型准备过程的角色,并选择最适合您问题的方法以获得最佳结果。
让我们来看看机器学习算法中的三种不同的学习风格:
输入数据称为训练数据,并且具有已知的标签或结果,例如垃圾邮件/非垃圾邮件或一次的股票价格。
模型是通过训练过程准备的,在训练过程中需要进行预测,并在预测错误时予以纠正。训练过程一直持续到模型达到培训数据所需的准确度。
示例问题是分类和回归。
示例算法包括Logistic回归和后向传播神经网络。
输入数据未标记,并且没有已知结果。
通过推导输入数据中存在的结构来准备模型。这可能是提取一般规则。它可能是通过数学过程系统地减少冗余,或者可能是通过相似性组织数据。
示例问题是聚类,降维和关联规则学习。
示例算法包括:Apriori算法和k-Means。
输入数据是标记和未标记示例的混合。
有一个理想的预测问题,但模型必须学习结构来组织数据以及做出预测。
示例问题是分类和回归。
示例算法是对其他灵活方法的扩展,这些方法对如何对未标记数据建模进行了假设。
在处理数据以对业务决策建模时,您通常使用有监督和无监督的学习方法。
目前的热门话题是半监督学习方法,如图像分类中存在大量数据集且只有极少数标记示例的领域。
算法通常根据它们的功能(它们如何工作)在相似性上进行分组。例如,基于树的方法和神经网络启发的方法。
我认为这是分组算法最有用的方法,这是我们在这里使用的方法。
这是一种有用的分组方法,但并不完美。还有一些算法可以很容易地适合多个类别,例如学习矢量量化,这既是一种神经网络启发方法,也是一种基于实例的方法。还有一些类别具有相同的名称来描述问题以及算法的类别,例如回归和聚类。
我们可以通过两次列出算法或选择主观上“最佳”的组来处理这些情况。我喜欢后一种不重复算法的方法来保持简单。
在本节中,我列出了许多流行的机器学习算法,按照我认为最直观的方式分组。这个列表在组或算法中并不详尽,但我认为它是有代表性的,并且对你了解土地的位置会有帮助。
请注意:对于用于分类和回归的算法存在强烈的偏见,这是您将遇到的两个最流行的监督机器学习问题。
如果您知道未列出的算法或一组算法,请将其放入评论中并与我们分享。让我们潜入。
回归关注模型化变量之间的关系,使用模型所做的预测中的误差度量来反复提炼。
回归方法是统计学的主力,并且已被引入统计机器学习。这可能令人困惑,因为我们可以使用回归来指代问题的类别和算法的类别。真的,回归是一个过程。
最流行的回归算法是:
基于实例的学习模型是一个决策问题,其中包含对模型认为重要或需要的培训数据的实例或示例。
这些方法通常建立一个示例数据的数据库,并使用相似性度量将新数据与数据库进行比较,以便找到最佳匹配并进行预测。基于这个原因,基于实例的方法也被称为赢家通吃方法和基于记忆的学习。重点放在存储实例的表示和实例之间使用的相似性度量上。
最流行的基于实例的算法是:
对另一种方法(通常是回归方法)进行了扩展,该方法根据其复杂性对模型进行惩罚,以利于简化模型,这些模型在泛化时也更好。
我在这里单独列出了正则化算法,因为它们是流行的,功能强大且对其他方法进行的一般简单修改。
最流行的正则化算法是:
决策树方法根据数据中属性的实际值构建决策模型。
决策分叉树形结构,直到对给定记录做出预测决定。针对分类和回归问题的数据对决策树进行了训练。决策树通常是快速和准确的,并且是机器学习中的大热门。
最流行的决策树算法是:
贝叶斯方法是那些显式应用贝叶斯定理的问题,如分类和回归。
最流行的贝叶斯算法是:
类似回归的聚类描述了问题的类别和方法的类别。
聚类方法通常由建模方法组织,例如基于质心和分层的方法。所有的方法都与使用数据中的固有结构来最好地将数据组织成最大共同性组。
最流行的聚类算法是:
关联规则学习方法提取最能解释数据中变量之间观察关系的规则。
这些规则可以发现大型多维数据集中重要且商业上有用的关联,这些关联可以被组织利用。
最流行的关联规则学习算法是:
人工神经网络是受生物神经网络的结构和/或功能启发的模型。
它们是一类模式匹配,通常用于回归和分类问题,但实际上是一个巨大的子域,包含数百种算法和各种问题类型的变体。
请注意,由于该领域的大规模增长和普及,我已将神经网络的深度学习分离出来。这里我们关注的是更经典的方法。
最流行的人工神经网络算法是:
深度学习方法是对人工神经网络的现代更新,它利用了丰富的廉价计算。
他们关心的是构建更大更复杂的神经网络,并且如上所述,许多方法都涉及半监督学习问题,其中大数据集包含非常少的标记数据。
最流行的深度学习算法是:
与聚类方法一样,降维也寻求和利用数据中的固有结构,但是在这种情况下,可以以无监督的方式或命令来总结或描述使用较少信息的数据。
这对于可视化尺寸数据或简化可以用于监督学习方法的数据非常有用。许多这些方法可以适用于分类和回归。
集合方法是由多个较弱模型组成的模型,这些模型是独立训练的,其预测以某种方式进行组合以作出整体预测。
对哪些类型的弱学习者进行组合以及如何组合它们的方式付出了很大的努力。这是一种非常强大的技术,因此非常受欢迎。
许多算法没有涉及。
例如,支持矢量机器会进入哪个组?它自己的?
我没有在机器学习过程中涵盖专业任务的算法,例如:
我也没有涵盖机器学习专业子领域的算法,例如:
这些可能会在未来的帖子中提及
这个机器学习算法的目的是为了给你一个关于如何将算法相互关联的概念和一些想法。
我已经收集了一些资源,供您继续阅读算法。如果您有任何具体问题,请留下评论。
如果你有兴趣,还有其他很多算法。以下是几个手选的例子。
算法是机器学习的重要组成部分。这是我在这个博客上热烈讨论和写作的主题。以下是您可能感兴趣的进一步阅读的一些手选职位。
有时你只是想潜入代码。下面是一些链接,您可以使用它们运行机器学习算法,使用标准库对其进行编码或从头开始实施。