【机器学习】机器学习解释:算法是你的朋友

原文:https://blog.dataiku.com/machine-learning-explained-algorithms-are-your-friend

        我们近来常常听到术语“机器学习”,通常是在预测分析和人工智能的背景下。机器学习或多或少地是计算机学习东西而不被专门编程的一种方式。但是,这实际上是如何发生的?
总之,答案是算法。算法是一组计算机能够遵循的规则。想想你是如何学会做长分的 - 也许你学会了将分母作为分子的第一个数字,然后减去小数并继续下一个数字,直到剩下一个余数。那么,这是一种算法,它就是我们可以编入计算机的那种东西,它可以执行这些计算,速度比我们快得多
【机器学习】机器学习解释:算法是你的朋友_第1张图片

机器学习是什么样的?

        在机器学习中,我们的目标是预测或聚类。今天,我们将关注预测(我们将在未来的文章中介绍集群)。预测是一个过程,从一组输入变量中,我们估计一个输出变量的值。例如,使用一套房子的特征,我们可以预测其销售价格。预测问题分为两大类: 
        回归  问题,其中要预测的变量是数字(例如房屋的价格)
        分类  问题,其中要预测的变量是一些预定义类别之一的一部分,其可以像“是”或“否”一样简单。(例如,预测某个设备是否会遇到机械故障)
        考虑到这一点,今天我们不会透露一个比计算机更好地预测预测的秘密,或者甚至不知道如何成为数据科学家!我们要做的是介绍历史和今天机器学习中使用的最突出和最常用的算法。

这些算法分为三组:线性模型基于树的模型神经网络

线性模型方法

        甲线性模型使用了一个简单的公式来找到通过一组数据点的“最佳配合”行。这种方法可以追溯到200多年,在统计和机器学习中广泛使用。由于其简单性 - 您想要预测的变量(因变量)被表示为您所了解的变量方程(自变量),因此它对统计很有用,因此预测只是输入自变量的问题,该等式吐出答案。

        例如,您可能想知道烤蛋糕需要多长时间,并且您的回归分析可能产生一个方程t = 0.5x + 0.25y,其中t是以小时为单位的烘焙时间,x是蛋糕的重量以千克为单位的面糊,y是一个变量,如果是巧克力,则变量为1,否则为0。如果你有1公斤的巧克力蛋糕面糊(我们喜欢蛋糕),那么你将你的变量插入我们的等式中,并且你得到t =(0.5×1)+(0.25×1)= 0.75小时或45分钟。

线性回归

        线性回归,或更具体地说“最小二乘回归”是线性模型的最标准形式。对于回归问题,线性回归是最简单的线性模型。它的缺点是模型存在“过度拟合”的趋势 - 也就是说,该模型过于精确地适应了它所训练的数据,而忽略了对先前未见的数据进行推广的能力。出于这个原因,机器学习中的线性回归(连同逻辑回归,我们将在第二秒中得到)通常是“正规化的”,这意味着该模型具有一定的处罚以防止过度使用。

线性模型的另一个 缺点是,由于 它们非常简单,当输入变量不独立时,它们往往难以预测更复杂的行为。


Logistic回归

        逻辑回归就是 将线性回归适应分类问题(再次讨论上面)。逻辑回归的 缺点与线性回归的缺点相同
        因为它 将值映射到0和1之间,所以它 适用于分类问题,因为它可以 表示在每个类中的可能性


基于树的模型方法

当你听到基于树的时候,想一想决策树,即一系列分支操作。

决策树

         一个决策树是使用一个分支方法来显示一个决策的每个可能结果的图表。就像你要点沙拉一样,你首先要决定莴苣的类型,然后是调料,然后是调味品。我们可以在决策树中表示所有可能的结果。在机器学习中,使用的分支是二进制是/否答案。

        为了训练一个决策树,我们采用训练数据集(也就是我们用来训练模型的数据集),并找到哪个属性能够最好地将训练集与目标进行“拆分”。例如,在欺诈检测案例中,我们可以发现最能预测欺诈风险的属性就是国家。在第一次分割之后,我们有两个子集,如果我们只知道第一个属性,那么这两个子集在预测方面是最好的。然后,我们可以迭代每个子集的次优属性并对每个子集进行resplit,直到我们已经使用足够多的属性来满足我们的需求。

随机森林

         一个随机森林是许多决策树,每个与数据的随机样本训练有素的平均值。森林中的每棵树都比完整的决策树弱,但通过将它们放在一起,我们可以通过多样性获得更好的整体性能。

        随机森林是当今机器学习中非常流行的算法。训练很容易,而且表现很好。它的缺点是相对于其他算法输出预测的速度可能会很慢,所以当您需要快速预测时可能不会使用它。


梯度提升

        像随机森林一样,梯度提升也是由“弱”决策树决定的。最大的区别在于,在梯度提升中,树木被相继训练。每个后续树都主要用前一棵树错误预测的数据进行训练。这可以使梯度提升逐渐减少对易于预测的病例的关注程度,对困难病例的关注程度更高。
        渐变增强效果非常好。但是,训练数据集中的小改动可能会在模型中产生根本性改变,因此可能无法产生最可解释的结果。


神经网络

        神经网络是指 由相互交换信息的互相连接的神经元组成的生物现象。这个想法现在已经适应了机器学习的世界,被称为ANN(人工神经网络)。您深入了解的深度学习可以通过多层神经网络来完成。


        人工神经网络是一系列被教导采用认知技能的模型。没有其他算法可以处理极其复杂的任务,如图像识别以及神经网络。然而,就像人脑一样,训练模型需要很长时间,而且需要很多力量(只要想一想我们吃了多少东西就能保持我们的大脑正常工作!)。

你可能感兴趣的:(机器学习,简介,Machine,Learning,机器学习算法理论与实战)