机器学习算法的分类

机器学习中的算法多样且分类标准众多。基于算法的学习方式进行分类,可以分成监督学习无监督学习半监督学习强化学习四种。
不准确之处多多指教

监督学习 Supervised Learning

数据集带有明确的标签。算法用数据集来学习数据的分布,以概率函数、代数函数或人工神经网络作为基函数模型,学习的结果为一个函数。例如给定猫狗的图片和标签训练模型。这个模型你可以用线性回归、非线性回归或者神经网络等其他具体的算法都可以,训练好了之后就得到了一个函数。然后利用训练好的模型预测一个新的图片是猫还是狗。

无监督学习 Unsupervised Learning

数据集没有明确的标签。目的是推断出数据的一些内在结构和关系。比如一个人没有见过恐龙和鲨鱼,如果给他看了大量的恐龙和鲨鱼,虽然他没有恐龙和鲨鱼的概念,但是他能够观察出每个物种的共性和两个物种间的区别的,并对这两种动物予以区分。

半监督学习 Semi-supervised Learning

数据集部分有标签部分没有标签。这类的算法意图从有标签数据中学习到数据分布,然后再对未标签的数据进行打标签。如果数据集中全部是有标签数据,则就变成了监督学习算法;如果数据集中全部是无标签数据,则变成无监督学习算法。

强化学习 Reinforcement Learning

强化学习的数据集没有给定标签,但是有一个回报函数,这个回报函数可以告诉模型当前状态是离目标越来越近还是越来越远。模型最终目标是将数据集作为环境奖励惩罚输入,来最优化回报函数的期望。通过不断激励与惩罚,达到最终目的。类似生活中,女朋友不断调教直男友变成暖男的过程。

这类算法与监督学习相似,但有所不同。

①输入的数据不同。监督学习的数据集是给定标签的,但模型一开始是不知道标签是什么,只有到最后将输出标签和真实标签进行对比时才知道。
②反馈机制。监督学习有反馈,无监督学习无反馈,强化学习是执行多步之后才反馈。
③目标不一样。强化学习看重的是行为序列下的长期收益,而监督学习往往关注的是和标签或已知输出的误差。
④强化学习的奖惩概念是没有正确或错误之分的,而监督学习标签就是正确的,并且强化学习是一个学习+决策的过程,有和环境交互的能力(交互的结果以惩罚的形式返回),而监督学习不具备。

再以男女朋友为例子。

假如女朋友使用监督学习的方式训练男朋友。女朋友会明确告诉男朋友,哪些哪些是暖男行为,哪些哪些是直男行为,并期望男朋友能从这些举例中举一反三。下次当女朋友说自己肚子不舒服的时候,男朋友能从之前列举的例子中学习到:这个时候说多喝热水是直男行为,马上煮姜茶买暖宝宝是暖男行为。

假如女朋友使用强化学习的方式训练男朋友。女朋友不会一开始就列举一大堆哪些哪些行为是暖男还是直男。而是在交往过程中,每一次和男朋友互动之后,根据男朋友做出的反应给予惩罚或奖励,让男朋友自己发现哪些行为是暖男哪些行为是直男。例如某次男朋友说多喝热水,女朋友就三天不理男方了。如果某次男朋友马上嘘寒问暖,女朋友就很开心亲了男朋友。不管是女朋友不理男方还是开心亲了男方,这都是一个反馈(回报/奖惩)。

你可能感兴趣的:(学习杂谈,机器学习与人工智能)