机器学习,是基于已有的数据学出一个AI模型函数来,再将新数据输入到AI模型函数里去做预测。
所谓机器学习,就是我们通过编写程序,让机器具有学习能力。之后我们开始教导,训练机器,让它实现某种功能。
假如说我们希望机器具有图像识别的功能,我们通过给机器看各种生物的图片,并告诉它图片上的是什么生物进行训练。训练完之后,当我们给它看有关猫的图片时,我们希望它能认识这张图片里的生物是一只猫。
所以,机器学习就是寻找一个函数(function),但我们向机器输入数据时,机器通过这个函数,得出我们想要的结果。那么如何寻找这个函数呢?
我们以上述的例子为例,首先我们需要有一个函数集合,当你向这些函数输入同一张图片时,它们可能会有不同的输出。比如你输入一张猫的图片,有的就能识别出它是一只猫,而有的却认为它是一只狗。
接下来,我们需要机器识别哪些是好的函数,哪些是不好的函数。我们就需要准备一个训练集,它有输入和输出组成。当我们将训练集的输入通过函数集合得到各个输出后。函数的输出和实际输出进行对比,正确率高的即为好的函数,此时机器就有了识别函数好坏的能力。
虽然机器能够识别函数的好坏,但是一个函数集合里的函数太多了,一个一个判断会非常浪费时间。所以我们需要一个有效率的演算法,它能从函数集合里快速挑出一个最好的函数。
在找到这个最好的函数后,我们就可以运用它进行新的图像识别。
总的来说,机器学习的构建分为三个步骤
监督学习是从标记的训练数据来推断一个功能的机器学习任务。
监督学习需要大量的带有输入(input)输出(output)的训练数据对机器进行训练。有时候output无法用很自然的方式取得,需要用人力标注出来,这些output就称为标签(label)
监督学习有两个任务:回归(Regression)和分类(Classification)。回归和分类的区别在于一个输出的是数值,一个输出的类别。
举个例子,我们通过监督学习进行股票价格预测,其输出是未来某天的股票价格的数值,这就是回归。
而分类问题,可以分为两种,一种二分类问题,其输出是是或否,一种是多分类问题,从多个类别中输出一个类别。
举例来说,我们判断一个邮件是否为垃圾邮件,它的输出结果只有是或不是,这就是一个二分类问题。
而我们需要判断一个垃圾是什么类别垃圾,它的输出有多个比如:可回收垃圾,不可回收垃圾,有害垃圾等等,这就是一个多分类问题。
监督学习的模型有很多,最简单的是线性模型(Linear Model),而在机器学习中主要使用的非线性模型(Non-linear Model),包括深度学习(Deep Learning),svm,决策树等等。
半监督学习是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
相较于监督学习,半监督学习并不需要所有的训练数据都有label,这些没有label的数据,可能也对学习有帮助。
迁移学习指的是一个预训练的模型被重新用在另一个任务中。
根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
监督学习会告诉机器正确的输出是什么,而强化学习没有正确的输出,机器所拥有的只有一个分数,就是它做的好还是不好。
例如,让机器和客人进行对话,最后客人很生气的把电话挂了,那么机器就对此判断刚才的对话有错误。当它不知道哪里做的不好,它要回去反省检讨哪一步做得不好。