机器学习算法应用于生活中的方方面面,如网页搜索、照片标记、反垃圾邮件。
机器学习起源于AI。
为了创造智能的机器,传统的编程只能让机器做一些基本的事情,如求两点之间的最短路径。但如果让机器自己学习,则可以做更多有趣的事情,如上述的三个例子。
因此,机器学习是计算机开发的一项新功能,如今已涉及工业和基础科学的许多领域。
机器学习起源于AI,通俗来说就是让机器自己学习,目的是为了使得机器更加智能。
目前机器学习已经有了非常广泛的应用。
机器学习的一种较为正式的定义是:一个程序从经验E中学习,解决任务T。用P进行性能度量,通过P测定,程序在解决任务T上表现因经验E而提高。
比如对于阿尔法Go,经验E就是程序多次自我练习的经验,任务T就是下棋,性能度量P就是它在与新对手下棋时赢的概率。
本课程将花很多时间给出应用所学到的学习算法的实用建议和实践经验,使读者学会如何使用工具。
机器学习的一种定义是:一个程序从经验E中学习,解决任务T,用P进行性能度量。通过P测定,程序在解决任务T上表现因经验E而提高。
机器学习算法主要分为监督学习和无监督学习。
除了学习算法本身之外,学会如何实践算法也同样重要。
监督学习指的就是给学习算法一个数据集,其中包含了正确答案,算法的任务是给出更多的正确答案。
比如对于预测房价,给定一个房价数据集,已知数据集中每个样本的面积和实际卖价,然后运用学习算法得出新房子的卖价。
比如对于预测乳腺癌良性与否,给定一个乳腺癌数据集,已知数据集中每个样本的肿瘤大小和良性与否,然后运用学习算法得出新肿瘤是否为良性。
用更专业术语来讲,上述预测房价的问题叫做回归问题。
回归问题指的是预测一个连续值的结果,即房子的价格。(通常可以把房价看成实数,即连续值。)
用更专业术语来讲,上述预测乳腺癌良性与否的问题叫做分类问题。
分类问题指的是预测一个离散值的结果,即良性或恶性。
当然在分类问题中有时也可以有两个以上可能的结果。
在这个例子中,只使用了一个特征(属性)进行预测,在其他机器学习问题中也可能会有多个特征(属性)。
监督学习指的就是给学习算法一个数据集,其中包含了正确答案,算法的任务是给出更多的正确答案。
回归问题指的是目标是预测一个连续值的输出。
分类问题指的是目标是预测一个离散值的输出。
不同于监督学习的数据,无监督学习中的数据没有标签。不知道数据是什么,不知道数据有哪些类型,也不知道可以用数据集做什么,而是需要从中找到某种结构。
聚类算法是一种无监督学习算法,就是把数据分成若干个不同的簇。
鸡尾酒会算法也是一种无监督学习算法,指的是根据给定的混合声音信号,分离出鸡尾酒会中同时说话的每个人独立的声音信号。
无监督学习中的数据没有标签,算法需要从中其中找到某种结构。
聚类算法和鸡尾酒会算法都是无监督学习算法。