《Hands-On Machine Learning》学习笔记-1.1 什么是机器学习

第一章 机器学习概述

当大多数人听到“机器学习“的字眼时,他们往往会想到机器人:一个可靠的管家,或者致命的终结者,这取决于你问谁。但是机器学习不仅仅是科幻,它已经真实存在。事实上,在一些特定的应用中,它已经存在了几十年了,比如OCR(光学字符识别)。但是第一个真正成为主流的,改变成千上万人生活的机器学习应用可以追溯到20世纪90年代:即垃圾邮件过滤。尽管它不是一个有着自我意识的天网程序,但是从技术的角度,它仍可以称作是机器学习(事实上,它已经“学习“的足够好了,你甚至都不需要再手动去标记一封邮件为垃圾邮件了)。在它之后,涌现了数百种机器学习的应用,他们无声无息的加强了我们经常用到的一些产品或者特性,比如更好的推荐,语音搜索等。

机器学习从哪里开始的?其最终宿命又会是怎样的?对于一台机器而言,学习到底意味着什么?如果我才Wikipedia上下载了一份拷贝,我的计算机真的“学习”了么?它突然变聪明了么?这一章我们就先讲讲机器学习到底是什么以及为什么你会想要使用它。

在我们出发探索机器学习的大陆之前,我们会先看看地图,了解以下主要的地区和最著名的地标:有监督学习和无监督学习,在线学习和批量学习,基于样例的学习和基于模型的学习。然后我们会学习一个典型的机器学习项目的工作流,讨论你可能会面临的主要挑战,然后再讲如何评价和微调一个机器学习系统。

这章会介绍一些基本概念,每一个数据科学家都应该烂熟于心。本章是一个概述性的章节,比较简单,但是在进行后续章节的学习之前,你必须保证所有的内容你都了然。

什么是机器学习

机器学习是编码的科学(或者艺术),它能够从数据中学习。

稍微通用一点的定义是:

机器学习研究不通过明确的编码而给予计算机学习的能力

​ Arthur Samuel, 1959

还有一个更加工程化的定义:

一个计算机程序能够从经验E中学习(学习任务是T,学习的表现用P衡量),如果这个程序在任务T与表现衡量P下,可以通过经验E得到改进

例如,你的垃圾邮件过滤器就是个机器学习程序,通过学习哪些是垃圾邮件,那些是正常邮件,它能够帮助我们完成垃圾邮件的识别。系统用来学习的例子集被称为“训练集”,训练集中的每个例子被称为训练样本。在这个例子中,任务T是识别新邮件是否为垃圾邮件,经验E就是训练集,学习表现P需要定义,例如,你可以使用正确分类的比例来衡量。指定的衡量标准被称为“准确率”,常常用在分类任务中。

如果你仅仅是下载了一份Wikipedia,你的计算机只是多存储了一些数据而已,它并不会因此而变得更擅长某项任务,因此,这不能称之为机器学习。

你可能感兴趣的:(Hands-On,Machine,Learning学习笔记)