深度之眼《机器学习》作业班:初识机器学习

提要:深度之眼赠送了一门基础入门课,趁此机会,我可以巩固自己的基础,并且培养一下写博客的能力和习惯。

为什么要学习机器学习

在传统编程中,我们可以用if-else来编写各种逻辑,来完成如一个银行转账系统的程序等。我们也可以制作一个井字棋小程序,规定每种棋局的情况下,我们的PC应该下哪步棋。但是,在很多情况下,比如在吴恩达参与的直升机飞行研究中,人类根本没有那个精力和能力去写一个覆盖所有情况的硬编码(hard coding)自动判断系统,所以,我们需要让机器来自己学习相应的规则,这就是机器学习(Machine Learning)所干的事。

现在有许许多多的应用使用了机器学习技术,比如人像美颜,Google搜索引擎(Search Engine),百度机器翻译(Machine Translation)等等,诸如数据挖掘、非结构化数据的处理、个性化定制的程序如推荐系统等等应用领域也使得人工智能非常流行,而机器学习就是人工智能的一个重要技术

什么是机器学习

机器学习的一个正规的定义是:一个程序从经验E中学习,用来解决任务T,达到性能度量值P,当且仅当有了经验E后,经过P评判,程序在解决T时的性能有所提升。(A computer program is said to learn from Exerience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.)

这个定义很抽象,我们用一个具体的例子来理解:在一个下棋的AI程序中,历史的棋局是经验,程序的任务是下棋取胜,而性能度量值就是胜率,通过不断地尝试学习下棋,程序最终能达到一个较好的胜率。

机器学习有几个分支,包括:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 弱监督学习
  • 强化学习
  • 推荐系统等
    这些分支即有互补,也可能互相交叉,不一定严格区分开。

在吴恩达的这门课中,他不仅仅只教授线性回归、逻辑回归等这些算法工具,也教导了机器学习中的实践经验,他觉得教会学生怎么使用工具才是最重要的

监督学习与无监督学习

首先,假设我们有一些关于要处理的任务的数据,比如这个任务是预测房价,那么这些数据就是和房子相关的一些特性如面积、卧室数量等等,我们用表格将数据列出来:

面积 卧室
80 3
120 4

这个简易的表可以继续扩展更多的列和行,每个列我们称之为一个属性(atrribute)或特征(feature),每个行我们就称为一条数据。我们将所有数据统称为数据集(dataset)。每一条数据可表示为如(80,3, …)这样的向量。

监督学习

监督学习(supervised learning) 中,数据集中的每一条数据是有确定的答案的,也就是对于一条特定的房屋数据,会给定该房屋的价格,这个价格就被称为标签(label),即我们在预测时的目标,此时,我们的数据长这样:

面积 卧室 价格
80 3 1000000
120 4 1500000

用向量来表示一条数据:(80, 3, 1000000),即(x1, x2, y)。

监督学习的模型通过拟合标签和输入数据之间的关系,来得到预测能力,比如在这样的一个数据上:深度之眼《机器学习》作业班:初识机器学习_第1张图片
标签是房价,而输入数据只有一个特征,即面积。模型就能通过学习数据的分布来拟合数据。这个学习的过程我们称为训练(training),我们也能通过训练好的模型对输入进行预测,得到相应的输出。这个过程我们称为推理(inference)。如图,拟合好的模型可以是一个二次函数或者一个线性函数。

监督学习主要分为两类任务,一类是预测输出为连续值的任务,称为回归(regression),比如预测房价,房价可以是从0到很大的一个数中的任意值。一类是预测输出为离散值的任务,称为分类(classification),比如判断一个人是否生病,只能存在是或者否共两种情况。

无监督学习

无监督学习(unsupervised learning) 中,数据集没有标签而只有特征。
无监督学习要做的就是从数据中发现一些模式和关联,挖掘数据中的潜在价值。常见的应用比如有通过聚类算法来将新闻自动分类,算法并不知道自己分出来的文章属于时尚类别还是军事类别,它所做的就是将相似的文章聚类到一起。又比如在市场营销中将相似的客户聚类到一起,由此来判断细分市场的用户类型等。

总结

本次课程主要是介绍了机器学习及其相关的几个概念,为今后的理论学习进行预热~

你可能感兴趣的:(机器学习,机器学习,coursera)