你绝对能懂的“机器学习”(五)

你绝对能懂的“机器学习”(五)_第1张图片

我们发展人工智能,核心目的是为了用人工智能来解决我们日常工作生活中的各种问题,机器学习当然也不例外。那机器学习适合解决哪些问题呢?

 

首先,我们一定要知道,机器学习不是万能的。你要问机器学习能不能解决光速星际旅行,能不能造出飞碟、宇宙飞船、火箭,我肯定的说不能。你要问机器学习能不能预测房价、股市的涨跌,我只能说可能行,但非常难实现。因为涉及因素太多,训练出来的模型不可能精确。

 

其次,我们要认识到日常工作生活中的最大任务是“决策”不管是商业上的决策,上不上这个产品,投不投这个项目,要不要加大营销力度。还是工作生活中的决策,上哪个大学,学什么专业,买不买房,上哪吃饭,看不看电影等等。我们无时无刻不在做着“决策”。

 

最后,“决策”背后的本质是“分类”这些房子好,那些房子差,这个电影好看,那个不好看,这个餐馆好吃,那个餐馆不好吃。有了“分类”,是不是决策起来就容易的多,而我们“决策”的过程本质上就是一个“分类”的过程。


所以,机器学习的主要任务就是分类


我们以前介绍过,机器学习就是让计算机学会利用过往的经验完成指定任务。我们的目的是完成指定任务。但当时我们对指定任务是什么并没有说明。

 

这个指定任务一般分为3类:分类,聚类,回归。也就是说机器学习的任务就是完成这3类指定任务,其中分类是核心


我们知道,开展机器学习有个前提:必须有过往的经验,或者说有过往的数据。这个数据的集合叫数据集。数据集的一般形式是:

序号

属性1

属性2

……

结果标记

1. 





2. 





3. 





………

………

………

………

………

 

注意这个结果标记。如果结果标记是类别数据,那么机器学习的主要任务就是分类。如果是结果标记是数值数据,那么机器学习的主要任务就是回归。如果没有结果标记,而是需要将数据集分成不同的类别,那么机器学习的主要任务就是聚类

 

举个鸟物种例子:

序号

体重

(克)

翼展

(厘米)

脚蹼

后背

颜色

种属

1. 

1000.1

125.0

棕色

红尾鸟

2. 

3000.7

200.0

灰色

鹭鹰

3. 

3300.0

220.3

灰色

鹭鹰

4. 

4100.0

136.0

黑色

潜鸟

5. 

3.0

11.0

绿色

蜂鸟

6. 

5.0

13.0

绿色

蜂鸟

7. 

570.0

75.0

黑色

啄木鸟

8. 

600.0

77.0

黑色

啄木鸟

……

……

……

……

……

……

 

这个数据集的结果标记是红尾鸟、蜂鸟、啄木鸟等,属于类别数据。如果我们找到一种鸟,测量其体重、翼展、脚蹼、后背颜色4个属性数据,例如是550克,74cm,无,黑色,通过机器学习就可以判定这种鸟属于啄木鸟。

 

像这样的机器学习任务就是“分类”

 

我们再看个一个北京二手房的例子:

序号

面积

(平方米)

区域

学区

装修

价格

(万元)

1. 

39

西城

690

2. 

44

海淀

精装

440

3. 

50

大兴

简装

150

4. 

78

东城

精装

510

5. 

90

房山

精装

270

6. 

100

丰台

精装

430

……

……

……

……

……

……

 

这个数据集的结果标记690万元、440万元等属于数值数据。如果我们要买一套二手房,希望了解其大致价格,通过面积、区域、学区、装修4个属性数据,通过机器学习就可以预测这个二手房的价格是多少,这个任务就是“回归”。

 

至于为什么叫“回归”,这个是舶来词,是英文“regression”翻译过来的。翻译词的特点是带有原词的主要含义,但与原词表达的意思又不完全一样,甚至从中文字面上难以理解,例如大家最熟悉的函数,就是function的翻译词,在我们中学刚学“函数”这个词时,其含义并不是那么显而易见的。回归(regression)也一样,不好直白理解。简单化理解就像“地理上的回归线”一样,“回去归来,回归于事物的本来面目”。

 

也不用太纠结,在机器学习中,你记住以后看到需要预测出来的结果标记为数值型的,例如房价,体重,股票价格等,也就是与“实数”相关的,就叫做“回归”。

 

对于“聚类”,用个比较形象的词语就是“人以类聚,物以群分”。聚类不是用来做预测的,而是对事物进行“分门别类”的。例如前面那个鸟物种的例子,你现在是鸟类专家,抓住了1000只鸟,你根据这些鸟的特征,对这些鸟分别进行观察,长的很像的就聚为一类,例如有长嘴巴的就聚为啄木鸟类,有红尾巴的就聚为红尾鸟类。你办公室里有30名同事,你爱好抽烟,你根据观察和测试,逐渐把这30人聚成了抽烟和不抽烟的2类,于是工间休息期间你就知道找抽烟的那一类人。当然,你还可以把这30人聚成抽烟的、偶尔抽一下的、完全不抽的3类人。你还可以根据打羽毛球把30名同事分成会打的、不会打的2类,或者很会打的,一般的,完全不会的3类。也就是说聚类的个数和每个类别的内容是不定的,根据你的实际需要确定。

你可能感兴趣的:(机器学习)