西瓜书学习记录(一)

什么是机器学习:

人们的“经验”对应计算机中的“数据”,让计算机来学习这些数据经验,让计算机来学习这些数据经验,生成一个算法,让计算机在遇到新情况下,计算机便能有效地做出判断,这就是机器学习。

基本的术语

首先要收集一批西瓜的数据(例如:色泽,根蒂,敲声)

所有记录的集合叫做数据集,

一个记录叫做:一个实例(instance)或一个样本(sample)

每个单点为特征或属性(如色泽青黑)

 对于一条记录,如果在坐标轴上表示,每个西瓜都可以用坐标轴中的一个点表示,一个点也是一个向量,例如(青绿,蜷缩,浊响),即每个西瓜为:一个特征向量(feature vector)。
 一个样本的特征数为:维数(dimensionality),该西瓜的例子维数为3,当维数非常大时,也就是现在说的“维数灾难”。

计算机中的学习和训练生成某个算法的过程中,每一个训练样本叫做“训练样本”,通过学得模型后,使用其进行预测的过程叫做测试,被预测的样本叫做“测试样本”,可以定义出:

所有训练的样本集合叫做:训练集(特殊)

所有测试的样本集合叫做:测试集(一般)

机器学习训练出来的东西可以进行预测新的样本这种能力叫做:泛化能力(特殊—>一般)

西瓜的例子,我们是想计算机通过学习西瓜的特征数据,训练出一个决策模型,来判断一个西瓜的好坏,可得知我们的预测西瓜是好瓜还是坏瓜,即好瓜和坏瓜两种,为离散值;同样的通过前几年人口数量预测今年人口数量,人口数量是连续值,定义:

预测值为离散值的问题称为:分类(classification)

预测值为连续值的问题称为:回归(regression)

我们预测西瓜是否是好瓜的过程中,很明显对于训练集中的西瓜,我们已经知道西瓜是好瓜还是坏瓜,机器学习通过学习这些好瓜还是坏瓜的特征来进行预测,即训练集中的西瓜我们都做了标记,称为标记信息。但也有没有标记信息的情形,例如:我们想将一堆西瓜根据特征分成两个小堆,使得某一堆的西瓜尽可能相似,即都是好瓜还是坏瓜,对于这种问题,我们事先并不知道西瓜的好坏,样本没有标记信息。定义:

训练数据有标记信息的学习任务为:监督学习(supervised learning),容易知道上面所描述的分类和回归都是监督学习的范畴。

训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
 

 

你可能感兴趣的:(西瓜书学习记录(一))