机器学习笔记1一概念和基本术语

在公司实习，按照公司要求开始学习有关机器学习和神经网络的知识，在此做些笔记。

参考教材：周志华机器学习，吴恩达教程。

1.什么是机器学习

机器学习即根据学习算法对数据处理，从而产生模型，我们能让模型帮助我们做一些判断，比如西瓜甜不甜，数据集就是西瓜大小，颜色等等。

1.机器学习的基本术语

数据集（data set）：一组记录的合集。D ={X1,X2,X3,X4}表示包含m个示例的数据集

示例（instance）：对于某个对象的描述。每个示例有d个属性组成，如西瓜属性：色泽，根蒂，敲声

样本（sample）：也叫示例

属性（attribute）：对象的某方便表现或特征。如人的属性为：身高，体重(这就像‘对象’)

特征feature）：同属性

属性值（attribute value）：属性上的取值，如:身高180

属性空间/样本空间/输入空间（attribute space/samplespace）：由属性构成空间

特征向量（feature vector）：在属性空间里每个点对应一个坐标向量，把一个示例称作特征向量

维数（dimensionality）：描述样本参数的个数（也就是空间是几维的

学习（learning）/训练（training）：从数据中学得模型

训练数据（training data）：训练过程中用到的数据

训练样本（training sample）:训练用到的每个样本

训练集（training set）：训练样本组成的集合

假设（hypothesis）：学习模型对应了关于数据的某种潜在规则

真相（group-true）:真正存在的潜在规律

学习器（learner）：模型的另一种叫法，把学习算法在给定数据和参数空间的实例化

预测（prediction）：判断一个东西的属性

标记（label）：关于示例的结果信息，比如我是一个“好人”。

样例（example）：拥有标记的示例

标记空间/输出空间（label space）：所有标记的集合

分类（classification）：预测时离散值，比如把人分为好人和坏人之类的学习任务

回归（regression）：预测值时连续值，比如你的好人程度达到了0.9，0.6之类的

二分类（binary classification）：只涉及两个类别的分类任务

正类（positive class）：二分类里的一个

反类（negative class）：二分类里的另外一个

多分类（multi-class classification）：涉及多个类别的分类

测试（testing）：学习到模型之后对样本进行预测的过程

测试样本（testing sample）：被预测的样本

聚类（clustering）：把训练集中的对象分为若干组

簇（cluster）：每一个组叫簇

监督学习（supervised learning）：典范--分类和回归

无监督学习（unsupervised learning）：典范--聚类

未见示例（unseen instance）：“新样本“，没训练过的样本

泛化（generalization）能力：学得的模型适用于新样本的能力

分布（distribution）：样本空间的全体样本服从的一种规律