机器学习笔记1一概念和基本术语

在公司实习,按照公司要求开始学习有关机器学习和神经网络的知识,在此做些笔记。

参考教材:周志华机器学习,吴恩达教程。

1.什么是机器学习

机器学习即根据学习算法对数据处理,从而产生模型,我们能让模型帮助我们做一些判断,比如西瓜甜不甜,数据集就是西瓜大小,颜色等等。

1.机器学习的基本术语

数据集(data set):一组记录的合集。D ={X1,X2,X3,X4}表示包含m个示例的数据集

示例(instance):对于某个对象的描述。每个示例有d个属性组成,如西瓜属性:色泽,根蒂,敲声

样本(sample):也叫示例

属性(attribute):对象的某方便表现或特征。如人的属性为:身高,体重(这就像‘对象’)

特征feature):同属性

属性值(attribute value):属性上的取值,如:身高180

属性空间/样本空间/输入空间(attribute space/samplespace):由属性构成空间

特征向量(feature vector):在属性空间里每个点对应一个坐标向量,把一个示例称作特征向量

维数(dimensionality):描述样本参数的个数(也就是空间是几维的

学习(learning)/训练(training):从数据中学得模型

训练数据(training data):训练过程中用到的数据

训练样本(training sample):训练用到的每个样本

训练集(training set):训练样本组成的集合

假设(hypothesis):学习模型对应了关于数据的某种潜在规则

真相(group-true):真正存在的潜在规律

学习器(learner):模型的另一种叫法,把学习算法在给定数据和参数空间的实例化

预测(prediction):判断一个东西的属性

标记(label):关于示例的结果信息,比如我是一个“好人”。

样例(example):拥有标记的示例

标记空间/输出空间(label space):所有标记的集合

分类(classification):预测时离散值,比如把人分为好人和坏人之类的学习任务

回归(regression):预测值时连续值,比如你的好人程度达到了0.9,0.6之类的

二分类(binary classification):只涉及两个类别的分类任务

正类(positive class):二分类里的一个

反类(negative class):二分类里的另外一个

多分类(multi-class classification):涉及多个类别的分类

测试(testing):学习到模型之后对样本进行预测的过程

测试样本(testing sample):被预测的样本

聚类(clustering):把训练集中的对象分为若干组

簇(cluster):每一个组叫簇

监督学习(supervised learning):典范--分类和回归

无监督学习(unsupervised learning):典范--聚类

未见示例(unseen instance):“新样本“,没训练过的样本

泛化(generalization)能力:学得的模型适用于新样本的能力

分布(distribution):样本空间的全体样本服从的一种规律

你可能感兴趣的:(机器学习笔记1一概念和基本术语)