基本术语
记录&示例&样本:“=”,意思是取值为,每一条记录是关于一个对象或事件的描述。eg:(色泽=浅白;根蒂=硬挺;敲声=清脆)
数据集:记录的集合 D={x~1,x~2,x~3,x~4......,x~m},其中每个示例x~i=(x~i~1,x~i~2,x~i~3,x~i~d),d为样本空间的维度(~表示下标),x~i~j=x~i在第j个属性上的1取值
属性&特征:反映事件或对象在某方面的表现或性质的事项。eg:色泽,根蒂,敲声
属性值:属性上的取值。eg:浅白,硬挺,清脆
属性空间&样本空间&输入空间:属性张成的空间 用'X表示
特征向量:一个示例称为一个特征向量
维数&维度:每个示例的属性数量。eg:上述例子的维数是 3
学习&训练:从数据中学得模型的过程
训练数据:训练过程使用的数据
训练样本:训练数据中的每一个样本
训练集:训练样本组成的集合
假设:学得模型对应了关于数据的某种潜在的规律(主语:学得模型)
真相&真实:潜在规律自身
学习器:学得模型,可看作学习算法在给定数据和参数空间上的实例化
标记:获得的训练样本的“结果”,eg:(色泽=浅白;根蒂=硬挺;敲声=清脆)-----好瓜。这里好瓜就是标记
样例:拥有标记信息的示例,一般用(x~i,y~i)表示第i个样例,x~i是示例,y~i是x~i的标记,y~i∈'Y
标记空间&输出空间:'Y,是所有标记的集合
分类学习:预测的是离散值 eg:好瓜,坏瓜
回归学习:预测的是连续值 eg:西瓜成熟度0.95,0.37
总结:预测任务是希望通过对训练集{(x~1,y~1),(x~2,y~2),......(x~m,y~m)}进行学习,建立一个从输入空间`X到输出空间`Y的映射f:`X->`Y,对二分类任务,通常令`Y={-1,+1}或{0,1};对多分类任务|`Y|>2;对回归任务`Y=R,R为实数集
测试:学得模型后,使用其进行预测的过程
测试样本:被预测的样本
聚类:将训练中的样本分为若干组,每组成为一个“簇” eg:将训练集中的西瓜分为若干组,每组为一个‘簇’,例如“本地瓜”、“外地瓜”,在聚类学习中,各个“簇”的概念事先不知道
监督学习&无监督学习:根据有无拥有标记信息,分为监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表
泛化:学得模型适用于新样本的能力
独立同分布:通常假设样本空间中全体样本服从一个未知的“分布”D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”
归纳和推理:归纳是从特殊到一般,推理是从一般到特殊,从样例中学习是归纳过程,因此又称归纳学习
广义的归纳学习:大体相当于从样例中学习
狭义的归纳学习:要求从训练数据中学得概念,因此亦称为“概念学习”或“概念形成”
假设空间:由所有假设组成的空间
版本空间:可能有多个假设与训练集一直,即存在一个与训练集一致的“假设集合”,我们称之为“版本空间”
归纳偏好:机器学习在学习过程中对某种类型假设点的偏好,称为“归纳偏好”,我们的算法必须存在某种偏好,才能产出它认为”正确“的模型
奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个
脱离具体问题,空谈“什么学习算法更好”毫无意义
发展历程:略
PS:数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学为数据挖掘提供有效的学习算法