第一天开始学习机器学习 慢慢进步

看周志华《机器学习》的第1,2章,了解分类、交叉验证、分类精度、检验等概念

       分类:预测的是离散值

1.[Classify;Assort]按照种类、等级或性质分别归类。

2.把无规律的事物分为有规律的,按照不同的特点划分事物,使事物更有规律。

3.建立生物类别的分级系统的实践,其基础是推测生物间存在著一些自然关系。生物分类的科学一般称为分类学(Taxonomy)

 

       交叉验证:

交叉验证(Cross Validation),有的时候也称作循环估计(RotationEstimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。

在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predictedError Sum of Squares)

 

       分类精度:

 

       检验:

校验(ECC)是数据传送时采用的一种校正数据错误的一种方式,分为奇校验和偶校验两种。

 

       1.1表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

第一天开始学习机器学习 慢慢进步_第1张图片

       数据集是有三个特征,分别是色泽,根蒂,敲声来判断是否是好瓜。

       只有1,4可得 色泽青绿,根蒂蜷缩,敲声浊响是好瓜;色泽乌黑,根蒂稍蜷,敲声沉闷不是好瓜。三个特征值排列组合得到的集合共有3*3*3=27后再加上空集情况为28种集合。

色泽=青绿 根蒂=蜷缩 敲声=浊响

色泽=青绿 根蒂=蜷缩 敲声=泛化取值

色泽=青绿 根蒂=泛化取值 敲声=浊响

色泽=泛化取值 根蒂=蜷缩 敲声=浊响

色泽=青绿 根蒂=泛化取值 敲声=泛化取值

色泽=泛化取值 根蒂=蜷缩 敲声=泛化取值

色泽=泛化取值 根蒂=泛化取值 敲声=浊响 

 

数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。在线分类理想的数据环境应具备以下几个特点:

(1)数据应包含丰富的属性信息,应具备可靠性和稳定性;

(2)数据的属性应具有对于分类任务的相关性。大多数的分类任务只与数据库中部分属性有关,多余的、无关的属性介入分类,常会减慢甚至错误引导分类过程,应此必须去掉无关属性。
(3)数据应具有高层数据信息,以发现清晰的、高层的、具有统计意义的分类规则。在本文的研究中,为了使数据环境达到上述要求,在数据准备阶段采用了数据泛化的策略,这个策略用概念层次作为背景,结合了OLAP技术与Jiawei Han等人的面向属性归纳的方法,明显提高了工作效率。

1.2与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。

因为使用的是1.1中西瓜分类的假设空间,所以这就有了4个样例,每个样例有3个特征值。所以得到3*4*4=48后加上空集泛化得到49种。


你可能感兴趣的:(第一天开始学习机器学习 慢慢进步)