《数据处理与知识发现》章节测验复习

《数据处理与知识发现》章节测验

    • 第1章 绪论 章节测验
    • 第2章 数据预处理 章节测验
    • 第3章 数据仓库 章节测验
    • 第4章 关联规则挖掘 章节测验
    • 第5章 聚类分析方法 章节测验
    • 第6章 分类规则挖掘 章节测验

首先我们要明白关联分析、聚类分析以及分类分析这三者的概念。
在定义上,它们分别是这样解释的:

关联分析(Association Analysis)用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。关联规则挖掘的目的就在于在一个数据集中找出项之间的关系,从大量的数据中挖掘出有价值的描述数据项之间相互联系的有关知识。
关联分析挖掘的规则形式:Body=>Head[support,confidence] 说明在干Body这件事情的时候,还会干Head这件事的支持度为support,置信度为confidence。支持度表示所分析的所有事物的百分比条件下同时也会做Body和Head这件事,置信度表示某人在做Body事情的时候也会做Head这件事。(注意两者区别,一个是所有事情都要做的时候会做其中两件事,一个是做某件事的时候也会同时做另一件事)
… …
聚类(Clustering)分析数据对象不考虑已知的类标号。聚类是按照某个(或某种)特定标准把一个数据集分割成不同的类,使得类内相似性尽可能大,类间相似性尽可能小。所以最大化类内部相似性、最小化类间相似性是区间的原则。
聚类的方法主要包括:划分聚类、层次聚类、基于密度的聚类、基于网格的聚类、基于模型的聚类等。
… …
分类分析(Classification Analysis)通过分析一直类别标记的样本集合(示例数据库)中的数据对象(记录),为每个类别做出准确的描述,或建立分类模型,或提取出分类规则(Classification Rules),然后用这个分类模型或规则对样本集合以外的记录进行分类。
分类预测导出的模型的表示形式有分类(IF-THEN)规则、决策树、数学公式或神经网络,除此以外,还有构造分类模型的其他方法,如朴素贝叶斯分类、支持向量机和k最近邻分类。

在我们明白这些基本概念的时候,就可以开始做题了。

第1章 绪论 章节测验

1【单选题】某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种情况属于数据挖掘的哪类问题?
A、关联规则发现
B、聚类
C、分类
D、自然语言处理
正确答案: A
2【单选题】分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于( )问题。
A、关联规则
B、分类与回归
C、聚类分析
D、时序预测
正确答案: A
3【单选题】当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?
A、分类
B、聚类
C、关联分析
D、隐马尔可夫链
正确答案: B
4【单选题】在医疗方面,可找出某种基本可能的治疗组合,是属于( )。
A、关联规则挖掘
B、分类挖掘
C、聚类挖掘
D、数据库查询
正确答案: A
5【单选题】给出一组客户的行为特征,将客户分成多个行为相似的群体,是属于( )
A、关联规则挖掘
B、分类挖掘
C、聚类挖掘
D、数据库查询
正确答案: C
6【多选题】预测任务可以是以下哪些?
A、分类分析
B、回归分析
C、离群点检测

D、摘要形成
正确答案: ABC
7【多选题】描述型任务可以是( )。
A、聚类分析
B、关联分析
C、摘要任务

D、离群点检测
正确答案: ABC
8【判断题】KDD就是数据挖掘。×
9【判断题】数据挖掘的对象只能是关系数据库。×
10【判断题】聚类是无指导观察式学习,分类是有指导的示例式学习。√
11【判断题】聚类算法会建立模型,分类则不会。×
12【判断题】数据挖掘主要有两大类主要任务: 预测任务和描述任务。√

第2章 数据预处理 章节测验

1【单选题】将原始数据进行集成、变换、维度归约、数值归约是在以下哪个步骤的任务?
A、频繁模式挖掘
B、分类和预测
C、数据预处理
D、数据流挖掘
正确答案: C

数据预处理的主要步骤:数据清理、数据集成、数据归约、数据变换、离散化和概念分层。

2【单选题】假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用等频(等深)划分将它们划分成四个箱,15在第几个箱子内?
A、第一个
B、第二个
C、第三个
D、第四个
正确答案: B

等深分箱就是每个箱子都会放一样多(或基本一样多)的数据(即平均分)。

3【单选题】假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用等宽划分(宽度为52.5)将它们划分成四个箱,15又在哪个箱子里?
A、第一个
B、第二个
C、第三个
D、第四个
正确答案: A

等宽分箱就是先把数据里面的最大和最小的两个值相减,然后得出来的差值除以要分出的箱子个数,其商就是每个箱子内放置这些数据的区间,区间左闭右开,最后一个箱子左右都为开区间。

4【单选题】假设属性income的最小最大值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:
A、0.821
B、1.224
C、1.458
D、0.716
正确答案: D
5【单选题】假设收入属性的最小最大值分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大最小规范化方法,计算结果是多少?
A、0.25
B、0.375
C、0.125
D、0.5
正确答案: A

最小-最大规范化:得先知道属性的最大值和最小值,对原始数据进行线性变换。假设MinA和MaxA分别为属性A的最小最大值,利用公式将A的值映射到区间[New_MinA , New_MaxA]中的v’。v是当前想要映射的值。
zuixiao-zuiida

计算

6【单选题】假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70, 问题:等深分箱,箱的深度为3,使用按箱平均值平滑方法对上述数据进行平滑。第二个箱子值为:
A、18.3
B、22.6
C、26.8
D、27.9
正确答案: A

对数据集的数据进行平滑的方法主要有:按平均值、按边界值和按中值平滑三种。
如果是按平均值平滑,就是把箱子里的所有数据加起来再除箱子内数据的个数得平均值,这个平均值就是箱子内所有数据的平滑数据。
如果是按边界值平滑,就看每个数据是离最左边的数据(通常是数值最小的)最近还是离最右边的数据(通常是数值最大的)最近,然后取距离最小的值作为自己的平滑数据,如果一样近取哪个值都行。
如果是按中值平滑就是在箱子里找中值,如果是偶数个数据就要两个中间值除二作为中值,如果是奇数个数据就直接用它作为平滑数据。

7【单选题】下面哪个不属于数据的属性类型
A、标称
B、序数
C、区间
D、相异
正确答案: D

数据的属性类型有四种:标称(Nominal)、序数(Ordinal)、区间(Interval)、比率(Ratio)。

8【单选题】属于定量的属性类型是
A、标称
B、序数
C、区间
D、相异
正确答案: C
9【单选题】一所大学内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是
A、一年级
B、二年级
C、三年级
D、四年级
正确答案: A
10【单选题】( )的目的缩小数据量,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
A、数据清洗
B、数据集成
C、数据变换
D、数据归约
正确答案: D

数据归约就是减少数据量,归约就是降低维度,数据归约就是降低数据的维度,也就是神经网络里常说的低维数据。

11【单选题】进行数据规范化的目的是( )
A、去掉数据中的噪声
B、对数据进行汇总和聚集
C、使用概念分层,用高层次概念替换低层次“原始”数据
D、将属性按比例缩放,使之落入一个小的特定区间
正确答案: D
12【单选题】假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 205 使用等宽划分(宽度为50)将它们划分成四个箱,55在哪个箱子里?
A、第一个
B、第二个
C、第三个
D、第四个
正确答案: B
13【单选题】假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 205 使用等宽划分(宽度为50)将它们划分成四个箱,使用按箱平均值平滑方法对上述数据进行平滑,第二个箱子值为:
A、82
B、73
C、19.9
D、24.25
正确答案: B
14【多选题】在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:
A、忽略元组
B、使用一个全局常量填充空缺值
C、使用属性的平均值填充空缺值
D、使用与给定元组属同一类的所有样本的平均值
E、使用最可能的值填充空缺值

正确答案: ABCDE
15【多选题】对于数据挖掘中的原始数据,存在的问题有:
A、不一致
B、重复
C、不完整
D、含噪声
E、维度高

正确答案: ABCDE
16【多选题】下面属于数据集的一般特性的有:
A、连续性
B、维度
C、稀疏性
D、分辨率

E、相异性
正确答案: BCD
17【多选题】噪声数据的产生原因主要有
A、数据采集设备有问题
B、在数据录入过程中发生了人为或计算机错误
C、数据传输过程中发生错误
D、由于命名规则或数据代码不同而引起的不一致

正确答案: ABCD
18【多选题】噪声数据处理的方法主要有:
A、分箱
B、聚类

C、关联分析
D、回归
正确答案: ABD

噪声的解决方法:分箱、回归、离群点分析(即聚类)。

19【多选题】数据清理的目的是处理数据中的( )
A、空缺值
B、噪声数据
C、不一致的数据

D、敏感数据
正确答案: ABC
20【判断题】数据规范化指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。√
21【判断题】维归约可以去掉不重要的属性,从而减少数据挖掘处理的数据量,提高挖掘效率。√
22【判断题】­离散化指通过将属性域划分为区间,用区间标签或概念标签代替实际的数据值,从而减少给定连续属性值的个数。√
23【判断题】数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。√

这一章在做之前要明白一些关于OLAP里的基本概念:

变量:变量是进行数据度量的指标,描述数据的实际意义,即描述数据”是什么“。通常也被成为度量(或量度)。
维:维是指人们观察数据的特定的角度。
维的层次:维度按照细节的程度不同可以分为不同的层次或者分类,这些层次描述了维度的具体细节信息。
维的成员:成员是维的一个取值。
多维数据集:多维数据集是OLAP的核心,也可以成为超方体或立方体(超过了3个维度就是超方体)。
数据单元:多维数组的取值称为数据单元。

第3章 数据仓库 章节测验

1【单选题】关于OLAP和OLTP的区别描述,不正确的是:
A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OLTP应用程序不同.
B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.
C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高.
D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统
正确答案: C
2【单选题】下面关于数据粒度的描述不正确的是
A、粒度是指数据仓库小数据单元的详细程度和级别;
B、数据越详细,粒度就越小,级别也就越高
C、数据综合度越高,粒度也就越大,级别也就越高
D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
正确答案: B

层次越低,数据越详细,颗粒度越小。

3【单选题】有关数据仓库的开发特点,不正确的描述是
A、数据仓库开发要从数据出发
B、数据仓库使用的需求在开发初期就要明确
C、数据仓库的开发是一个不断循环的过程,是启发式的开发
D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
正确答案: A
4【单选题】下面关于数据仓库的叙述,错误的是
A、在数据仓库的结构中,数据源是数据仓库系统的基础
B、数据的存储与管理是整个数据仓库系统的核心
C、数据仓库前端分析工具中包括报表工具
D、数据仓库中间层OLAP服务器只能采用关系型OLAP
正确答案: D

有三种:关系OLAP(ROLAP)模型,多维OLAP(MOLAP)模型,混合OLAP(HOLAP)模型。

5【单选题】下面哪项关于OLTP与OLAP访问特点的说法是不正确的
A、OLTP和OLAP对于响应时间的要求都高
B、OLTP访问频率低,OLAP访问频率高
C、OLAP访问大量的历史,执行大量统计操作
D、OLTP数据处理具有并发性
正确答案: B
6【单选题】下面关于数据仓库中数据的说法错误的是?
A、数据越详细,粒度越小,层次级别就越高
B、在估计直接存储设备数时,如数据超过1000万行必须强制采取双重粒度级
C、数据仓库大部分分析是针对被压缩的、存取效率高的轻度级数据进行的
D、数据分割便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率
正确答案: A
7【单选题】下面关于星型模型的说法哪个是不正确的
A、有一个包含大量数据的事实表
B、有一组小的附属表,称为维表
C、事实表的每个字段都是事实度量字段
D、事实中每条元组都含有指向各个维表的外键和度量数据
正确答案: C
8【单选题】下面关于维的概念哪个是不正确的
A、维是人们观察数据的特定角度
B、维的层次性是由观察数据细致程度不同造成的
C、“某年某月某日”是时间维的层次
D、“月、季、年”是时间维的层次
正确答案: C

”年、月、日“是时间维,但是加了具体的”某“就不是了。

9【单选题】以下关于数据仓库描述中,正确的是
A、数据仓库中的数据主要供企业决策分析之用,需要实时快速更新
B、数据仓库中的数据包含了企业从过去某一时刻到当前各个阶段的信息
C、数据仓库中的数据通常按业务应用进行组织
D、数据仓库中的数据往往来自异构数据库,发生数据不一致在所难免
正确答案: B
10【单选题】以下关于数据仓库的描述,正确的是
A、数据仓库中存储的是面向主题、集成、随时间变化的数据
B、数据仓库是一维数据
C、数据仓库是进行数据挖掘的前提
D、数据仓库中的数据均来自数据库
正确答案: A

世界上最早的数据仓库是NCR公司为全美,也是全世界最大的连锁超市集团Wal-Mart(沃尔玛)在1981年建立的,而最早将数据仓库提升到理论高度进行分析并提出数据仓库这个概念的则是著名学者W·H·Inmon。他在“Building Data Warehouse(构建数据仓库)”一书中,把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理决策过程。”

11【单选题】OLAP技术的核心是
A、在线性
B、对用户的快速响应
C、互操作性
D、多维分析
正确答案: D
12【单选题】关于OLAP的特性,下面正确的是:(1)快速性 (2)可分析性 (3)多维性 (4)信息性 (5)共享性
A、(1) (2) (3)
B、(2) (3) (4)
C、(1) (2) (3) (4)
D、(1) (2) (3) (4) (5)
正确答案: D
13【单选题】关于OLAP和OLTP的说法,下列不正确的是
A、OLAP事务量大,但事务内容比较简单且重复率高
B、OLAP的数据来源与OLTP不一样
C、OLAP面对的是决策人员和高层管理人员
D、OLTP以应用为核心,是应用驱动的
正确答案: A
14【单选题】下面关于数据仓库的数据存储方式的说法哪个是不正确的
A、虚拟存储方式中,数据仓库的数据仍然在源数据中
B、星型模式下的维表是规范化的,而雪花模式下的维表不需要规范化
C、在查询效率方面,星型模式效率更高
D、在事实星座模式中有多个事实表,且它们共享相同的维表
正确答案: B
15【多选题】数据仓库的数据ETL过程中,ETL软件的主要功能包括
A、数据抽取
B、数据转换
C、数据加载

正确答案: ABC

ETL(Extract Transformation Load)就是进行数据的抽取、转换和加载。

16【多选题】下面列出的条目中,哪些是数据仓库的基本特征
A、数据仓库是面向主题的
B、数据仓库的数据是集成的
C、数据仓库的数据是相对稳定的
D、数据仓库的数据是反映历史变化的

E、数据仓库是面向事务的
正确答案: ABCD
17【多选题】以下各项均是针对数据仓库的不同说法,你认为正确的有
A、数据仓库就是数据库
B、数据仓库是商业智能系统的基础
C、数据仓库是面向业务的,支持联机事务处理(OLTP)
D、数据仓库支持决策而非事务处理
E、数据仓库的主要目标就是帮助分析,做长期性的战略制定

正确答案: BDE
18【多选题】联机分析处理包括以下哪些基本分析功能
A、聚类
B、切片
C、旋转
D、切块

E、分类
正确答案: BCD

多维分析的基本操作:切片、切块、钻取(还分向上钻取和向下钻取)、旋转。钻取括号里那两个一般说上卷和下钻。

19【多选题】数据仓库的数据ETL过程中,ETL软件的主要功能包括
A、数据抽取
B、数据转换
C、数据加载

D、数据稽核
正确答案: ABC
20【判断题】粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。√
21【判断题】雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。√
22【判断题】OLAP的实现方式有以下三种:基于关系数据库系统的实现、基于多维数据库系统的实现、基于两种的混合实现。√
23【判断题】数据仓库中间层OLAP服务器只能采用关系型OLAP。×

第4章 关联规则挖掘 章节测验

1【单选题】设X={1,2,3}是频繁项集,则可由X产生多少个关联规则?
A、4
B、5
C、6
D、7
正确答案: C
2【单选题】考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{1,4,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( )
A、1,2,3,4
B、1,2,3,5
C、1,2,4,5
D、1,3,4,5
正确答案: C
3【单选题】下面购物篮能够提取的3-项集的最大数量是多少(最小支持度计数为3) ?
ID 购买项
1 牛奶,啤酒,尿布
2 面包,黄油,牛奶
3 牛奶,尿布,面包
4 面包,黄油,饼干
5 啤酒,饼干,尿布
6 牛奶,尿布,面包,黄油
7 面包,黄油,尿布
8 啤酒,尿布
9 牛奶,尿布,面包,黄油
10 啤酒,饼干
A、1
B、2
C、3
D、4
正确答案: C
4【单选题】关联规则的评价指标是
A、均方误差、均方根误差
B、Kappa统计、显著性检验
C、支持度、置信度
D、平均绝对误差、相对误差
正确答案: C
5【单选题】考虑下面的频繁3-项集的集合:{A,B,C},{A,B,D},{A,B,E},{A,C,D},{A,C,E},{B,C,D},{B,C,E},{C,D,E}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含( )。
A、{A,B,C,D}
B、{A,B,C,E}
C、{A,B,D,E}
D、{A,C,D,E}
正确答案: C
6【单选题】推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、( ),推测客户将来可能的购买行为。
A、客户的朋友
B、客户的个人信息
C、客户的兴趣爱好
D、客户过去的购买行为和购买记录
正确答案: D
7【多选题】利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中,假设支持度>=3为频繁项集,在候选2-项集中需要剪枝的是( )
ID 项集
1 面包、牛奶
2 面包、尿布、啤酒、鸡蛋
3 牛奶、尿布、啤酒、可乐
4 面包、牛奶、尿布、啤酒
5 面包、牛奶、尿布、可乐
A、啤酒、尿布
B、啤酒、面包
C、面包、尿布
D、啤酒、牛奶
正确答案: BD
8【多选题】Apriori算法的计算复杂度受( )影响?
A、支持度阀值
B、项数(维度)
C、事务数
D、事务平均宽度

正确答案: ABCD
9【多选题】Apriori算法所面临的主要的挑战包括:( )
A、会产生大量的候选项集
B、会消耗大量的内存
C、对候选项集的支持度计算非常繁琐
D、要对数据进行多次扫描
正确答案: AD
10【判断题】频繁模式增长FP-growth是一种比Aprior算法更高效的关联规则挖掘算法。√
11【判断题】先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。×
12【判断题】利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数√
13【判断题】如果规则X–>Y-X不满足置信度阈值,则形如X’–>Y-X’的规则一定也不满足置信度阈值,其中X’是X的子集。√
14【判断题】具有较高的支持度的项集具有较高的置信度。×

第5章 聚类分析方法 章节测验

1【单选题】简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作
A、层次聚类
B、划分聚类
C、非互斥聚类
D、模糊聚类
正确答案: B
2【单选题】关于K均值和DBSCAN的比较,以下说法不正确的是
A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
正确答案: A
3【单选题】BIRCH是一种
A、分类器
B、聚类算法
C、关联分析算法
D、特征选择算法
正确答案: B
4【单选题】关于聚类算法K-Means和DBSCAN的叙述中,不正确的是( ) 。
A、K-Means和DBSCAN的聚类结果与输入参数有很大的关系
B、K-Means基于距离的概念而DBSCAN基于密度的概念进行聚类分析
C、K-Means很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
D、当簇的密度变化较大时,DBSCAN不能很好的处理,而K-Means则可以
正确答案: D
5【单选题】以下对k-means聚类算法解释正确的是
A、能自动识别类的个数,随即挑选初始点为中心点计算
B、能自动识别类的个数,不是随即挑选初始点为中心点计算
C、不能自动识别类的个数,随即挑选初始点为中心点计算
D、不能自动识别类的个数,不是随即挑选初始点为中心点计算
正确答案: C
6【多选题】以下属于聚类算法的是
A、K均值
B、DBSCAN

C、Apriori
D、DIANA
正确答案: ABD

Apriori是关联规则挖掘里的。

7【多选题】( )这些数据特性都是对聚类分析具有很强影响的。
A、高维性
B、规模
C、稀疏性
D、噪声和离群点

正确答案: ABCD
8【多选题】关于K-means聚类算法说法正确的是
A、对大数据集有较高的效率并且具有可伸缩性。
B、是一种无监督学习方法。
C、k值无法自动获取,初始聚类中心随机选择。

D、初始聚类中心的选择对聚类结果影响不大。
正确答案: ABC
9【判断题】DBSCAN是一种基于密度的聚类方法。√
10【判断题】在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。×
11【判断题】聚类分析可以看作是一种非监督的分类。√
12【判断题】K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。×
13【判断题】如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。√
14【判断题】从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。×
15【判断题】DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。√
16【判断题】DBSCAN算法将簇定义成密度相连的点的最大集合。√
17【判断题】在基于划分的聚类算法中,噪声数据不属于任何一个簇。×

第6章 分类规则挖掘 章节测验

1【单选题】决策树中不包含一下哪种结点
A、根结点(root node)
B、内部结点(internal node)
C、外部结点(external node)
D、叶结点(leaf node)
正确答案: C
2【单选题】决策树分类方法中,ID3算法使用的分裂准则是
A、信息增益
B、增益比率
C、基尼指数
D、分类错误率
正确答案: A
3【单选题】决策树分类方法中,C4.5算法使用的分裂准则是
A、信息增益
B、增益比率
C、基尼指数
D、分类错误率
正确答案: B 我的答案:B
4【单选题】以下哪些算法是分类算法
A、DBSCAN
B、C4.5
C、K-Means
D、EM
正确答案: B
5【单选题】以下哪项关于决策树的说法是错误的
A、冗余属性不会对决策树的准确率造成不利的影响
B、子树可能在决策树中重复多次
C、决策树算法对于噪声的干扰非常敏感
D、寻找最佳决策树是NP完全问题
正确答案: C
6【单选题】关于朴素贝叶斯分类器说法正确的是
A、朴素分类器的假设是当给定类变量时,属性变量之间条件独立
B、朴素分类器具有较高的分类准确性
C、朴素分类器具有星形结构
D、由于朴素分类器具有星形结构,因此能够有效利用变量之间的依赖关系
正确答案: A
7【单选题】考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为
A、0.75
B、0.35
C、0.4678
D、0.5738
正确答案: D

《数据处理与知识发现》章节测验复习_第1张图片
根据贝叶斯定理,假定
随机变量X代表东道主,X取值范围为{A,B}
随机变量Y代表比赛的胜利者,取值范围为{A,B}。
已知:
A队取胜的概率为0.65,表示为:P(Y=A)=0.65,
B队取胜的概率为0.35,表示为:P(Y=B)=0.35,
A队取胜时B队作为东道主的概率是0.3,表示为:
P(X=B|Y=A) = 0.3,
B队取胜时作为东道主的概率是0.75,表示为:
P(X=B|Y=B) = 0.75,
计算
下一场比赛在B队主场,同时A队胜出的概率表示为:
P(Y=A|X=B)
P(Y=A|X=B) = P(X=B|Y=A)P(Y=A)/P(X=B)
= (0.3
0.65)/0.4575=0.4262
下一场比赛在B队主场,同时B队胜出的概率表示为:
P(Y=B|X=B)
P(Y=B|X=B)=P(X=B|Y=B)P(Y=B)/P(X=B)
=(0.75
0.35)/0.4575=0.5738
根据计算结果,可以推断出,下一场最有可能是B队胜出。

8【单选题】以下关于人工神经网络(ANN)的描述错误的有
A、神经网络对训练数据中的噪声非常鲁棒
B、可以处理冗余特征
C、训练ANN是一个很耗时的过程
D、至少含有一个隐藏层的多层神经网络
正确答案: A
9【单选题】用于分类与回归应用的主要算法有:
A、Apriori算法、HotSpot算法
B、RBF神经网络、K均值法、决策树
C、K均值法、SOM神经网络
D、决策树、BP神经网络、贝叶斯
正确答案: D
10【判断题】决策树中基于信息增益分裂准则的一个缺陷是它趋向于多值属性。√
11【判断题】分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。√
12【判断题】Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。×
【End】

你可能感兴趣的:(数据挖掘,聚类,算法)