【Data Mining】【第六章作业】

文章目录

  • 一. 单选题
  • 二. 多选题
  • 三. 填空题
  • 四. 判断题

一. 单选题

1.下列几种数据挖掘功能中被广泛的用于购物篮分析的是( )
A. 关联分析;
B. 分类和预测;
C. 聚类分析;
D. 演变分析
正确答案: A

2.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题( )
A. 关联规则发现;
B. 聚类;
C. 分类;
D. 自然语言处理;
正确答案: A

3.设X={1,2,3}是频繁项集,则可由X产生多少个关联规则( )
A. 4;
B. 5;
C. 6;
D. 7
正确答案: C

4.置信度(confidence)是衡量哪种兴趣度度量的指标( )
A. 简洁性;
B. 确定性;
C. 实用性;
D. 新颖性;
正确答案: B

5.关联规则的支持度公式为( )
A. support(A=>B)=P(A∩B);
B. support(A=>B)=P(B|A);
C. support(A=>B)=P(A∪B);
D. support(A=>B)=P(A|B);
正确答案: C

6.下列指标中,能够度量一个规则的强度,同时衡量两个集合之间的独立性的是( )
A. 提升度;
B. 杠杆度;
C. IS度量;
D. 确信度;
正确答案: D

7.规则∅→A和A→∅的置信度是( )
A. 50%;
B. 75%;
C. 90%;
D. 100%;
正确答案: D

8.令C1 ,C2和C3分别是规则{p}→{q},{p}→{q,r},{p,r}→{q}的置信度。如果假定C1, C2和C3有不同的值,置信度最低的规则是( )
A. C1;
B. C2;
C. C3;
D. C2和C3;
正确答案: B

9.购买HDTV和购买健身器的情况如下表所示,设最小支持度阈值为0.3,最小置信度阈值为0.6,则{买HDTV }→{买健身器}的支持度为( )
【Data Mining】【第六章作业】_第1张图片
A. 0.45;
B. 0.55;
C. 0.33;
D. 0.27;
正确答案: C

10.上一题所给的数据中,{买HDTV }→{买健身器}的置信度为( )
A. 0.65;
B. 0.55;
C. 0.49;
D. 0.33;
正确答案: B

11.如果X∈Y,且Y中至少有一项不在X中,那么Y是X的( )
A. 频繁项集;
B. 真超项集;
C. 闭频繁项集;
D. 极大频繁项集;
正确答案: B

12.下列关于Apriori算法的分析中,错误的是( )
A. Apriori算法基于支持度的剪枝技术,用来控制候选项集的指数增长;
B. Apriori算法包括候选集生成和向下封闭检测两个阶段;
C. Apriori算法会扫描数据库2次;
D. Apriori算法使用逐层搜索的迭代方法;
正确答案: C

13.下表所示的购物篮事务数据集中能够提取的3-项集的最大数量是( )
【Data Mining】【第六章作业】_第2张图片
A. 3;
B. 6;
C. 10;
D. 20;
正确答案: D

14.下列不属于Apriori算法的缺点的是( )
A. Apriori算法分为两个阶段挖掘频繁项集;
B. Apriori算法产生候选项目集时没有排除无用的候选项集;
C. Apriori算法在每一步产生候选项目集时循环产生的组合过多;
D. 在扫描大型数据库时,Apriori算法会大大增加计算机系统I/O开销;
正确答案: A

二. 多选题

1.考虑如下的频繁3-项集:{1, 2, 3},{1, 2, 4},{1, 2, 5},{1, 3, 4},{1, 3, 5},{2, 3, 4},{2, 3, 5},{3, 4, 5}。选出根据Apriori 算法利用上述频繁3-项集生成的候选4-项集( )
A. {1,2,3,4};
B. {1,2,3,5};
C. {1,2,4,5};
D. {2,3,4,5};
正确答案: ABCD

2.下表是一个购物篮,假定支持度阈值为40%,其中哪几个是频繁闭项集( )
【Data Mining】【第六章作业】_第3张图片
A. abc;
B. ad;
C. cd;
D. de;
正确答案: AD

3.以下关于非频繁模式说法,正确的是( )
A. 其支持度小于阈值;
B. 都是不让人感兴趣的;
C. 其支持度大于阈值;
D. 对异常数据项敏感;
正确答案: AD

4.下列关于FP-growth算法优缺点的表述中,正确的有( )
A. 相比于Apriori算法,FP-growth算法运行速度要快一个数量级;
B. FP-growth算法在建立FP-tree时占用空间较小;
C. FP-growth算法无须多次扫描数据库,节省了运行时间;
D. FP-growth算法处理产生的条件树时会占用很多资源;
正确答案: ACD

5.一个数据库有5 个事务,如下表所示。设min_sup=60%,min_conf = 80%。从下列选项中选出频繁2-项集()
【Data Mining】【第六章作业】_第4张图片
A. {M,K};
B. {O,K};
C. {K,E};
D. {M,O};
正确答案: ABC

三. 填空题

1.Aprior算法包括____和 ____两个基本步骤。
正确答案:
(1) 连接
(2) 剪枝

2.关联规则的经典算法包括____和____,其中____的效率更高。
正确答案:
(1) Apriori
(2) FP-growth
(3) FP-growth

3.如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则连接产生的C3=____
正确答案:
(1) {{a,b,c},{a,b,d},{a,c,d},{b,c,d}}

4.关联规则的置信度公式为confidence(A=>B)=____
正确答案:
(1) P(B|A)

5.同时满足____和____的规则称之为强关联规则。
正确答案:
(1) 最小支持度阈值
(2) 最小置信度阈值

6.如果一个项集的直接超集都不具有和它相同的支持度计数,则称其为:____
正确答案:
(1) 闭项集

7.在挖掘闭模式算法中,直接搜索闭频繁项集,并对结果进行剪枝是最常用的方法,其中剪枝的策略包括____和____ 。
正确答案:
(1) 项合并
(2) 子项集剪枝

8.不包含任何考察项集的事务称为:____
正确答案:
(1) 零事务

9.频繁出现在数据集中的模式称为:____
正确答案:
(1) 频繁模式

10.关联规则挖掘任务主要分为____和____两个子任务。
正确答案:
(1) 频繁项集的产生
(2) 关联规则的产生

11.大型数据库中的关联规则挖掘包含 找出所有____和由____产生____两个过程。
正确答案:
(1) 频繁项集
(2) 频繁项集
(3) 强关联规则

12.FP-growth算法的基本思想是用FP-growth ____ 形成频繁集。
正确答案:
(1) 递归增长

13.某个食品连锁店每周的事务记录如下表所示,每个事务表示在一项收款机业务中卖出的商品项集,假定min____conf=40%,使用Apriori算法生成的强关联规则有 ____和____两项。(横线填写格式:{xxx}->{xxx})
【Data Mining】【第六章作业】_第5张图片
正确答案:
(1) {面包}->{花生酱}
(2) {花生酱}->{面包}

14.事物t={牛奶,面包,啤酒}是____项集。
正确答案:
(1) 3

15.FP-growth算法在一次运行中扫描____次数据库。
计算关联规则{牛奶}=>{咖啡}的支持度和置信度:____(答案保留小数点后两位)
在这里插入图片描述
正确答案:
(1) 2
(2) 0.40, 0.80

16.从上题的数据中计算牛奶与咖啡之间的提升度和杠杆度:____(答案保留小数点后一位)
正确答案:
(1) 1.3, 0.1

17.计算{面包(A)=>啤酒(E)}的支持度:____(保留小数点后一位)
【Data Mining】【第六章作业】_第6张图片
正确答案:
(1) 0.20

18.从上题的数据中计算规则{面包(A)}=>{甜酱(B)}的置信度:____(答案保留小数点后两位)
正确答案:
(1) 0.25

四. 判断题

1.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。
正确答案: 错

2.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。
正确答案: 对

3.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。
正确答案: 错

4.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有非空子集也是频繁的。
正确答案: 对

5.具有较高的支持度的项集具有较高的置信度。
正确答案: 错

6.如果两个项集的提升度的值小于1,则说明两个项集正相关。
正确答案: 错

7.两个项集的全置信度越大,说明两个项集的关系越紧密,反之则关系越疏远。
正确答案: 对

8.两个项集的全置信度越大,说明两个项集的关系越紧密,反之则关系越疏远。
正确答案: 对

9.可信度是对关联规则的准确度的衡量。
正确答案: 对

10.可信度是对关联规则的准确度的衡量。
正确答案: 对

11.关联规则是形如X=>Y的蕴含式,X和Y满足:X和Y是I的真子集,并且X和Y的交集为空集。
正确答案: 对

12.设最小支持度阈值为30%,最小置信度阈值为70%,如果一个项集的支持度为50%,则该项集是频繁项集。
正确答案: 对

你可能感兴趣的:(#,Data,Mining,数据挖掘)