《数据处理与知识发现》作业 复习用

作业复习

    • 第2章 数据预处理 作业
    • 第3章 数据仓库 作业
    • 第4章 关联规则挖掘 作业1新
    • 第4章 关联规则挖掘 作业2
    • 第5章 聚类分析方法 作业 新
    • 第6章 分类规则挖掘 作业1
    • 第6章 分类规则挖掘 作业2

第2章 数据预处理 作业

一. 简答题(共3题,100分)

  1. (简答题, 15分)
    假定用于分析的数据包含属性 age。数据元组的 age 值(以递增序) 是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30, 33,33,35,35,35,35,36,40,45,46,52,70。回答以下问题:
    ( a ) 该数据的均值是多少?中位数是什么?(5分)
    ( b ) 该数据的众数是什么?(5分)
    ( c ) 该数据的中列数是多少?(5分)
    正确答案:
    ( a ) 数据的均值是29.96,中位数是25
    ( b ) 数据的众数是25和35
    ( c ) 数据的中列数是41.5

  2. (简答题, 50分)
    假设12个销售价格记录组已经排序如:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215。使用如下每种方法将它们划分成三个箱。
    ( a ) 等频(等深)划分。(25分,分箱15分,光滑10分)
    ( b ) 等宽划分。(25分,分箱15分,光滑10分)
    最后要求使用均值对以上分箱的数据进行光滑
    《数据处理与知识发现》作业 复习用_第1张图片

  3. (简答题, 35分)
    假定用于分析的数据包含属性 age。数据元组的 age 值(以递增序) 是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30, 33,33,35,35,35,35,36,40,45,46,52,70。
    ( a ) 使用最小—最大规范化方法,将age值36变换到[0.0,1.0]区间。(15分)
    ( b ) 使用z-score规范化方法变换age值36,其中age的标准差为12.94。(10分)
    ( c ) 使用小数定标规范化方法变换age值36。(10分)
    正确答案:
    ( a ) 使用min-max规范化将age值36变换到[0.0,1.0]区间。
    ∵ minA=13,maxA=70,new_minA=0.0,new_maxA=1.0,而v=36,
    《数据处理与知识发现》作业 复习用_第2张图片
    ( b ) 使用z-score规范化变换age值36,其中age的标准差为12.94岁。
    《数据处理与知识发现》作业 复习用_第3张图片
    3
    ( c ) 使用小数定标规范化变换age值36。
    由于最大的绝对值为70,所以j=2。

    4

规范化就是通过将属性值按比例缩放,使之落入一个小的特定区间(如0.0~1.0),对属性规范化。一般来说书上会介绍三种规范化的方法:最小-最大规范化、Z-score规范化和小数定标规范化。
最小-最大规范化:得先知道属性的最大值和最小值,对原始数据进行线性变换。假设MinA和MaxA分别为属性A的最小最大值,利用公式将A的值映射到区间[New_MinA , New_MaxA]中的v’。v是当前想要映射的值。
最小-最大规范化公式
Z-score规范化:先计算平均值,然后算出标准差σA,再进行Z-score规范化。
第一步:《数据处理与知识发现》作业 复习用_第4张图片
第二步:《数据处理与知识发现》作业 复习用_第5张图片
第三步:《数据处理与知识发现》作业 复习用_第6张图片
小数标定规范化:v是题目给的要对某数据进行规范化的数值,j是使得Max(|v’|)<1的最小整数。
《数据处理与知识发现》作业 复习用_第7张图片

第3章 数据仓库 作业

一. 简答题(共1题,100分)

  1. (简答题)假定数据仓库包含4个维: date(day, month, quarter, year), spectator(spectator_name, status, phone, address), location(location_name, phone#, street, city, province, country)和game(game_name, description, producer);2个度量: count和charge。其中, charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人(为status属性的取值),每类观众有不同的收费标准。
    (a) 画出该数据仓库的星形模式图。
    (b) 由基本方体[ date, spectator, location, game]开始,为列出2004 年学生观众在GM-Place (为location_name属性的一个取值)的总代价,应当执行哪些OLAP 操作?
    正确答案:
    《数据处理与知识发现》作业 复习用_第8张图片
    沿date维从date_id “上卷”到year
    沿game维从game_id “上卷”到all
    沿location维从location_id “上卷”到location name
    沿spectator维从spectator_id “上卷”到status
    取status=“students”,location name=“GM Place”和year=2004切块

第4章 关联规则挖掘 作业1新

一. 论述题(共1题,100分)

  1. (论述题)
    数据库有5个事务。设min_sup=60%,min_conf=80%。
    《数据处理与知识发现》作业 复习用_第9张图片
    (1)分别使用Apriori算法和FP增长算法找出所有的频繁项集。(14分)
    (2)比较以上两种挖掘过程的效率。(3分)
    (3)列举所有与下面的元规则匹配的强关联规则(给出支持度s和置信度 c),其中,X是代表顾客的变量,item是表示项的变量(如“A”、“B”等):
    ∀x∈transaction,buys(X,item1)∧buys(X,item2–>buys(X,item3) [s,c] (3分)
    正确答案:
    (1)Apriori算法:
    《数据处理与知识发现》作业 复习用_第10张图片
    (写出候选项集、频繁项集,每步1分,共6分)
    FP-Growth算法:
    《数据处理与知识发现》作业 复习用_第11张图片
    (4分,错一项扣1分,扣完即止)
    《数据处理与知识发现》作业 复习用_第12张图片
    (4分,每项要求写出条件模式基、条件FP树、频繁项集,每项1分)
    (2)效率比较:Apriori 算法的计算过程必须对数据库作多次扫描,而FP-增长算法在构造过程中只需扫描一次数据库,再加上初始时为确定支持度递减排序的一次扫描,共计只需两次扫描。由于在Apriori 算法中的自身连接过程产生候选项集,候选项集产生的计算代价非常高,而FP-增长算法不需产生任何候选项。(3分)
    (3)由频繁3项集产生的与元规则匹配的规则有:(3分)
    F∪C→A(c=3/4=75%) X
    F∪A→C(c=3/3=100%)
    C∪A→F(c=3/3=100%)

    就是说:
    《数据处理与知识发现》作业 复习用_第13张图片

第4章 关联规则挖掘 作业2

一. 简答题(共1题,100分)

  1. (简答题)
    22
    《数据处理与知识发现》作业 复习用_第14张图片
    (a) 假定发现关联规则“hot dog–>hamburgers”。给定最小支持度阈值25%,最小置信度阈值50%,该关联规则是强的吗?
    (b) 根据给定的数据,买hot dog独立于买hamburgers吗?如果不是,二者之间存在何种相关联系?
    正确答案:
    support = 2000/5000 = 40%, and confidence = 2000/3000 = 66.7%. 因此,此关联规则是强的。
    lift(hotdog, hamburgers)
    = P({hot dog, hamburgers})/(P({hot dog})P({hamburgers})
    =0.4/(0.5×0.6) =1.33 > 1.
    因此,购买hotdogs不独立于购买hamburgers。它们之间是正相关的。

第5章 聚类分析方法 作业 新

一. 论述题(共2题,100分)

  1. 假设数据挖掘的任务是采用K-Means算法将如下 7个点聚类为2个簇。为简化计算,距离函数采用曼哈顿距离。假设初始选择E、G为每个聚类的中心。要求写出具体的执行步骤。
    title
    《数据处理与知识发现》作业 复习用_第15张图片
  2. (论述题)在下表中给定的样本上运行AGNES算法,假定算法的终止条件为2个簇,使用曼哈顿距离。请写出具体的执行步骤及最终结果。
    《数据处理与知识发现》作业 复习用_第16张图片
    《数据处理与知识发现》作业 复习用_第17张图片
    《数据处理与知识发现》作业 复习用_第18张图片

第6章 分类规则挖掘 作业1

一. 简答题(共2题,100分)

  1. (简答题, 50分)
    电影分类数据集如下所示:
    《数据处理与知识发现》作业 复习用_第19张图片
    使用K最近邻分类算法对"唐人街探案": [23, 3, 17, “?”]这一未知样本进行分类,k=3.
    正确答案:
    Distance(唐人街探案,美人鱼)2 =[(45-23)²+(2-3)²+(9-17)²]=549
    Distance(唐人街探案,功夫熊猫3)2 =[(39-23)²+(0-3)²+(31-17)²]=461
    Distance(唐人街探案,谍影重重)2 =[(5-23)²+(2-3)²+(57-17)²]=1925
    Distance(唐人街探案,叶问3)2 =[(3-23)²+(2-3)²+(65-17)²]=2705
    Distance(唐人街探案,怦然心动)2 =[(7-23)²+(46-3)²+(4-17)²]=2274
    Distance(唐人街探案,泰坦尼克号)2 =[(9-23)²+(39-3)²+(8-17)²]=1573 (每个距离1分)
    唐人街探案的三个最近的邻居为:功夫熊猫、美人鱼、泰坦尼克号,因此 唐人街探案 的分类为喜剧片 (结论 2 分)

第6章 分类规则挖掘 作业2

一. 论述题(共1题,100分)

  1. (论述题) 对以下数据集D,使用你学过的某种算法对未知类型的样本进行分类。
    《数据处理与知识发现》作业 复习用_第20张图片
    正确答案:
    样本X={ Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低}
    类标号“类型”有2个取值{冰川水, 湖泊水}
    题目即求:
    P(类型=冰川水|X)和P(类型=湖泊水|X)
    (1)P(类型=冰川水)=1/2=0.5
    P(类型=湖泊水)=1/2=0.5
    (2)
    P(X |类型=冰川水)=P(Ca+浓度=低| 类型=冰川水)× P(Mg+浓度=高| 类型=冰川水)× P(Na+浓度=高| 类型=冰川水)× P(Cl-浓度=低| 类型=冰川水) =0.5×0.75×0.5×0.5=0.09375
    P(类型=冰川水|X)
    =P(X |类型=冰川水)×P(类型=冰川水)/P(X)
    =0.09375*0.5/P(X)=0.0469/P(X)
    (3)
    P(X|类型=湖泊水)=P(Ca+浓度=低| 类型=湖泊水)×P(Mg+浓度=高| 类型=湖泊水)×P(Na+浓度=高| 类型=湖泊水)×P(Cl-浓度=低| 类型=湖泊水) =0.5×0.25×0.5×1=0.0625
    P(类型=湖泊水|X)
    =P(X|类型=湖泊水)P(湖泊水)/P(X)
    =0.0625
    0.5/P(X)=0.03123/P(X)
    (4)因为P(类型=冰川水|X)>P(类型=湖泊水|X),所以样本为冰川水

这个答案太复杂了,不需要。
直接这样写:
《数据处理与知识发现》作业 复习用_第21张图片

你可能感兴趣的:(数据仓库,数据挖掘,数据分析)