山东大学2022-2023数据仓库挖掘期末考题回忆

2023.2.14
一、
1.数据预处理的过程和解决问题
2.什么是离群点,检测离群点的四个方法
3.数据仓库的四个特点,画出数据仓库结构图
4.维度归约的两个方法及区别。
二、
两个模型用来预测新冠病毒的阳性和阴性
1.分别求准确率,精确率,召回率,错误率
2.在实际中用哪个模型比较好(利用召回率)
三、FP-树
1.FP树的生成过程,画出FP树
2.给出挖掘频繁项的过程和结果
四、给出事务列表
1.利用GSP算法,最小支持度为2,求频繁序列
2.求最大频繁序列
3.问如何从Lk-1到Ck
五、给出ER图
1.维度建模
2.问如果时间维度有不同的粒度,事实表和维度表怎么做
3.基本立方体【日, 商品号,城市】,求2017年第一季度所有品牌的销售额的OLAP操作
4.Molap的工作原理
六、DBSCAN
1.过程
2.列出核心对象
3.分别给出两组密度相连还有密度可达的集合
七、数据流
一组数据流(PPT上有),给出到达子集11011
1.求到达后的样子
2.求1的个数

题量很大,很考验对算法的理解程度。
从往年题来看,一般往年的简答题(第一大题)之后不会再考,对于其他简答题需要熟练记忆。
整理了一套复习资料,链接如下:数据仓库挖掘复习题及智库,课后习题答案

后话:pp老师人很好的,考试给我捞到了95

你可能感兴趣的:(数据仓库,数据库)