数据挖掘习题

数据挖掘概念与技术课后习题

#数据转换

数据挖掘习题_第1张图片

我的想法:
数据挖掘习题_第2张图片

数据处理

数据挖掘习题_第3张图片

  1. 光滑数据:采用滑动平均的方法,设置window_size,进行光滑
  2. 规范化:两种方法,归一化、标准化
    数据挖掘习题_第4张图片
  • 补充:如果数据不是数值类型的,先进行属性映射,再序列标准化

Z = m i − 1 M a x ( m ) − 1 Z = \frac{m_i -1}{Max(m) -1} Z=Max(m)1mi1

哈尔小波分解

数据挖掘习题_第5张图片
步骤:

  1. 按粒度求window均值(粒度就是window_size,不重叠的)
  2. 求window的最大的数和均值的差
  3. 重复1、2把序列遍历完
  4. 合并均值和求完差值的结果,长度应该和原序列等长
  5. 重复以上4步,直到达到设定的轮数,分解的越来越小

数据挖掘习题_第6张图片

距离计算

数据挖掘习题_第7张图片
三种距离描述:
数据挖掘习题_第8张图片
数据挖掘习题_第9张图片

Aprior

{1,3,6,8,9}可能的子项集,及频繁子项集
数据挖掘习题_第10张图片

FP-Growth

T1

数据挖掘习题_第11张图片
数据挖掘习题_第12张图片

T2

数据挖掘习题_第13张图片
个人题解:
数据挖掘习题_第14张图片

数据挖掘习题_第15张图片

关于频繁项集的概念

数据挖掘习题_第16张图片

关联规则

数据挖掘习题_第17张图片
数据挖掘习题_第18张图片
数据挖掘习题_第19张图片

  • 写的不对,emmm

判断是否频繁的依据是:
X是否为任一闭频繁项的子集,如果是则频繁,支持度为所属闭频繁项集(集合C中,X可能是多个闭频繁项集的子集)中,支持度计数最大的闭频繁项集的支持度。

  • 所以第二问:应该是X所属闭频繁项集中,支持度计数最大的

SVM

数据挖掘习题_第20张图片

数据挖掘习题_第21张图片

数据挖掘习题_第22张图片
数据挖掘习题_第23张图片

灰色预测模型:

灰色模型(Grey Model,简称GM模型)一般表达方式为GM(n,x)模型,其含义是:用n阶微分方程对x个变量建立模型。

通过把分散在时间轴上的离散数据看成一组连续变化的序列,采用累加和累减的方式,将灰色系统中的未知因素弱化,强化已知因素的影响程度,最后构建一个以时间为变量的连续微分方程,通过数学方法确定方程中的参数,从而实现预测目的。

数据挖掘习题_第24张图片

你可能感兴趣的:(大数据,数据挖掘,人工智能,python)