数据挖掘导论课后习题答案-第三章

最近在读《Introduction to Data Mining 》这本书,发现课后答案只有英文版,于是打算结合自己的理解将答案翻译一下,其中难免有错误,欢迎大家指正和讨论。侵删。

第三章

在这里插入图片描述
优点:第一,颜色可以很容易地区分不同的部分。第二,看起来更加有趣。
缺点:第一,对色盲或者那些很难分辨颜色的人不太友好。第二,有的时候灰度图更能突出重点,颜色图会让人关注一些不重要的部分。
在这里插入图片描述
关键的问题是对于三维的图如何尽可能地展示多的信息。但实际上,我们可能需要忽略部分信息以展示出必要的信息。
在这里插入图片描述
简单随机抽样并不是一种好方法。比如一个分布不均匀的样本,简单随机抽样会忽略掉稀疏区域的大部分点,在这种情况下,我们应该在稀疏区域过采样,密集区域降采样。
数据挖掘导论课后习题答案-第三章_第1张图片
(a)计算机网络的联通最好用图来表示。节点是路由器、网关或者其他通信设备,链接代表联系。颜色可以用来表示链接和节点已使用的百分比。
(b)最简单的办法就是在一张图上只展示一个物种的分布情况,用灰度表示分布的密集程度。如果需要同时展示多个物种,可以考虑用它们的图标来表示。
(c)每个程序的资源使用情况可以用条形图表示。资源使用情况用百分比统一尺度即可。
(d)对于特定的职业,性别用饼图,每一行的饼图表示一个等级的教育水平,每一列表示一年。
在这里插入图片描述
茎叶图可以直观地看到值的分布,但是如果当数据特别大的时候用茎叶图就不明智了。
在这里插入图片描述
最好的办法就是预估数据的分布。这一数据处理方法已经比较成熟了,但很多情况下单一直方图是不够的。
在这里插入图片描述
数据挖掘导论课后习题答案-第三章_第2张图片
如果中位数处于箱线图的中间,那么就是对称分布。萼片的长宽近似于对称分布,但花瓣的长宽有些歪斜。
在这里插入图片描述
数据挖掘导论课后习题答案-第三章_第3张图片
Setosa:萼片长度>萼片宽度>花瓣长度>花瓣宽度
Versicolour:萼片长度>花瓣长度>萼片宽度>花瓣宽度
Virginica:萼片长度>花瓣长度>萼片宽度>花瓣宽度
在这里插入图片描述
大量的信息将被包含在箱线图中。比如,比较箱线图中的年龄属性,我们会发现重量随年龄增长。
在这里插入图片描述
数据挖掘导论课后习题答案-第三章_第4张图片
三个品种的鸢尾花的分类可能正是按照花瓣长宽的大小分类的。
在这里插入图片描述
数据挖掘导论课后习题答案-第三章_第5张图片
数据挖掘导论课后习题答案-第三章_第6张图片
数据挖掘导论课后习题答案-第三章_第7张图片
花瓣长度和宽度的百分位折线图和经验CDF图都十分相似。表明一组花有相对稳定的属性值。
在这里插入图片描述
当属性值有序时。
在这里插入图片描述
任何数据集所有属性的组合不太可能产生稀疏数据立方体。这将包括一组对象的连续属性,但只有一小部分,其中很多组合值并不会出现。
稠密的数据立方体例子很多,比如考虑交通事故的发生时间、发生地点、事故类型,原始的数据集将会比较稀疏,但是聚合后,考虑在一个月里总的数据,会得到要给稠密的数据立方体。
在这里插入图片描述
一个概括性的数据集的属性值或者组合属性值的频率是比较令人感兴趣的,这样我们可以得到属性之间的关系,并且用图表示出来。
在这里插入图片描述
数据挖掘导论课后习题答案-第三章_第8张图片
这是一个稠密的数据立方体,只有两个单元格是空的。
在这里插入图片描述
PCA和SVD是一种将数据投影到缩小的尺寸的维归约。比如销售一种产品的六个月的情况汇集到一天,存储位置的聚合可以看成一种尺度的改变,但PCA和SVD则无法解释这个情况。

你可能感兴趣的:(习题答案)