数据挖掘课后习题 第2章

2.2

(a)均值:29.96 中位数:25
(b)众数:25,35 数据的形态:因为有两个众数,所以是双峰(bimodal)的
(c)中列数:(70+13)/2=41.5
(d)Q1=20(数据集的第一个四分位数应发生在25%处,即在(N+1)/4=(27+1)/4=7 处。所以:Q1=20) Q3=35
(e)五数概括:最小值=13,Q1=20,中位数=25,Q3=35,最大值=70
(f)



(g)
分位数图:是一种观察单变量数据分布的简单有效方法。纵轴表示观测值,横轴表示近似的百分位数,通过将所有的观测值递增排序,可以展示所有的分位数信息。
分位数-分位数图:两个坐标轴分别代表两个观测集的观测值,绘制的点的横纵坐标分 别对应两个观测集在相同分位点处的取值。若增加一条直线(y=x),落在该线以上的点表示在相同的分位点处,y 轴代表的数据观测值比x 轴高。反之,x轴代表的数据观测值比y轴高。通过分位数-分位数图可以很方便地观察从一个分布到另一个分布是否有“漂移”(相应的分位数是否相同)。

2.3

近似中位数:
21+((200+450+300+1500+700+44)/2-(200+450+300))÷1500×(50-21)≈33.5

2.4

(a)age:均值=46.44 中位数:51 标准差:13.22
%fat:均值=28.78 中位数:30.7 标准差:9.25
(b)



(c)散点图



q-q图:
2.5

(a)标称属性。相异性可以通过不匹配率来计算:d(i,j)=(p-m)/p,i和j表示两个对象,m是i和j取值相同状态的属性数,p是刻画对象的属性总数;同时可以通过赋予m较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m的影响。
(b)非对称二元属性。可以通过Jaccard系数来计算相似性。
(c)数值属性。可以通过闵可夫斯基距离(根据实际需求设置系数h的值,如h=1,闵可夫斯基距离计算的就是曼哈顿距离)来计算相异性。
(d)词频向量:可以通过余弦相似性来计算相似性。

2.6

(a)欧几里得距离:
(b)曼哈顿距离:11
(c)q=3时的闵可夫斯基距离:
(d)上确界距离:42-36=6

你可能感兴趣的:(数据挖掘课后习题 第2章)