数据挖掘导论课后习题答案 第二章(一)

1.感觉中文翻译不是很用心,英语原文是the statistician says, “Yes, fields 2 and3 are basically the same.”意思是字段2和字段3基本一样,所以我们可以推测值可能是一样的,字段2除以字段3的值基本都是7,作者认为这两个字段包含了一样的信息,从如此小的样本得到结论是十分危险的。

2.

(a)二元、定性,序数

(b)连续,定量,比率

 (c)离散,定性,序数

 (d)连续,定量,比率

(e)离散,定性,序数

  (f)连续,定量,比率

   (g)离散,定量,比率

(h)离散,定性,标称

 (i)离散,定性,序数

  (j)离散,定性,序数

(k)连续,定量,比率/区间

(l)离散,定量,比率/区间

(m)离散,定性,标称

3.(a)老板是对的,顾客满意度公式=产品的抱怨次数/产品的总销售量

 (b) 需要修正呗

4。(a)有可能陷入困境,因为顾客有可能喜欢1超过2,喜欢2 超过3,但是喜欢3超过1,这样就没法形成排序1>2>3。

       (b)对于三个项目,只进行前两个比较。一般来说,根据成对比较创建顺序测量比例是困难。由于可能存在不一致性。

      (c)首先,存在这样一个问题,即规模不太可能是一个区间或比率尺度。然而,就实际而言,一个平均值就足够了。一个更重要的问题是,一些极端的评级可能误导整体评级。因此,中位数或中位数(见第3章)可能是更好的选择。

5.行政区号越前面的城市可能经济越发达

6.(a)关联分析需要数据的二元形式进行工作,根据第六章,你需要把数据格式转变为类似这样的形式,

(b)400个非对称二进制属性

7.答案是这样的,如果距离较近的位置与距离较远的位置在该特征值方面更相似,则该特征显示空间自相关。在物理上靠近的地方,温度与降雨量相似的地方更为常见,因为降雨量可能非常局部;也就是说,降雨量可能从一个地方突然变化到另一个地方。因此,日气温的空间自相关比日降水量大。

但是题目是时间自相关,时间相关的定义是如果测试的时间很接近,则数据值非常相近。

8.文档-词矩阵的第ij个条目是该词语j出现在文档i的次数中。大多数文档只包含一小部分术语,因此出现零条目非常正常 。因此,文档-词矩阵具有不对称离散特征。如果我们应用Term Frequency -  Inverse Document Frequency(词频-逆文本频率”)方法将词规范化,并将文档规范化为L2规范为1,然后这将创建一个具有连续特征的词-文档矩阵。但是,其特点是仍然是不对称的,因为对于以前为0的任何条目,这些转换不会创建非零项。

9.观测科学不需要完全控制他们获得的数据的质量。比如,在地球轨道卫星可用之前,海面温度的测量依赖于从船上测量。同样,天气测量通常是从城镇或城市的气象站进行的。因此,有必要使用可用的数据,而不是精心设计的实验数据。从这个意义上说,观测科学的数据分析类似于数据挖掘。

10.浮点数的精度是最大的精度。更明确, 精度通常用有效位数表示。因此,单精度数字只能表示精度高达8位小数。双精度是12位。使用32位表示的值的精度远小于64位。

11.(1)通过键入文件或使用文本编辑器查看,可以轻松检查文本文件。              (2)无论是跨系统还是跨程序,文本文件都比二进制文件更易于移植。              (3)可以更容易地修改文本文件,例如,使用文本编辑器或Perl。

12.(a)噪音不让人感兴趣,离群点可以。

      (b)数据的随机失真,即噪声对象通常是造成离群点的原因

       (c)随机失真(噪音)会导致一个物体或一个值与正常物体或值非常相似,不一定是离群点。

       (d)离群值代表与正常数据不一样的一组数据。所以离群点不一定是噪音对象。

      (c)是的,使其失真,遮蔽本来模式

13.(a)首先,最近邻列表上的重复对象顺序将取决于算法的详细信息和数据集中重复对象的顺序。第二,如果有足够的重复对象,最近的邻居列表可能只包含重复对象。第三,一个对象不能是它自己的近邻。

     (b)需要消除数据集中的重复数据

14.这些属性都是数字的,但是可以有很大的变化范围值,取决于用于测量它们的尺度。而且, 属性是对称的,属性的大小很重要。 后两个事实消除了余弦和相关测度。欧几里德距离较为是合适的。

15.(a)第一个方法保证从每个组得到相同数量的对象,第二个方法从每个组抽取的对象的数量变化很大。

16.(a)如果词出现在第一个文档,即logm/dfi=logm,权重最大,如果出现在每个文档,即log1=0,即权重为0.

      (b)这种规范化反映了这样一种情况,即在每个文档中出现的词没有任何能力区分一个文档和另一个文档的区别,这些词因为都出现了,并没有特别的意义。而那些在相对少的文档出现的词则有这种能力。

17. (a)  x*是x的平方根,因此x的范围是x*的平方(a^2,b^2)

         (b) x^2=y

 

 

 

你可能感兴趣的:(数据挖掘)