Rattle :基于R的数据挖掘工具(4b):探索数据

(3)相关性
Correlation选项。计算数值变量间的相关系数。

Rattle :基于R的数据挖掘工具(4b):探索数据_第1张图片
 



相关系数可以采用pearson,kendall,spearman三种方法。会输出相关系数矩阵。

可以把结果可视化。

Rattle :基于R的数据挖掘工具(4b):探索数据_第2张图片
 



这个图当中,红色表示负相关,蓝色为正相关,颜色越浅相关系数(绝对值)越小,越接近直线,相关系数(绝对值越大)。

这个选项还可以探索缺失值的相关性。
数据集当中常有这样的情况:一个在某个变量上有缺失值的观测在别的变量上也很可能有缺失值。
选择ExploreMissing并执行后,会输出相关系数矩阵,这里的相关性表示的是两个变量在缺失值的数量上的联系。这个矩阵包括所有带有缺失值的变量(包括属性变量)

Rattle :基于R的数据挖掘工具(4b):探索数据_第3张图片
 



在计算缺失值相关性时,应把Data标签的Partition选项关闭,来保证对完整的数据集计算。

Hierarchical选框,计算层次相关性。
输出一个可视化的结果:

Rattle :基于R的数据挖掘工具(4b):探索数据_第4张图片
 



事实上,这个图形就是使用变量间的相关性按照层次聚类法(系统聚类法)来对变量进行分类。聚类的距离是变量间的相关性。

(4)主成分
Principal components 选框提供主成分分析来探索数据。

通常主成分分析作为一种数据降维的方法。在数据探索当中使用主成分可以用来发现数据集中用来解释样本变差的重要变量。样本的各个主成分就是用来描述数据最大变差的互不相关的原始变量的线性组合。

Rattle计算主成分,有两种方法,一种是计算样本协方差矩阵的特征值和特征向量(国内的教科书常用这种方法)(Eigen)。另一种方法是对数据矩阵进行奇异值分解(SVD)。
作为结果,在SVD方法中,给出标准差,主成分系数和贡献率,累计贡献率。
在Eigen方法中,只给出标准差和贡献率,累计贡献率。两种计算的结果是有差异的。

同时,两种结果都会画出碎石图和biplot图
下面是以weather.csv数据集为例,以SVD方法的结果:

Rattle :基于R的数据挖掘工具(4b):探索数据_第5张图片
 


 



上一个是碎石图,用来表示各个主成分的相对重要程度,可以作为选择主成分的一种直观依据。
下一个是biplot图。这个图给出了样本点在第一主成分和第二主成分坐标系下的位置(即主成分得分),同时表示了这些样本点在原始变量坐标系中的相对位置,图中红色箭头即表示原始变量坐标系。原始变量以红色标出,黑色为样本点。

(5)交互图
可以用latticist和GGobi两种方法,以交互的方式探索数据。其中latticist依赖R的lattice作图系统,而GGobi依赖同名的软件。需要安装GGobi软件,以及相应的rggobi包。

我们可以利用它们做出散点图,条形图和平行坐标图。

除此之外,还有一个Plot Buider选框,可以制作多种类型的统计图。这里用了Java的技术。

具体形式,独立成篇吧。

你可能感兴趣的:(数据,数据挖掘,语言,R语言,rattle)