Rattle :基于R的数据挖掘工具(1):简介和安装

原文地址http://site.douban.com/182577/widget/notes/10567212/note/241676525/

很好的Rattle工具使用介绍

1.Rattle是什么
     数据挖掘是当今时代的一门核心技术,提供了对大数据的描述,探索,模式的识别和预测。数据挖掘者们从统计,机器学习和计算科学中寻找各种适用的方法和工具。很多专门或通用的数据软件包被先后开发出来。

     作为优秀的统计软件包,R语言也提供了强大的数据挖掘工具,但是这些工具分散在数以百计的R 包之中,而且写脚本和编程往往也会成为快速解决问题的障碍。rattle包的出现很好的解决了这个问题。

    Rattle是一个用于数据挖掘的R的图形交互界面(GUI),可用于快捷的处理常见的数据挖掘问题。从数据的整理到模型的评价,Rattle给出了完整的解决方案。Rattle和R平台良好的交互性,又为用户使用R语言解决复杂问题开启了方便之门。Rattle易学易用,不要求很多的R语言基础,被广泛的应用于数据挖掘实践和教学之中,在澳大利亚,有至少15个政府部门采用Rattle作为标准的数据挖掘工具(http://en.wikipedia.org/wiki/Rattle_GUI)。

2.Rattle的实现
     在R中,Rattle使用RGtk2 包提供的Gnome图形用户界面,可以在WINDOWS,
MAC OS/X,Linux等多个系统中使用。
  
    图形界面GUI由Glade 交互界面生成器开发,这会产生一个于编程语言无关的XML描述来用来生成用户交互界面的窗口部件。

    Glade允许开发者自由的选择特定的编程语言来实现功能,对Rattle来说,这个语言就是R。最早的Rattle事实上是使用Python来实现回调(callbacks)
使用rpy调用R完成统计工作。RGtk2包的出现,使得Rattle的界面实现完全由R来写成,这样Rattle才完全成为了一种基于R的应用。
  
  Rattle基于大量的R包:RGtk2, pmml, colorspace, ada, amap, arules, biclust, cba, descr, doBy, e1071, ellipse, fEcofin, fBasics, foreign, fpc, gdata, gtools, gplots, gWidgetsRGtk2, Hmisc, kernlab, latticist, Matrix, mice, network, nnet, odfWeave, party, playwith, psych, randomForest, reshape, RGtk2Extras, ROCR, RODBC, rpart, RSvgDevice, survival, timeDate, graph, RBGL, bitops等等。借助于这些包,Rattle可以实现特殊的统计计算,图形设备,输入输出等等功能。这些R包会在Rattle的安装和使用过程中会不断地安装在你的R 当中。

     Rattle不仅仅是一个所见所得GUI工具,它还有很多扩展功能。pmml包是在Rattle基础上发展起来的一个R包,它使用基于PMML的开放标准XML ,或预测模型标记语言。按这种方式由R导出的模型可以输入类似于由云计算机驱动的ADAPA决策引擎的工具,从而可以在多个平台上运行。

3.Rattle的安装
   在WINDOWS系统中的安装(其它系统俺没用过)。
   首先需要安装R,然后要保证Gnome 和Glade已经安装在电脑上。
   Rattle的资源代码由http://rattle.googlecode.com提供,可以象安装R包的方式进行安装(本来就是个R包嘛)。
  在R控制台,键入:

> install.packages("RGtk2")
> install.packages("rattle")

  可以完成rattle 包的安装。
  载入这个包:

> library(rattle)
> rattle( )
  
 Rattle的界面出来了

 

下面就开始Rattle的数据挖掘之旅吧。

参考:
1 Graham J Williams,Rattle: A Data Mining GUI for R,The R Journal Vol. 1/2, December 2009.
2 Graham J Williams, Data Mining with Rattle and R, Springer Verlag,2011.

ps:关于Data Mining with Rattle and R这本书,我觉得作者很努力地想把R,Rattle,和数据挖掘这几个主题融合到一起,但是关于数据挖掘的算法介绍流于“直观”,关于R的数据挖掘讲解的又不够,篇幅所限,也是很难为了。

你可能感兴趣的:(数据挖掘,语言,R语言,rattle)