R语言编程环境的安装和运行

1.基础知识

R主页http://www.r-project.org/获得R语言。在R 的安装程序中只包含了8 个基础模块,其他外在模块可以通过CRAN 获得(http://cran.r-project.org)。8个基础模块可用search()发现。

CRAN在R综合资料上获得,点击CRAN连接。可在CRAN上找到针对Windows,Linux以及Mac OS X的预编译二进制安装文件。 

R的安装目录/usr/lib/R/library。

2.R语言帮助功能

R提供了大量的帮助功能。

                            函数                                  函数功能

                             help.start()     打开帮助文档首页。第1节、第2节是R语言软件包的结构。

                ?foo 或者help("foo")     查看函数foo的帮助(引号可以省略)

        help.search("foo")或??foo      以foo为关键词搜索本地帮助文档

                       example("foo")      函数foo的使用实例(引号可以省略)

                  RSiteSearch("foo")      以foo为关键词搜索internet在线文档和邮件列表存档

apropos("foo", mode="function")   列出名称中含有foo的所有可用函数

                                    data()     列出当前已加载包中所有系统示例数据集,可在编程中使用。    

                               vignette()     列出当前已安装包中所有vignette文档

                        vignette("foo")     为主题foo显示指定的vignette文档

                       R.home('bin') R的安装目录

Vignette是有关一个软件包的重要介绍文档,Sweave编译生成LaTeX文件再生成PDF文档。

3.R语言的工作空间

工作空间(workspace)就是当前R的工作环境,储存着所有用户定义的对象(向量、矩阵、函数、数据框、列表)。当前的工作目录(working directory)是R用来读取文件和保存结果的默认目录。可以使用函数getwd()来查看当前的工作目录,或使用函数setwd()设定当前的工作目录。

                   函数                                函数功能

             savehistory("myfile")     保存输入的命令历史到文件myfile中(默认值为.Rhistory)

            loadhistory("myfile")       载入一个命令历史文件(默认值为.Rhistory)

           save.image("myfile")       保存工作空间到文件myfile中(默认值为.RData)

    save(objectlist, file="myfile")  保存指定对象到文件myfile

                     load("myfile")       读取一个工作空间到当前会话中(默认值为.RData)

                                   ls()        列出当前工作空间中的对象

                           options()        显示或设置当前选项

                         history(#)         显示最近使用过的#个命令(默认值为25)

                     rm(objectlist)        删除一个对象。可防止混淆。

      R语言命令结果的图形输出。虽然sink()可重定向文本输出,但它对图形输出没有影响。要重定向到图形文件输出,使用下面的函数即可。最后使用dev.off()可将输出返回到终端。

                      函数                                   函数输出

             pdf("filename.pdf")            重定向到PDF文件

win.metafile("filename.wmf")           Windows图元文件

             png("filename.png")          PBG文件

             jpeg("filename.jpg")           JPEG文件

            bmp("filename.bmp")          BMP文件

       postscript("filename.ps")          PostScript文件

在执行dev.off()后,结果将显示在屏幕上。这一次,没有文本或图形输出保存到文件中。

4.软件包CRAN

R语言是开源工具,能通过一个称为Comprehensive R Archive Network(CRAN)的公共库共享新的软件包。CRAN已经有超过7000个文档完善的包可供使用,增强了R语言的吸引力。在UNIX操作系统运行R语言,更受到一些应用者的欢迎,例如《R高性能编程》的作者。因为存在软件包只能在UNIX系统运行。例如:bigmemory。

5.R语言软件包的安装

 有许多R函数可以用来管理包。第一次安装一个包,使用命令install.packages()。举例来说,不加参数执行install.packages()将显示一个CRAN镜像站点的列表,选择其中一个镜像站点之后,将看到所有可用包的列表,选择其中的一个包即可进行下载和安装。如果知道自己想安装的包的名称,可以直接将包名作为参数提供给这个函数。例如,包gclus中提供了创建增强型散点图的函数。可以使用命令install.packages("gclus")来下载和安装它。一个包仅需安装一次。但和其他软件类似,包经常被其作者更新。使用命令update.packages()可以更新已经安装的包。要查看已安装包的描述,可以使用installed.packages()命令,这将列出安装的包,以及它们的版本号、依赖关系等信息。

    包的安装是指从某个CRAN镜像站点下载它并将其放入库中的过程。要在R会话中使用它。

6.R语言程序中软件包的加载

>library()

从硬盘中加载包。若要使用已经安装的包,单还没把它加载到内存,则用library()函数加载这个包。R是否可以处理大数据问题。程序员往往需要处理来自互联网、气候学、遗传学等研究领域的海量数据。由于R在内存中存储对象,往往会受限于可用的内存量。举例来说,2G内存Windows PC上可以轻松地处理含有1000万个元素的数据集(100个变量×100 000个观测)。在一台4G内存的iMac上,通常可以不费力地处理含有上亿元素的数据。但是也要考虑到两个问题:数据集的大小和要应用的统计方法。R可以处理GB级到TB级的数据分析问题,但需要专门的手段。 

    列出软件包的所有函数,

>library(help=mvtnorm)

>help(package=mvtnorm)

7.安装rJava软件包

(1)R语言配置rJava软件包环境

Sys.setenv(JAVA_HOME='C:/Program Files/Java/jdk1.6.0_33/jre')

rJava是一个R语言和Java语言的通信接口,通过底层JNI实现调用,允许在R中直接调用Java的对象和方法。

rJava还提供了Java调用R的功能,是通过JRI(Java/R Interface)实现的。JRI现在已经被嵌入到rJava的包中,现在rJava包,已经成为很多基于Java开发R包的基础功能组件。在JRI的方案中,JVM加载RVM,调用过程性能几乎无损耗,因此是非常高效连接通道,是R和Java通信的首选开发包。

(2)windows配置Java runtime enviorment

    控制面板->系统->环境变量

       JAVA_HOME        java runtime envir0nment安装目录

       PATH                  

       classpath   

windows 10版本 :此电脑-> 打开设置

8.函数read.xlsx()的参数

read.xlsx(file, sheetIndex, sheetName=NULL, rowIndex=NULL,startRow=NULL, endRow=NULL, colIndex=NULL,as.data.frame=TRUE, header=TRUE, colClasses=NA,keepFormulas=FALSE, encoding="unknown", ...)

参数:

file文件读取的路径

sheetIndex在工作簿中表示的表索引的数字

sheetName工作簿中表示的表索引的名称

rowIndex/colIndex 为空则提取所有行/列数据,数字向量指定想要提取的行/列

as.data.framea logical value indicating if the result should be coerced into a data.frame. If FALSE, the result is a list with one element for each column.

headerT or F,指定读取表格的第一行是否包含变量名称。缺省值是包括

colClassesFor read.xlsx a character vector that represent the class of each column. Recycled as necessary, or if the character vector is named, unspecified values are taken to be NA. For read.xlsx2 see readColumns.

keepFormulasa logical value indicating if Excel formulas should be shown as text in R and not evaluated before bringing them in.

encoding设定字符串编码格式

startRow/endRow指定要开始/结束读取数据的行数  

9.安装金融程序包

1.quantmod   #可下载雅虎财经数据

2.xts            #时间序列建立

3.timeDate

4.zoo

5.TTR

发现R语言系统中有多少金融数据分析程序包,可用search()命令。

>search()

[22] "Autoloads"          "package:base"      [19] "package:utils"      "package:datasets"   "package:methods"   [16] "package:stats"      "package:graphics"   "package:grDevices" [13] "package:xlsx"       "package:xlsxjars"   "package:rJava"     [10] "package:forecast"   "package:timeDate"   "package:zoo"        [7] "package:fBasics"    "package:timeSeries" "package:xts"        [4] "package:fUnitRoots" "package:urca"       "package:fGarch"     [1] ".GlobalEnv"         "package:rugarch"    "package:parallel" 

R语言同其他语言一样,在软件启动时,为我们提供了7个核心包。

10.  .R函数的执行

>source(".R")   #执行.R程序

11.常用软件包

1、数据挖掘的聚类

       常用的包: fpc,cluster,pvclust,mclust

      基于划分的方法: kmeans, pam, pamk, clara

      基于层次的方法: hclust, pvclust, agnes, diana

      基于模型的方法: mclust

      基于密度的方法: dbscan

      基于画图的方法: plotcluster, plot.hclust

      基于验证的方法: cluster.stats

2、数据挖掘的分类

      常用的软件包:

                rpart,party,randomForest,rpartOrdinal,tree,marginTree,

                maptree,survival

      决策树: rpart, ctree

      随机森林: cforest, randomForest

      回归, Logistic回归, Poisson回归: glm, predict, residuals

      生存分析: survfit, survdiff, coxph

3、数据挖掘的关联规则与频繁项集

      常用的包:

          arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

            DRM:回归和分类数据的重复关联模型

          APRIORI算法,广度RST算法:apriori, drm

           ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat

4、数据挖掘的序列模式

           常用的包: arulesSequences

          SPADE算法: cSPADE

5、经济统计时间序列

       常用的包: timsac,xts,zoo

       时间序列构建函数: ts(),as.xts()

      分解: decomp, decompose, stl, tsr

6、统计

        常用: Base R, nlme

       方差分析: aov, anova

       概率密度分析: density

       假设检验: t.test, prop.test, anova, aov

        线性混合模型:lme

       主成分分析和因子分析:princomp

        方差分析对应的是Kruskal-Wallis秩和检验(R: kruskal.test)
        T检验对应的是Wilcoxon符号秩和检验(R: wilcox.test)

7、可视化图表

         条形图: barplot

         饼图: pie

         散点图: dotchart

         直方图: hist

         概率密度图: densityplot

         箱形图: boxplot。观察数据的分布

         QQ (quantile-quantile) 图: qqnorm, qqplot, qqline

         Bi-variate plot: coplot

        树: rpart

         Parallel coordinates: parallel, paracoor, parcoord

         热图, contour: contour, filled.contour

         其他图: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot,
                     assocplot, mosaicplot

         保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png

8、数据操作

         缺失值:na.omit

        变量标准化:scale

        变量转置:t

       样本抽样选择:sample

        堆栈:stack, unstack

       其他:aggregate, merge, reshape

9、数据挖掘软件Weka的接口

          RWeka: 通过这个接口,可以在R中使用Weka的所有算法。

10.人工神经网络: nnet

11.支持向量机SVM:e1071
12. 核函数:kernlab

13.随机森林randomforest:randomForest
14.制作分位箱图:Hmisc

15.绘制图形:qplot,ggplot2,

     R语言初学者指南的作者认为,R可以做你想象的任何事情,但是没有我的程序结构。

     千里香榭丽舍大街,我愿人长久。

  

 

你可能感兴趣的:(R语言,金融数据分析,R语言,软件包,安装与运行,工作空间)