常用R包介绍

这里面提到的很多R包都是Rstudio公司旗下的,其中又有好几个R包是由Hadley Wickham大神所写的。

数据加载

  • R可以不需要任何工具,直接用read.csv, read.table, read.fwf等函数读取加载纯文本格式文件
  • RODBC, RMySQL, RPostgresSQL, RSQLite :从数据库中读取加载数据
  • readxl : 从Excel中读取加载数据
  • haven : 从SAS/SPSS格式的数据集中读取加载数据
  • readr: 读取csv等文本格式的数据,效率比R自带读取函数要高5~10倍;

数据处理

数据处理里面提到的R包都是Rstudio公司旗下的。

  • dplyr - 必备的数据处理工具,可以对数据集做subset, summarize, rearrange, join等处理
  • tidyr - 利用gather和spread函数将数据集转化成格式更工整的数据集
  • stringr - 一个简单易上手的对字符串类型的数据进行正则表达式处理的工具
  • lubridate - 处理日期和时间类型数据的工具

数据可视化

  • ggplot2 - R中最著名的可视化工具包
  • ggvis - 一个可以做基于web的交互可视化工具包
  • rgl - 在R中做3D交互可视化
  • htmlwidgets - 一个在R中快速建立基于JavaScript内核的交互可视化工具包
  • googleVis - 利用Google Chart工具在R中做数据可视化

数据建模

  • car - 做方差分析
  • mgcv - 调用广义相加模型
  • lme4 / nlme - 调用线性/非线性混合效应模型
  • rendomForest - 调用机器学习中的随机森林模型
  • multcomp - 做多重比较分析
  • vcd - 实现分类数据做可视化及测试
  • glmnet - 调用Laso and elastic-net回归模型及交叉检验
  • survival - 做生存分析
  • caret - 训练回归/分类模型的工具包

处理和分析大数据集

  • sparklyr: Rstudio公司开发的在R中使用spark的接口程序库;
  • sparkR: spark社区提供的访问spark的R语言程序库。spark官方还提供Java,Scala,Python语言接口。

可视化报告

  • shiny - 一个用R做交互可视化的应用
  • R Makdown - 用R做数据分析报告的必备工具
  • jupyter notebook:数据科学家最喜欢的编程环境。
  • xtable - 将R中的数据对象(如data frame)转换成HTML/LaTeX代码的工具

处理时间序列及金融数据

  • zoo - 提供最流行的格式在R中存储时间序列对象
  • xts - 灵活处理时间序列数据集的工具
  • quantmod - 下载金融数据并做可视化、技术性分析的工具

处理web数据

  • XML - 用R读写XML文件
  • jsonlite - 用R读写JSON文件
  • httr - 处理http链接的工具集合

你可能感兴趣的:(常用R包介绍)