大数据的可视化:bigvis包的简单尝试

转载自:http://site.douban.com/182577/widget/notes/10568279/note/273907035/

bigvis包是Hadley Wickham的一个新作品。这个包提供了一个在使用可视化探索大数据(10-100 million 的观测)时候的一个四步框架:bin, summarise, smooth和visualise。这个包在这里:https://github.com/hadley/bigvis。关于这个包的资料还很少,只有Wickham自己的一篇文章 vita.had.co.nz/papers/bigvis.html。所幸,在Github上边,Wickham做了一个简单的介绍。下面来尝试一下。

bigvis包的安装需要devtools包
library(devtools)
install_github("bigvis")

使用一个“小的”数据集来做个简单尝试:黄石公园“老忠实”泉的数据,geyser(MASS包)

library(bigvis)
library(ggplot2)
library(MASS)

binData <- with(geyser, condense(bin(waiting, 5), bin(duration, .5)) ) #bin和summarise
autoplot(binData)# visualize

大数据的可视化:bigvis包的简单尝试_第1张图片
 

大数据的可视化:bigvis包的简单尝试_第2张图片


#使用ggplot2来做visualize
g<- ggplot(data=binData, aes(duration, waiting, fill=.count)) + geom_tile()
g + geom_point(data=geyser, aes(fill=NULL), colour="orange")
大数据的可视化:bigvis包的简单尝试_第3张图片
 
大数据的可视化:bigvis包的简单尝试_第4张图片

尝试一下光滑化smooth(注意和前一个图对比):
smoothBinData <- smooth(binData, h=c(20, 1))
p <- ggplot(data=smoothBinData, aes(duration, waiting, fill=.count)) + geom_tile()
p + geom_point(data=geyser, aes(fill=NULL), colour="orange")
大数据的可视化:bigvis包的简单尝试_第5张图片
 
大数据的可视化:bigvis包的简单尝试_第6张图片
最后来张Wickham论文里的图来撑撑场面,呵呵

大数据的可视化:bigvis包的简单尝试_第7张图片
大数据的可视化:bigvis包的简单尝试_第8张图片

你可能感兴趣的:(大数据的可视化:bigvis包的简单尝试)