可视化前三步走:数据类型,分析目的,实现工具
垂直条形图:类别在x轴
水平条形图:类别在y轴
简单条形图,并列条形图 堆叠条形图
attach(example2_1) #绑定数据框
table1<-table(社区)
table2<-table(性别)
table3<-table(态度) #生成频数表
layout(matrix(c(1,2,3,3),2,2,byrow=TRUE))#页面布局
par(mai=c(0.6,0.6,0.3,0.1),cex=0.7,cex.main=1,font.main=1)
#设置图形边距和字体大小
#绘制性别的条形图
barplot(table2,xlab="人数",ylab="性别",
horiz=TRUE,#水平放置
density=30,angle=0,#填充密度和密度线角度设置
col=c("grey50","grey80"),border="black", #颜色向量
main="(a)水平条形图")#标题
barplot(table3,xlab="态度",ylab="人数",
density=20,angle=90,col=c("red","blue"),
border=c(2,4),main="(b)垂直条形图")
barplot(table1,xlab="社区",ylab="人数",
cex.names=1.2,cex.lab=1.2,#字体变大
col=c("#FC8D62","#E78AC3","#66C2A5","#FFD92F")
,main="(c)垂直条形图")
par(mai=c(0.7,0.7,0.2,0.7),cex=0.7)
x<-sort(table(example2_1$社区),decreasing=TRUE)#生成一维表并将频数降序排列
palette<-RColorBrewer::brewer.pal(4,"Blues")#设置调色板
bar<-barplot(x,xlab="社区",ylab="频数",col=rainbow(4),ylim=c(0,1.2*max(x)))
#条形图
text(bar,x,labels=x,pos=3,col="black")#为条形图添加频数标签
y<-cumsum(x)/sum(x)#计算累计频数
par(new=T)#绘制一新图加在现有图上
plot(y,type="b",pch=15,axes=FALSE,xlab='',ylab='',main='')
#绘制累积频数折线
axis(side=4)#在第四个边增加坐标
mtext("累计频率",side=4,line=3,cex=0.8)#添加坐标轴标签
text(labels="累积分布曲线",x=3,y=0.92,cex=1)#添加注释文本
(p41书上b3b4定义代码有两处bug,照着打debug好久才发现qwq)
tab1<-table(性别,社区)
tab2<-table(性别,态度)
tab3<-table(社区,态度)
library(DescTools)
par(mfrow=c(2,2),mai=c(0.55,0.6,0.6,0.1),cex=0.7,cex.main=1,font.main=1)
b1<-barplot(tab1,beside=TRUE,xlab="社区",ylab="人数",
main ="(a)垂直并列",col=c("#66C2A5","#FC8D62"),
legend=rownames(tab1),
args.legend=list(x=12,y=19,ncol=2,cex=0.7,box.col ="grey80"))
BarText(tab1,b =b1, beside = TRUE , cex =1, top = TRUE )#添加频数标签
b2<- barplot (tab2, beside = TRUE , horiz =TRUE ,
xlab ="人数", ylab="态度",
main="(b)水平并列",
col = c("#66C2A5","#FC8D62"),
legend = rownames(tab2),
args.legend=list(x =9.2, y =7, ncol =2, cex =0.7,box.col ="grey80"))
BarText (tab2, b =b2, beside = TRUE , horiz = TRUE , cex =1, top = FALSE )
b3<-barplot (tab3,xlab ="态度", ylab ="人数",
main ="(c)垂直堆叠",
col = c ("#FC8D62","#E78AC3","#66C2A5","#FFD92F"),
legend=rownames (tab3),
args.legend =list(x =1.32, y =50, ncol =2, cex =0.7, box.col ="grey80"))
BarText (tab3, b=b3, cex =1)
b4<- barplot (tab3, horiz = TRUE , xlab ="人数", ylab ="态度",
main ="(d)水平堆叠",
col=c("#FC8D62","#E78AC3","#66C2A5","#FFD92F"),
legend = rownames (tab3),
args.legend =list(x =47, y =2.8, ncol =4, cex =0.7, box.col ="grey80"))
BarText (tab3, b =b4, horiz = TRUE , col ="black", cex =1)
tab4<-table(社区,性别)
tab5<-table(态度,社区)
par(mfrow=c(1,2),mai=c(0.6,0.6,0.4,0.4),cex=0.7,cex.main=1,font.main=1)
palette<-rev(RColorBrewer::brewer.pal(4,"Reds"))#设置调色板
spineplot(tab4,data=example2_1,col=palette[1:2],xlab="社区",ylab="性别",main="(a)性别与社区")
spineplot(tab5,data=example2_1,col=palette,xlab="态度",ylab="社区",main="(b)社区与态度")
两个以上变量使用,嵌套矩形面积与列联表相应单元的频数成正比
mosaicplot:绘制马赛克图
mosaic:vcd包 同上
strucplot:vcd包 同上
PlotMosaic:DescTools包 同上
geom_mosaic:ggmosaic包 同上
mosaicplot(~性别+社区+态度,
data=example2_1,
col=c("#E41A1c","#377EB8"),
cex.axis=0.8,off=5,main="")
pie:绘制饼图
plotrix::pie3D:3D饼图
par(mfrow=c(1,2),mai=c(0.1,0.4,0.1,0.4),cex=0.7)
tab<-table(example2_1$社区) #生成频数表
name<-names(tab) #设置名称向量
percent<-prop.table(tab)*100#计算百分比
labs<-paste(name," ",percent,"%",sep="")#设置标签向量
pie(tab,labels=labs,init.angle = 90,radius=1,main="(a)普通饼图")
plotrix::pie3D(tab,labels=labs,explode=0.1,labelcex=0.7,main="(b) 3D饼图")
library(plotrix)
library(RColorBrewer)
tab<-table(example2_1$社区)
name<-names(tab)
percent<-prop.table(tab)*100
labs<-paste(name," ",percent,"%",sep="")
fan.plot(tab,labels=labs,
max.span=0.9*pi, #设置扇形最大跨度
shrink=0.06,radius=1.2,#设置扇形错开的距离和半径
label.radius=1.4,ticks=200,#设置标签与扇形的距离
col=c("#FB8072","#FFFFB3","deepskyblue","pink"))#设置颜色向量
饼图挖个圈圈
饼环图能展示双层结构
ggDount:ggiraphExtra包 绘制环形图
ggPieDount:ggiraphExtra包 绘制饼环图
library(ggiraphExtra)
require(ggplot2) #require和library一样
library(gridExtra)
p1<-ggDonut(example2_1,aes(donuts=社区),colour="white",xmin=2,xmax=4,title="(a)环形图")
p2<-ggPieDonut(data=example2_1,aes(pies=社区,donuts=态度),title="(b)饼环图")
grid.arrange(p1,p2,ncol=2) #按两列组合两张图
hist:直方图绘制
lines(density(x)):为直方图增加核密度估计曲线
curve(dnorm(x,mean(x),sd(x))):为直方图增加均值为mean,标准差为sd的正态曲线
rug(x):画出x在坐标轴上位置
jitter(x):计算x的各扰动点
example2_2<-read.csv("example2_2.csv")
attach(example2_2)
par(mfrow=c(2,3),mai=c(0.4,0.5,0.4,0.1),cex=0.7,font.main=1)
hist(北京,labels=TRUE,col="#FFD92F",xlab="AQI",ylab="频数",ylim=c(0,90),main="(a)北京:添加频数标签")
hist(上海,breaks=20,col="skyblue",xlab="AQI",ylab="频数",main="(b)上海:数据分成20组")
hist(郑州,breaks=20,col="lightgreen",xlab="AQI",ylab="频数",main="(c)郑州:添加地毯图")
rug(郑州)#添加地毯图
hist(武汉,breaks=20,col="#FC8D62",xlab="AQI",ylab="频数",main="(d)武汉:添加扰动点")
rug(jitter(武汉))#添加扰动点
hist(西安,prob=TRUE,breaks=20,col="pink",xlab="AQI",ylab="密度",ylim=c(0,0.012),main="(e)西安:添加核密度曲线")
lines(density(西安),col="blue3",lwd=1)#添加核密度曲线
hist(沈阳,prob=TRUE,breaks=20,col="orange",xlab="AQI",ylab="密度",main="(f)沈阳:添加理论正态分布曲线")
curve(dnorm(x,mean(沈阳),sd(沈阳)),col="blue",add=TRUE)#添加正态分布曲线
b是指定分成20组绘制的直方图
c添加地毯图以观察实际数据在坐标轴上的分布
d计算数据扰动点,避免相同数据点在坐标轴上的重叠
e加的核密度曲线是以实际数据分布密度的估计,显示数据分布的形状
f添加理论正态分布曲线,与直方图比较可判断是否近似服从正态分布
直方图是粗略估计,核密度图是较为精准的估计(平滑曲线)
核密度曲线平滑程度取决于带宽bw,bw越大越平滑
d<-example2_2$北京
par(mfrow=c(1,3),mai=c(0.6,0.6,0.3,0.1),cex=0.7,cex.main=1,font.main=1)
d1<-density(d)
d2<-density(d,bw=3)
d3<-density(d,bw=10)
plot(d1,xlab="AQI",ylab="Density",main="(a)默认带宽")
plot(d2,col="red",xlab="AQI",ylab="Density",main="(b)bw=3")
polygon(d2,col="orange",border = "black")#填充橙色
plot(d3,col="red",xlab="AQI",ylab="Density",main="(c)bw=10")
polygon(d3,col="orange",border = "black")#填充
library(reshape2)
library(DescTools)
df<-melt(example2_2,id.vars=c("日期"),variable.name="城市",value.name="AQI")#将数据融合成长格式
par(mfrow=c(2,1),mai=c(0.6,0.6,0.3,0.1),cex=0.7,font.main=1)
PlotMultiDens(data=df,AQI~城市,col=Pal(),xlab="AQI",ylab="Density",xlim=c(-1,400),lwd=1,main="(a)核密度曲线")
PlotMultiDens(data=df,AQI~城市,xlab="AQI",ylab="Density",xlim=c(-1,400),fill=SetAlpha(rainbow(6),0.2),main="(b)填充颜色")
用于比较多个变量或多个样本的分布
展示分布是否对称,是否存在离群点
boxplot:绘制箱线图
boxplot参数
range:默认=1.5倍四分位差为内围栏,range=0将极值与箱子连线
width:自定义箱子宽度
varwidth:默认FALSE所有箱子宽度一样,TRUE宽度与样本量的平方根成正比
notch:TRUE绘制凹槽箱线图
horizontal:TRUE将箱线图横置
points函数:添加点
par(mai=c(0.6,0.6,0.1,0.1),cex=0.7)
palette<-RColorBrewer::brewer.pal(6,"Set2")#设置离散型调色板
boxplot(example2_2[,2:7],xlab="城市",col=palette,ylab="AQI")
points((apply(example2_2[,2:7],2,mean)),col="blue3",cex=1.5,pch="+")#用+号画出均值点
比箱线图多显示核密度估计曲线
vioplot:vioplot包 绘制小提琴图
library(vioplot)
par(mfrow=c(1,1),mai=c(0.6,0.6,0.1,0.1),cex=0.7)
palette<-RColorBrewer::brewer.pal(6,"Set2")#设置离散型调色板
points((apply(example2_2[,2:7],2,mean)),col="blue3",cex=1.5,pch="+")#画出均值点
vioplot(example2_2[2:7],col=palette,xlab="城市",ylab="AQI")
数据量小时,能保留原始数据信息
stem.leaf:aplpack包 绘制茎叶图
stem.leaf.backback:背靠背茎叶图
library(aplpack)
stem.leaf(example2_2$北京,unit=1,m=1) # 数据的单位为1,茎叶图的行数为1
1 | 2: represents 12
leaf unit: 1
n: 365
6 2 | 378899
40 3 | 0000002233334445555566688899999999
82 4 | 000001111223333344555666777777788888888999
120 5 | 00011122444445555556666667777888899999
160 6 | 0000000011111112344444445555557777788899
(42) 7 | 000001222233333334444444455555567888888999
163 8 | 00001233555556677789
143 9 | 00011223444566778
126 10 | 0000011112344444455789999
101 11 | 0222333446777777889999
79 12 | 00033444667777899
62 13 | 0001224457788999
46 14 | 12233445679
35 15 | 001468
29 16 | 22336779
21 17 | 013555889
12 18 | 036789
6 19 | 35
HI: 213 233 233 267
#背靠背茎叶图 可以比较上半年和下半年AQI分布差异
> library(aplpack)
> stem.leaf.backback(example2_2$北京[1:181],example2_2$北京[182:365],back.to.back=TRUE) # 数据的单位为1,茎叶图的行数为1
__________________________________________________________________
1 | 2: represents 12, leaf unit: 1
example2_2$北京[1:181] example2_2$北京[182:365]
__________________________________________________________________
| 2 |378899 6
16 9999886655533220| 3 |000003344455689999 24
38 9988887776554322111000| 4 |00133334566777788889 44
57 9888777666655444221| 5 |0001144555566789999 63
77 99855544431111000000| 6 |00111244445557777788 83
(20) 99888886554444333210| 7 |0000222333344445555789 (22)
84 875555100| 8 |00233566779 79
75 8774410| 9 |0012234566 68
68 99874441110| 10 |00001234445599 58
57 877764322| 11 |0233477789999 44
48 9766444300| 12 |0377789 31
38 999887544210| 13 |0027 24
26 54321| 14 |234679 20
21 864| 15 |001 14
18 9632| 16 |2377 11
14 95510| 17 |3588 7
9 8760| 18 |39 3
5 53| 19 |
| 20 |
__________________________________________________________________
HI: 213 233 267 HI: 233
n: 181 184
__________________________________________________________________
各数据用点绘制在图中
点图有多种形式,最常见的是克利夫兰(Cleveland)点图
检测数据离群点的有效工具
当数据量较少时,可以替代直方图和箱线图来观察数据的分布
df<-melt(example2_2,id.vars=c("日期"),variable.name="城市",value.name="AQI")#将数据融合成长格式
par(mai=c(0.6,0.6,0.2,0.2),cex=0.7,font=2)
palette<-rev(RColorBrewer::brewer.pal(6,"Set2"))#设置调色板
dotchart(df$AQI,groups=df$城市,gcolor=palette,lcolor="grey95",pch="o",col=palette[df$城市],pt.cex=0.3,xlab="AQI",ylab="城市")
观察两个变量间是否有关系,观察关系的形态以及关系强度
plot:绘制散点图
lm:对数据进行线性回归
abline:加入拟合函数
example2_3<-read.csv(("example2_3.csv"))
plot(example2_3$总股本,example2_3$每股收益,pch=19,col="green4",xlab="总股本",ylab="每股收益")
abline(lm(example2_3$每股收益~example2_3$总股本),lwd=2,col="red")#添加回归线
如果想在散点图中反映两个变量的分布信息,可在散点图中添加每个变量的边际图
library(ggpubr)
ggscatterhist(example2_3,x="总股本",y="每股收益",
title="边际图为直方图的散点图",
size=1,color="forestgreen",#设置点的大小和颜色
rug=TRUE,#添加地毯图
margin.plot="histogram",#设置边际图的类型为直方图
margin.params=list(fill="deepskyblue",color="black"),#设置边际图的填充颜色和线的颜色
ggtheme=theme_minimal())#设置图形主题
将多幅散点图绘制成矩阵的形式
散点图矩阵中,对角线上下两部分是对称的图形,也可以将对角线的下方(或上方)绘制出一种形式的散点图(或相关系数),对角线上方(或下方)绘制出另一种形式的散点图(或相关系数)
普通的散点矩阵
plot(example2_3,cex=0.8,gap=0.5)
#设置点的大小和各散点图之间的间隔
主对角线上绘制了每个变量的核密度图,用于分析各变量的分布特征,为回归建模提供参考;散点图中分别绘制了拟合的直线曲线以及置信区间,椭圆越扁平,相关性越强
library(car)
scatterplotMatrix(~总股本+每股收益+每股净资产+每股现金流量,example2_3,
diagonal=TRUE,#对角线绘制各本例的核密度图
ellipse=TRUE,#绘制椭圆
col="steelblue3",#设置颜色
gap=0.5)
带影线的矩形,左下到右上斜线代表正相关,使用蓝色,相关系数越大相关性越强
左上到右下斜线负相关,红色
library(corrgram)
corrgram(example2_3,main="在对角线下方画出阴影线,上方画出饼图",
order=TRUE,#按相关系数排列变量
lower.panel=panel.shade,#对角线下方绘制阴影线
upper.panel=panel.pie)#对角线上方绘制饼图
表示三个变量之间的关系
绘制3D散点图的函数
scatter3D:plot3D包
scatterplot3d:scatterplot3d包
scatter3d:vcd包
library(lattice)
#绘制a图
p1<-cloud(总股本~每股收益+每股净资产,data=example2_3,
par.settings=list(par.xlab.text=list(cex=0.6),#x轴标签字体大小
par.ylab.text=list(cex=0.6),
par.zlab.taxt=list(cex=0.6)),
main="(a)总股本~每股收益+每股净资产")
#绘制b图
p2<-cloud(每股收益~每股净资产+每股现金流量,data=example2_3,
par.settings=list(par.xlab.text=list(cex=0.6),
par.ylab.text=list(cex=0.6),
par.zlab.taxt=list(cex=0.6)),
main="(b)每股收益~每股净资产+每股现金流量")
#组合ab两图
plot(p1,split=c(1,1,2,1))
plot(p2,split=c(2,1,2,1),newpage=F)
用变量x和y画出散点图,第3个变量数值的大小用圆的大小表示
symbols:气泡图 inches,fg,bg
attach(example2_3)
symbols(每股收益,每股净资产,总股本,
inches=0.15,#设置气泡半径
fg="black",#圆的颜色
bg="pink")#圆的填充颜色
mtext("气泡大小=总股本",line=-2,cex=0.8,adj=0.1)#添加注释文本
比较样本是否有相似性
轮廓图,雷达图,星图,脸谱图,聚类图,热图
介绍轮廓图,雷达图,星图
轮廓图(outline plot)(平行坐标图,多线图):x轴表示各样本,y轴表示每个样本的多个变量的数值,将同一样本在不同变量上的观测值用折线连接起来。
观察折线形状,排列方式,可比较样本在多变量上取值的相似性及差异
PlotLinesA:绘制轮廓图
example2_4<-read.csv("example2_4.csv")
library(DescTools)
mat<-as.matrix(example2_4[,2:9])
rownames(mat)=example2_4[,1]#数据框转换成矩阵
par(mai=c(0.6,0.6,0.1,0.1),cex=0.6)
PlotLinesA(t(mat),xlab="消费项目",ylab="支出金额",args.legend=NA,
col=rainbow(13),pch=21,pch.col=1,pch.bg="white",pch.cex=1)
legend(x="topright",legend=example2_4[,1],lty=1,
col=rainbow(13),box.col="grey80",inset=0.01,ncol=1,cex=0.8)#添加图例
雷达图(蜘蛛图):不同坐标的刻度可能不可比,多条线之间比较才有意义
ggRadar:雷达图 theme中参数axis.text,legend.position,legend.text
radarchart:fmsb包 绘制雷达图
library(ggiraphExtra)
library(ggplot2)
ggRadar(data=example2_4,rescale=FALSE,#尺度不缩放,使用原始数据
aes(group=地区),alpha=0,size=1)+#按地区分组
theme(axis.text=element_text(size=7),#设置坐标轴字体大小
legend.position="right",#设置图例位置
legend.text=element_text(size="6"))+#设置图例字体大小
theme_bw()#去掉底色
星图称为雷达图(蜘蛛图)
从一个点出发,每个变量用一条射线表示,P个变量形成P条射线(P个坐标轴),每个样本在P个变量上的取值连接成线,即围成一个区域,多个样本围成多个区域
利用雷达图也可以研究多个样本之间的相似程度
需要先对变量做标准化处理
stars:绘制星图,参数full,scale,len,mar,cex
symbol:symbols包
symbol函数中参数type不同图不同,star星图,sun太阳图,bar条形图,profile断面图
mat<-as.matrix(example2_4[,2:9])
rownames(mat)=example2_4[,1]#数据框转化成矩阵
stars(mat,nrow=4,#排列成4行
full=TRUE,#绘制出满圆当作图例
scale=TRUE,#将数据缩放到[0,1]范围
len=1,#设置半径或线段长度的比例
draw.segments=TRUE,#绘制线段图,
key.loc = c(7,2,3),#并设置位置
mar=c(0.5,0.1,0.1,0.1),#设置图形边界
cex=1.1)#设置标签字体大小
library(symbols)
symbol(example2_4,type="sun",colin=1,labels=1,labelsize=1,scheme=1)
在不同时间点上记录的一组数据
最基本使用折线图和面积图
书上两段代码均有错误,上课没认真听讲,问了同学结果发现老师也没彻底改对赫赫
example2_2<-read.csv("example2_2.csv")
library(reshape2)
library(ggplot2)
date<-as.Date(example2_2$日期)#将日期转化成日期变量date
d<-data.frame(日期=date,example2_2[,-1])#date合并到数据框d中
df<-melt(d,id.vars="日期",variable.name="城市",value.name = "AQI")#融合数据为长格式
mytheme<-theme(legend.position = "none",
axis.title = element_text(size=10),
axis.text=element_text(size=7))
ggplot(df,aes(x=日期,y=AQI,color=城市))+
geom_line()+
facet_wrap(vars(城市),ncol=2)+mytheme