探索性数据分析-对分布进行可视化表示

对分布进行可视化表示

1 想要检查分类变量的分布,可以使用条形图,条形的高度表示每个x值中观测的数量(分类变量通常保存为因子或字符向量)
ggplot(data=diamonds)+
  geom_bar(mapping=aes(x=cut))
探索性数据分析-对分布进行可视化表示_第1张图片
屏幕快照 2020-06-03 下午4.38.19.png
2 想要检查连续变量的分布,可以使用直方图
ggplot(data=diamonds)+
  geom_histogram(mapping=aes(x=carat),binwidth=0.5)
探索性数据分析-对分布进行可视化表示_第2张图片
屏幕快照 2020-06-03 下午4.42.19.png

直方图对x轴进行等宽分箱,然后使用条形的高度来表示落入每个分箱的观测的数量,binwidth参数设定直方图中的间隔宽度(用x轴变量的单位来度量)

下面只考虑重量小于3克拉的钻石,并选择一个更小的分箱宽度

smaller=diamonds %>% 
  filter(carat<3)
ggplot(smaller,mapping=aes(x=carat))+
  geom_histogram(binwidth=0.1)
3 geo_freqplot()使用折线,可以叠加图形,执行与geom_histogram()同样的计算过程
ggplot(smaller,mapping=aes(x=carat,color=cut))+
  geom_freqpoly(binwidth=0.1)
探索性数据分析-对分布进行可视化表示_第3张图片
屏幕快照 2020-06-03 下午4.50.03.png
4.用缺失值来代替异常值,最简单的做法就是使用mutate()函数创建一个新的变量来代替原来的变量,使用ifelse()函数将异常值替换为NA
diamonds2=diamonds %>% 
  mutate(y=ifelse(y<3|y>20,NA,y))
ggplot(diamonds2)+
  geom_point(mapping=aes(x=x,y=y))
#ggplot2绘图时会忽略缺失值,但会提出警告
探索性数据分析-对分布进行可视化表示_第4张图片
屏幕快照 2020-06-03 下午6.04.44.png

你可能感兴趣的:(探索性数据分析-对分布进行可视化表示)