R数据科学第五章DEA-day2

  • 缺失值

异常值处理办法

  1. 丢弃
diamonds2 <- diamonds %>%
filter(between(y, 3, 20))

选择y=3-20之间的数值。

  1. 用缺失值代替
diamonds2 <- diamonds %>% 
  mutate(y = ifelse(y < 3 | y > 20, NA, y))

ifelse() 函数有3 个参数。第一个参数test 应该是一个逻辑向量,如果test 为TRUE,函
数结果就是第二个参数yes 的值;如果test 为FALSE,函数结果就是第三个参数no 的值。

和R 一样,ggplot2 也遵循不能无视缺失值的原则。因为无法明确地绘制出缺失值,所以
ggplot2 在绘图时会忽略缺失值,但会提出警告以通知缺失值被丢弃了,要想不显示这条警告,可以设置na.rm = TRUE.

ggplot(data = diamonds2, mapping = aes(x = x, y = y)) +
geom_point(na.rm = TRUE)
  • 相关变动

1.分类变量与连续变量

ggplot(data = diamonds, mapping = aes(x = price)) +
geom_freqpoly(mapping = aes(color = cut), binwidth = 500)

Y默认是count值
三个变量显示

ggplot(
data = diamonds,
mapping = aes(x = price, y = ..density..)
) +
geom_freqpoly(mapping = aes(color = cut), binwidth = 500)

箱体图

ggplot(data = mpg, mapping = aes(x = class, y = hwy)) +
geom_boxplot()

箱体图排序

ggplot(data = mpg) +
geom_boxplot(mapping = aes(
x = reorder(class, hwy, FUN = median),
y = hwy))

FUN是分类依据(以基于hwy 值的中位数对class 进行重新排序)
倒置coord_flip()

总结:
filter()筛选
between()筛选范围
mutate()建立新变量
ifelse()筛选条件
na.rm=true显示NA值
geom_freqpoly()折线图
geom_boxplot ()箱体图
reorder()图形排序
coord_flip()倒置

你可能感兴趣的:(R数据科学第五章DEA-day2)