数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线

1、散点图

icecream <- read.csv("icecream.csv")
install.packages("ggplot2")
library(ggplot2)
icecream %>% ggplot(aes(b,a))+geom_point()

数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线_第1张图片
2、相关系数

 icecream %>% select(b,a) %>% cor

结果如下:
b a
b 1.0000000 0.8442111
a 0.8442111 1.0000000
-1~-0.7 强负相关
-0.7 ~ -0.3 弱相关
-0.3 ~ 0.3 不相关
0.3 ~0.7 弱相关
0.7 ~ 1.0 强相关
3、线性回归模型

 ice.lm <- lm(a ~ b,data = icecream)
 summary(ice.lm)

4、时间序列模型

chaofan <- menus %>% filter(品名 == "炒饭")
> chaofan %>% ggplot(aes(日期,销售额)) + geom_line() + scale_x_date() +ggtitle("炒饭的销售额")

数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线_第2张图片

5、多个图像显示

install.packages("tidyr")
 library(tidyr)
 noodles2 <- menus %>% filter (品名 %in% c("饭团","味增汤","咖喱","茶泡饭","意大利面","酱汁炒面","乌冬面","什锦炒面","拉面")) %>%  select (品名,销售额,日期) %>% spread (品名,销售额)
 noodles2[,-1] %>% cor
结果:
              茶泡饭        饭团   酱汁炒面        咖喱       拉面
茶泡饭    1.00000000 -0.00971532  0.6080210  0.81505643  0.6269526
饭团     -0.00971532  1.00000000 -0.5029012 -0.02819566 -0.5100147
酱汁炒面  0.60802102 -0.50290122  1.0000000  0.62001363  0.9216830
咖喱      0.81505643 -0.02819566  0.6200136  1.00000000  0.6569293
拉面      0.62695258 -0.51001468  0.9216830  0.65692932  1.0000000
乌冬面    0.62932779 -0.48920782  0.8953787  0.61854210  0.9129860
意大利面  0.61656471 -0.48662582  0.9122944  0.63703048  0.9188441
             乌冬面   意大利面
茶泡饭    0.6293278  0.6165647
饭团     -0.4892078 -0.4866258
酱汁炒面  0.8953787  0.9122944
咖喱      0.6185421  0.6370305
拉面      0.9129860  0.9188441
乌冬面    1.0000000  0.8979937
意大利面  0.8979937  1.0000000

noodles2[,-1] %>% pairs 忽略最后一行

数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线_第3张图片
6、两个变量之间的散点图

udon <- menus %>% filter(品名 %in% c("饭团","乌冬面")) %>% spread(品名,销售额)
> udon %>% ggplot(aes(乌冬面,饭团)) + geom_point() +ggtitle("乌冬面和饭团的销售额")
> 

数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线_第4张图片
7、加一条拟合的直线

icecream %>% ggplot(aes(b,a)) + geom_point(size = 2) + geom_smooth(method = "lm",se = FALSE)

数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线_第5张图片

你可能感兴趣的:(数据分析之《菜鸟侦探挑战数据分析》-3-R语言-散点图,相关系数,回归线)