R学习记录 - Cleaning Data

做过数据分析的都知道,可能只有25%左右的时间是花在分析数据上边的,剩下的时间都在清洗数据(cleaning data)。所以清理数据是数据分析中超级费时间,但是超级重要的事情。

以前我清理数据基本上就重点看3个事情:

  1. 重复值
  2. 极端值
  3. 缺失值

不过这只是自己总结的东西,今天算是比较系统地在datacamp上学了清理数据的过程,感觉以后清理数据更有信心了。

通过这次学习我理解的主要过程稍微升级了一点:

  1. 观察数据:看数据的结构、极值等,主要用str(),summary()等函数
  2. 整理数据结构:调整长宽,格式等,主要用到 library(tidyr)
  3. 最后才是missing value,extreme value等,
    3.1 缺失值:1) 缺失总数 sum(is.na()), 2)在哪?which(), 3) 替换

3.2 极端值:主要用到可视化工具:hist(), boxplot(), plot()

这次只是初步的清理数据,后边对缺失值、极端值的处理还有很多讲究,还需要深入学习,加油!

最后贴上证书激励自己一下!

image.png

你可能感兴趣的:(R学习记录 - Cleaning Data)