R语言操作(UDA)-- Part1: R基础

R基础

1.1 阅读并将数据子集化


R语言操作(UDA)-- Part1: R基础_第1张图片

1.2 因子变量:怎么看一个单变量统计信息,用summary()或者str()


R语言操作(UDA)-- Part1: R基础_第2张图片

1.3 有序因子:
str()查询之后,有些变量属于factor的,有levels。factor类型的变量是categorical type的,即:因数变量是一种分类变量,具有不同的偏好或者级别,例如就业状态,这个变量有多重不同的级别,比如全职就业或者兼职就业或者无工作,我们感兴趣的是每种就业状态下有多少人,我们可以将该变量制成表格。比如可以用table()来进行。R语言除了因数变量之外,还有很多种其他的数据类型,比如列表和矩阵。


R语言操作(UDA)-- Part1: R基础_第3张图片

上图中的age组别排序还可以调整:

R语言操作(UDA)-- Part1: R基础_第4张图片

R语言操作(UDA)-- Part1: R基础_第5张图片

1.4 数据加工:data munching数据咀嚼放在EDA之前,因为我们首先需要将数据整理成tidy data
可以在如下链接中学习如何manipulate dataset to be a tidy one:
http://flowingdata.com/2015/02/18/loading-data-and-basic-formatting-in-r/

1.5 给数据科学家or未来数据科学家的建议:

  • Find the data you are interested in and play with it!
  • Point out good questions and some points you and the audience would like to know, and then do your research.

你可能感兴趣的:(R语言操作(UDA)-- Part1: R基础)