深入浅出数据分析|数据清洗

@(R语言)
深入浅出数据分析|数据清洗


数据

hfda_ch13_data_for_R.csv

加载数据

> getwd() #获取工作路径,并将数据文件置于路径文件夹
[1] "D:/Documents"
> hfhh <- read.csv("hfda_ch13_data_for_R.csv",header=TRUE) #加载数据,将.csv文件读入名为hfdd的表格中
> head(hfhh) #查看数据
深入浅出数据分析|数据清洗_第1张图片
查看数据.png

正则表达式

> NewLastName <- sub("\\(.*\\)","",hfhh$LastName) #NewLastName新的变量名称,
> head(NewLastName)
[1] "Rasmussen" "Rasmussen" "Ware"      "Rasmussen" "Cook"      "Hubbard"  

正则表达式\\(.*\\)中,前边\\(实际代表左括号,\\)代表右括号,.表示任何字符,*代表任何数目*号前的字符。
整个正则表达式意味含括号的内容。

sub函数指定替换模式,此处用空格替换括号及其所包含的内容。

结果整理

> hfhh$LastName <- NULL #删除hfhh框架中原来的LastName
> hfhh["LastName"] <- NewLastName #在hfhh中增加新的LastName
> write.csv(hfhh, file="hfhh.csv") #保存文件为csv格式,文件名hfhh
深入浅出数据分析|数据清洗_第2张图片
hfhh结果.png

数据排序

> hfhhSorted <- hfhh[order(hfhh$PersonID), ] #依据hfhh中PersonID进行排序
> head(hfhhSorted, n = 50) #查看排序结果
深入浅出数据分析|数据清洗_第3张图片
排序结果.png

删除重复数据

> hfhhNamesOnly <- hfhhSorted #创建新的数据框架,显示唯一的名字并排序
> head(hfhhNamesOnly) #查看
> hfhhNamesOnly$CallID <- NULL #删除CallID
> hfhhNamesOnly$Time <- NULL #删除Time
> hfhhNamesOnly <- unique(hfhhNamesOnly) #unique函数删除重复数据
> head(hfhhNamesOnly, n=50)
深入浅出数据分析|数据清洗_第4张图片
删除重复数据.png
> write.csv(hfhhNamesOnly, file="hfhhNamesOnly.csv") #文件保存

这个不如Excel中操作来得快。


看完了统计学、数据分析,接下来看SQL。

--2017.1.1
--于实验中心510

你可能感兴趣的:(深入浅出数据分析|数据清洗)