WPS数据清洗+R语言读取文件画频数分布直方图

R语言是一门好语言,但很多人在读取文件中数据时会遇到问题。比如我遇到的问题就是从文件中读取数据后,数据无法用于画图。

检索了N篇博文(抱歉我实在无法一一列举30+篇博文)后,终于看到曙光,事实告诉我学任何一门语言都需要至少投资一本教材(譬如《R语言编程艺术》(美)Norman Matloff著,陈堰平、邱怡轩、潘岚锋 等译)。

下面展示一个栗子:

D市每日接电话报警数已知,求何时警情比较集中?

这明摆着是个统计问题,频数分布直方图就能完美解决。

鉴于并不是所有Office软件都支持直接画频数分布直方图,我想到了大学时代刘苗老师教我们的现代统计软件课——没错,就是R。

R语言在于短小精悍且图形优美,感觉就是统计软件界的python嘛!

下面开始:

1.数据清洗 

为了便于技术分享,我将数据脱敏。去掉接报警详细内容,只保留接报警时间一列:

WPS数据清洗+R语言读取文件画频数分布直方图_第1张图片

图片只截取了一部分,日期是从2023-05-01到2023-05-31的,我们统计的是每日接报警集中情况,所以应将日期元素清洗掉。该怎么办呢?

这里康妮猫用了一个比较讨巧的做法:分列

WPS数据清洗+R语言读取文件画频数分布直方图_第2张图片

是的,就是WPS自带的分列功能,可以将每一行“日期+时间”的数据拆分开。得到下图:(左列40000多是用WPS自带的格式转换为数据后得到的,右边是我们提取的时间数据)

WPS数据清洗+R语言读取文件画频数分布直方图_第3张图片

  将无用的左列删掉,再用WPS自带的格式转换将时间数据转换为小数。

 WPS数据清洗+R语言读取文件画频数分布直方图_第4张图片

2.数据读取

getwd()#获取工作空间地址
setwd("D:/data")#设置工作空间地址

times=read.table("ds2023May.txt")#把WPS里的数据复制粘贴到记事本,读取
typeof(times)#检验数据类型,发现是“list”

times=as.numeric(unlist(times))#这一步非常重要,接下来就可以操作咯

一定要用unlist()函数,否则读取的数据无法用于画图。发现其他方式的小伙伴一定要留言告诉我!

3.画图

hist(times)#这句虽然能出图,但横坐标不对,我们来个操作
hist(times*24)

hist(times*24,xlab="h",ylab="人次",main="XX区5月电话报警峰谷图",sub="制图:Connie",xlim=c(0,25),ylim=c(0,500),col="blue",xaxt="n",yaxt="n")#这句出来个没坐标的图

执行代码,画出无坐标的图(因为我们要个性化坐标: ))

WPS数据清洗+R语言读取文件画频数分布直方图_第5张图片

 

 hist(times*24,xlab="h",ylab="人次",main="X区5月电话报警峰谷图",sub="制图:Connie",xlim=c(0,25),ylim=c(0,500),col="blue",xaxt="n",yaxt="n")#
axis(1,a)
axis(2,b)

WPS数据清洗+R语言读取文件画频数分布直方图_第6张图片

 如图所示,每日接报警情自6时起至8时不断增加,到中午12至13时有所下降,后上升至19时达到最高后又逐步下降。(我这个分析= =#仅供参考)

4.总结

a.前期数据清洗很重要。不然就会困死在一条代码上拔不出来。要灵活利用WPS自带的功能为我们减少工作负担~(别问我自动化水平降低怎么破,那是大神们的事)

b.画图要循序渐进,不要指望一条代码就解决整张图。

c.unlist()函数很重要,如果实在不知道数据类型就用typeof()查一查,秒懂!

好啦今天的分享就到这里,热爱Coding的你们,再会!

你可能感兴趣的:(仰望IT天空——R,r语言,开发语言,wps,绘图)