R语言入门—描述性统计(一)

1.数据下载

国家统计局,注册账号,下载自己感兴趣的数据(csv格式)。本文下载5种甲乙类传染病的发病人数及死亡人数,网址:国家数据

国家数据

2.练习任务及目的

使用R语言进行数据描述性统计(平均数、中位数、标准差、正太分布情况),并可视化。熟悉R语言中常用的进行数据描述性统计的package及函数。

3.R语言优势

与常用统计软件相比(SPSS、Graphpad Prism),可用于大规模数据分析。(是吧?我也不确定)

4.实操

4.1导入数据

路径中将“\”替换为”/”,“\”在R中有特定功能,”data1”为存储数据的名称(自己设定),   “read.csv”为读取csv格式的函数,以下为函数格式,依照自己需求设定。

“header=TRUE”指代有header,“row.name=1”指第一行是名称。可查看RStudio中的environment,确定导入的数据。

4.2描述性统计

因要分析多种传染病在过去10年中发病及死亡的基本信息,所以将数据转置。转置函数“t()”,转置后data的数据覆盖原先的数据。

最简单的方式,直接利用“summary()”函数分析基本的数据信息,包括最小值、最大值、平均数、中位数及四分位数。

R语言入门—描述性统计(一)_第1张图片

R语言入门—描述性统计(一)_第2张图片

利用psych包的describe的函数,可以计算非缺失值的数量、平均数、标准差、中位数、结尾均数、绝对中位数、最小值、最大值、值域、偏度、峰度以及标准误。

安装包:install.package (“安装包名称”),载入包:library(package),然后使用describe函数。

R语言入门—描述性统计(一)_第3张图片

R中让人烦恼的就是选择太多!除了上述方法,还有Hmisc中的describe()函数、pastecs包中的stat.desc()函数,解决方式——依个人喜好。

你可能感兴趣的:(r语言,数据分析,开发语言)