如何使用R语言中的内置数据集?

如何使用R语言中的内置数据集

最近在学习PSM分析方法时,找了许久也找不到相应的案例数据, 就想到了使用R语言中内置的数据集来进行学习。R语言内置数据集有两个优点: 一是,数据源真实可靠,多数是研究者贡献的真实研究数据,数据共享不涉及版权问题;二是,使用方便,不需要费力的全网搜索。如何使用R语言中的内置数据集?

  1. 查看R语言的内置数据集
    R的内置数据集一共有两种:R内部 datasets 包中的数据集以及安装的其他 package 中包含的数据集,这些数据集的查看方法如下:
data(package = .packages(all.available = TRUE)) #查看所有数据集

data()#查看 R 内存中 datasets 包中的数据集,datasets 包提供了 100 个可以使用的数据集

data(package="MatchIt")#查看 MatchIt 包中的数据集

help("lalonde") #查看 lalonde 数据集的信息文档
?lalonde #查看 lalonde 数据集的信息文档
  1. 使用内置数据集
str(lalonde)#显示 lalonde 的 数据基本信息
'data.frame':	614 obs. of  10 variables:
 $ treat   : int  1 1 1 1 1 1 1 1 1 1 ...
 $ age     : int  37 22 30 27 33 22 23 32 22 33 ...
 $ educ    : int  11 9 12 11 8 9 12 11 16 12 ...
 $ black   : int  1 0 1 1 1 1 1 1 1 0 ...
 $ hispan  : int  0 1 0 0 0 0 0 0 0 0 ...
 $ married : int  1 0 0 0 0 0 0 0 0 1 ...
 $ nodegree: int  1 1 0 1 1 1 0 1 0 0 ...
 $ re74    : num  0 0 0 0 0 0 0 0 0 0 ...
 $ re75    : num  0 0 0 0 0 0 0 0 0 0 ...
 $ re78    : num  9930 3596 24909 7506 290 ...

lalonde 数据集为最传统的倾向值匹配分析所用到的数据集.数据如下所示, 共有 10 个变量, 614 个观测,试验组 185 例, 对照组 429 例. treat 变量为分组变量 (是否参加就业培训) , “1” = 试验组, “0” = 对照组. age (年龄), educ (教育年限), black (是否为黑人), hispan (是否为拉丁族), married (是否结婚), nodegree (是否受过教育), re74 (1974 年实际收入), re75 (1975 年实际收入) 等为协变量, re78 (1978 年实际收入) 为结局变量.

summary(lalonde)# lalonde 数据的简单统计描述
 treat             age             educ           black       
 Min.   :0.0000   Min.   :16.00   Min.   : 0.00   Min.   :0.0000  
 1st Qu.:0.0000   1st Qu.:20.00   1st Qu.: 9.00   1st Qu.:0.0000  
 Median :0.0000   Median :25.00   Median :11.00   Median :0.0000  
 Mean   :0.3013   Mean   :27.36   Mean   :10.27   Mean   :0.3958  
 3rd Qu.:1.0000   3rd Qu.:32.00   3rd Qu.:12.00   3rd Qu.:1.0000  
 Max.   :1.0000   Max.   :55.00   Max.   :18.00   Max.   :1.0000  
     hispan          married          nodegree           re74      
 Min.   :0.0000   Min.   :0.0000   Min.   :0.0000   Min.   :    0  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:    0  
 Median :0.0000   Median :0.0000   Median :1.0000   Median : 1042  
 Mean   :0.1173   Mean   :0.4153   Mean   :0.6303   Mean   : 4558  
 3rd Qu.:0.0000   3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.: 7888  
 Max.   :1.0000   Max.   :1.0000   Max.   :1.0000   Max.   :35040  
      re75              re78        
 Min.   :    0.0   Min.   :    0.0  
 1st Qu.:    0.0   1st Qu.:  238.3  
 Median :  601.5   Median : 4759.0  
 Mean   : 2184.9   Mean   : 6792.8  
 3rd Qu.: 3249.0   3rd Qu.:10893.6  
 Max.   :25142.2   Max.   :60307.9  

结果显示了所有变量的简单描述性统计指标包括:最小值(Min), 25%分位数(1st Qu.), 50%分位数(Median), 均值(Mean), 75%分位数( 3rd Qu.), 最大值(Max).

你可能感兴趣的:(R语言学习笔记)