第一部分第2章 创建数据集

2.1 数据集的概念

数据集:有数据构成的一个矩形数组,行--观测observation,列--变量variable。

2.2 数据结构

数据的对象类型:标量、向量、矩阵、数组、数据框和列表。


  • 标量:只含一个元素的向量。
  • 向量:一维数组,函数c()来创建,必须相同的数据类型(数值型、字符型或逻辑型);访问向量中的元素用方括号[ ]。
  • 矩阵:二维数组,函数matrix来创建,必须相同的数据类型。选项byrow=TRUE按行填充,默认按列;使用下标和方括号来选择矩阵中的行、列和元素,如x[i,j]。
  • 数组:与矩阵类似,但维度可大于2。函数array()来创建。
  • 数据框:不同的列可以包含不同模式的数据。函数data.frame()来创建。函数attach(将数据框添加到路径中)/detach(移除数据框)/with。$访问特定变量。
  • 因子:名义型变量和有序变量在R中称为因子。函数factor()创建。
  • 列表:一些对象的有序集合。函数list()创建。双重方括号[[ ]]指明代表某个成分的数字或名称来访问列表中的元素。

2.3 数据的输入

  • 键盘输入数据
  • 从带分隔符的文本文件导入数据(.csv)
  • 导入Excel数据 (read.xlsx)
  • 导入XML数据
  • 从网页抓取数据
  • 导入SPSS数据
  • 导入SAS数据
  • 导入stata数据
  • 导入NetCDF数据
  • 导入HDF5数据
  • 通过Stat/Transfer导入数据

2.4 数据集的标注

  • 变量标签作为变量名
  • 函数factor()作为类别型变量创建值标签

2.5 处理数据对象的实用函数

函数 用途
length (object) 显示对象中元素/成分的数量
dim (object) 显示某个对象的维度
str(object) 显示某个对象的结构
class(object) 显示某个对象的类或类型
mode(object) 显示某个对象的模式
names(object) 显示某对象中各成分的名称
c(object, object,...) 将对象合并入一个向量
cbind(object, object,...) 按列合并对象
rbind(object, object,...) 按行合并对象
object 输出某个对象
head(object) 列出某个对象的开始部分
tail(object) 列出某个对象的最后部分
ls() 显示当前的对象列表
rm(object, object,...) 删除一个或更多个对象
newobject <- edit(object) 编辑对象并另存为newobject
fix(object) 直接编辑对象

2.6 小结

你可能感兴趣的:(第一部分第2章 创建数据集)