数据分析R语言实战学习记录-创建数据集

按照个人要求的格式来创建含有研究信息的数据集,这是任何数据分析的第一步。在R中,这个任务包括如下两步:

  • 选择一种数据结构来存储数据;
  • 将数据输入或导入到这个数据结构中。

数据集的概念
数据集通常是由数据结构成的一个矩形数组,行表示观测,列表示变量。

不同的行业对于数据 的行和列法不同。
统计学家称它们为观测(observation)和变量(variable),
数据库分析师称其为记录(record)和字段(field),
数据挖掘/机器学习学科的研究者叫示例(example)和属性(attribute)。

数据结构
R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。
它们在存储数据的类型、创建方式、结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同。

数据分析R语言实战学习记录-创建数据集_第1张图片
Paste_Image.png

向量是用于存储数值型、字符型或逻辑型数据的一堆数组。执行组合功能的函数c()可以用来创建向量。各类向量如下例所示:

数据分析R语言实战学习记录-创建数据集_第2张图片
Paste_Image.png

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix创建矩阵。

数据分析R语言实战学习记录-创建数据集_第3张图片
Paste_Image.png

数组(arry)与矩阵类似,但是维度可以大于2.数组可通过array函数创建。

数据分析R语言实战学习记录-创建数据集_第4张图片
Paste_Image.png

数组是矩阵的一个自然推广。它们在编写新的统计方法时可能很有用。像矩阵一样,数组中的数据也只能拥有一种模式。

数据框
数据框更像个表。

数据分析R语言实战学习记录-创建数据集_第5张图片
Paste_Image.png
数据分析R语言实战学习记录-创建数据集_第6张图片
Paste_Image.png
数据分析R语言实战学习记录-创建数据集_第7张图片
Paste_Image.png

因子
名义型变量是没有顺序之分的类别变量。例如Diabetes(Type1,Type2)。
有序变量表示一种顺序关系,而非数量关系。

数据分析R语言实战学习记录-创建数据集_第8张图片
Paste_Image.png

列表
是R数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。列表允许整合若干(可能无关的)对象到单个对象名下。例如,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。可以使用函数list()创建列表:

数据分析R语言实战学习记录-创建数据集_第9张图片
Paste_Image.png

输入方法总结
使用各种导入功能时,需要安装各种包满足导入功能的需要,例如:
1.使用键盘输入,需要安装XQuartz,需要访问其官网下载个79M的安装包。
2.加载excel的导入包RODBC时,需要解决安装依赖,需要在mac上执行

brew install unixODBC

在这里遇到了加载RODBC后,找不到方法odbcConnectExcel方法的问题。

数据分析R语言实战学习记录-创建数据集_第10张图片
Paste_Image.png

这个方法行不通,看了看RStudio,发现import功能,会自动安装包,xlsx可以直接安装。

可能是包资源有升级的缘故,原先的资源已经不好使了。
网络正常的情况下,所有导入功能全部下载成功。

数据分析R语言实战学习记录-创建数据集_第11张图片
Paste_Image.png

总结一下第二节课:
这节课涵盖了数据集的概念、数据结构、数据的输入、数据集的标注和处理数据对象的实用函数。
数据结构详细例举了向量、矩阵、数据、数据框、因子和列表的使用方式。
数据的输入从键盘输入到从其他的数据分析格式的文件中导入数据的方法。
数据集的标注是为了使数据结构更易解读,为变量名添加描述性标签,为类别型变量添加值标签。
处理对象的使用函数包含length,dim,str,class,mode,names,c,cbind,rbind,Object,head,tail,ls,rm,newobject,fix。

你可能感兴趣的:(数据分析R语言实战学习记录-创建数据集)