第5章高级数据管理

《R语言实战》笔记系列

本章学习大纲

1.数学和统计函数

2.字符处理函数

3.循环和条件执行

4.自编函数

5.数据整合与重塑

第一部分数学和统计函数

R处理数据基石的函数中，它们可以分为数值（数学、统计、概率）函数和字符处理函数。

数学函数

数学函数列表1

数学函数列表2

统计函数

统计函数列表

概率函数

概率函数属于统计类，通常用于生成特征已知模拟数据，以及在用户编写的统计函数中计算概率值。在R中，概率函数形式：[dpqr]distribution-abbreviation()其中第一个字母表示其所指分布的某一方面：d=密度函数（density），p=分布函数（distribution function）,q=分位数函数（quantile function） r=生成随机数（随机偏差）。

概率分布常用函数列表

1.设定随机数种子

在每次生成伪随机数的时候，函数都会使用一个不同的种子，因此也会产生不同的结果。你可以通过函数set.seed()显示指定这个种子，让结果可以重现。（reproducible）。函数run if()用来生成0到1区间上服从均匀分布的伪随机数。

2.生成多元正态分布

在模拟研究和蒙特卡洛方法中，需要获取来自给定均值向量和协方差阵的多元正态分布的数据。MASS包中的mvrnorm()函数可以完成改过程。一般形式：mvrnorm(n,mean,sigma)

第二部分字符处理函数

数学和统计函数用于处理数据型数据，字符处理函数可以从文本型数据中抽取信息，或者为打印输出和生成报告重设文本的格式。

字符处理函数列表

其他实用函数

其他实用函数列表

第三部分循环和条件执行

在正常情况下，R程序中语句是从上至下顺序执行的，如果需要重复执行某些语句的话，就需要运用控制流结构。控制流的构造包括：

语句（statement）：是一条单独的R语句或一组复合语句（包含在花括号{}的一组R语句，用分号分隔）

条件（cond）是一条最终被解析为真（TRUE)或假（FALSE）的表达式；

表达式（expr）是一条数值或字符串的求值语句。

序列（seq）是一个数值或字符串序列。

重复和循环

循环结构重复地执行一个或一系列语句，直到某个调价不为真为止。循环结构包括for或while。

1.for结构

for循环重复地执行一个语句，直到某个变量的值不再包含在序列seq中为止。语法为：for (var in seq) statement

用if结构单词hello被循环了10次

2.while结构

while循环重复地执行一个语句，直到条件不为真为止。语法为：while(cond) statement

用while结构hello被循环了10次

条件执行

在条件执行结构中，一条或一组语句仅在满足一个指定条件时执行。条件执行结构包括if-else/ifelse和switch结构

1.if-else结构

控制结构if-eles在某个给定条件为真时执行语句，也可以同时在条件为假时执行另外的语句。语法为：if(cond) statement if(cond) statement1 else statements2.

if-else结构的应用实例

2.ifelse结构

ifelse结构是if-else结构比较紧凑的向量化版本，语法是ifelse(cond,statement1.statement2)

若cond为TRUE,则执行第一个语句；若cond为FALSE,则执行第二个语句。在程序的行为是二元时，或者希望结构的输入或输出均为向量时，用该结构。

ifelse结构的应用实例

3.switch结构

switch结构是根据一个表达式的值选择语句执行，语法是switch（expr,...）

switch结构的应用实例

第四部分自编函数

R最大优点之一就是用户可以自行添加函数。R的许多函数都是由已有函数构成的。一个函数的结果大致是：myfunction<-function(arg1,arg2,...){statements return(object)}

第五部分数据整合与重塑

R中提供了许多用于整合(aggregate)和重塑（reshape）数据的强大方法。在整合数据中，往往将多组观测替换为根据这些观测计算的描述性统计量。在重塑数据中，则通过修改数据的结构（行和列）来决定数据的组织方式。

转置：是指将行和列反转。使用函数t()即可对一个矩阵或数据框进行转置。

转置函数的应用实例

整合数据

在R中使用一个或多个by变量和一个预定定义好的函数来折叠（collapse）数据是比较容易的，调用格式：aggregate(x,by,FUN)。其中x是待折叠的数据对象，by是一个变量名组成的列表，这些变量将被去掉以形成新的观测。而FUN则是用来计算描述性统计量的标量函数，它将被用来计算新观测中的值。

本章有数十种用于处理数据的数学、统计、概率函数。这章更像一个工具章，当遇到需要的处理数据函数时，记得复习本章内容。

第5章 高级数据管理

《R语言实战》笔记系列

本章学习大纲

第一部分 数学和统计函数

第二部分 字符处理函数

第三部分 循环和条件执行

第四部分 自编函数

第五部分 数据整合与重塑

你可能感兴趣的:(第5章 高级数据管理)