R语言实战_第4章_基本数据管理

第4章 基本数据管理

1. 一个示例

1. 职业经理人
  1. 创建leadership数据框
manager <- c(1, 2, 3, 4, 5)
date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09")
country <- c("US", "US", "UK", "UK", "UK")
gender <- c("M", "F", "F", "M", "F")
age <- c(32, 45, 25, 39, 99)
q1 <- c(5, 3, 3, 3, 2)
q2 <- c(4, 5, 5, 3, 2)
q3 <- c(5, 2, 5, 4, 1)
q4 <- c(5, 5, 5, NA, 2)
q5 <- c(5, 5, 2, NA, 1)
leadership <-data.frame(manager, date, country, gender, age,
                       q1, q2, q3, q4, q5, stringsAsFactors=FALSE)

2. 创建新变量

1. 构造公式
  1. 变量名 <- 表达式
  2. 算术运算符
运算符 描述
+
-
*
/
^** 求幂
x%%y 求余
x%/%y 整数除法
2. 创建新变量
  1. 将新变量整合到原始数据框中(3种方法)
mydata <- data.frame(x1 = c(2, 2, 6, 4)
                    x2 = c(3, 4, 2, 8))

mydata$sumx <- mydata$x1 + mydata$x2
mydata$meanx <- (mydata$x1 + mydata$x2)/2

attach(mydata)
mydata$sumx <- x1 + x2
mydata$meanx <- (x1 + x2)/2
detach(mydata)

mydata <- transform(mydata,
                   sumx = x1 + x2,
                   meanx = (x1 + x2)/2)

3. 变量的重编码

  1. 逻辑运算符
运算符 描述
< 小于
<= 小于或等于
> 大于
>= 大于或等于
== 严格等于
!= 不等于
!x 非x
x|y x或y
x&y x和y
isTRUE(x) 测试x是否为TRUE
  1. 条件赋值

    variable[condition] <- expression

    leadership$age[leadership$age == 99] <- NA
    
  2. 创建新变量,根据 age 赋值

leadership$agecat[leadership$age > 75] <- "Elder"
leadership$agecat[leadership$age >= 55 &
                 leadership$age <= 75] <- "Middle Aged"
leadership$agecat[leadership$age < 55] <- "Young"
  1. 可简写为
leadership <- within(leadership,{
    agecat <- NA
    agecat[age > 75] <- "Elder"
    agecat[age >= 55 & age <= 75] <- "Middle Aged"
    agecat[age < 55] <- "Young"
})
  1. within()with() 类似,within() 允许修改数据框

    花括号内换行不需要逗号

  2. 重编码函数:cut()car 包中 recode()doBy 包中 recodevar()

4. 变量重命名

  1. 调用交互式编辑器

    fix(leadership)
    
  2. 通过 names() 重命名变量

    names(leadership)[2] <- "testDate"
    
    names(leadership)[6: 10] <- c("item1", "item2", "item3", "item4", "item5")
    
  3. 修改变量名函数:plyr 包中 rename()

    rename(dataframe, c(oldname="newname", oldname="newname", ...))
    

5. 缺失值

  1. 缺失值

    NA Not Available 不可用

  2. 检测缺失值

    is.na()

  3. 不可能的值

    NaN not a number 不是一个数

  4. 检测不可能的值

    is.infinite() is.nan()

1. 重编码某些值为缺失值
  1. leadership示例

    leadership$age[leadership$age == 99] <- NA
    
2. 在分析中排除缺失值
  1. 含有缺失值的算数表达式和函数的计算结果也会是缺失值

  2. 使用 na.rm=TRUE 移除缺失值再运算

    y <- sum(x, na.rm=TRUE)
    
  3. 使用 na.omit() 移除所有含缺失数据的行

    newdata <- na.omit(leadership)
    

6. 日期值

  1. 日期格式
符号 含义 示例
%d 数字表示的日期(0~31) 01~31
%a 缩写的星期名 Mon
%A 非缩写星期名 Monday
%m 月份(0~12) 00~12
%b 缩写的月份 Jan
%B 非缩写月份 January
%y 两位数的年份 07
%Y 四位数的年份 2007
  1. 使用 as.Date() 将日期转化为数值形式
mydates <- as.Date(c("2007-06-22", "2004-02-13"))

strDates <- c("01/05/1965", "08/16/1975")
datas <- as.Date(strDates, "%m/%d/%Y")

myformat <- "%m/%d/%y"
leadership$date <- as.Date(leadership$date, myformat)
  1. 使用 SysDate() 返回当天日期
  2. 使用 date() 返回当前日期和时间
  3. 使用 format(x, format="output format") 输出指定格式日期
today <- Sys.Date()
format(today, format="%B %d %Y")

format(today, format="%A")
  1. 使用 difftime() 计算时间间隔
today <- Sys.Date()
dob <- as.Date("1956-10-12")
difftime(today, dob, units="weeks")
1. 将日期转换为字符型变量
  1. 使用 as.character() 将日期值转化为字符型

    strDates <- as.character(dates)
    
2. 更进一步
  1. 时间格式 strftime
  2. 对日期进行复杂计算 timeDate

7. 类型转换

  1. 向一个数值型向量中添加一个字符串会将此向量中的所有元素转换为字符型
  2. 类型转换函数
判断 转换
is.numeric() as.numeric()
is.character() as.character()
is.vector() as.vector()
is.matrix() as.matrix()
is.data.frame() as.data.frame()
is.factor() as.factor()
is.logical() as.logical()

8. 数据排序

  1. 使用 order() 对一数据框进行排序,默认升序

    newdata <- leadership[order(leadership$age), ]
    
  2. 排序变量前加减号,降序排序

9. 数据集的合并

1. 向数据框添加列
  1. 使用 merge() 横向合并两个数据框

    total <- merge(dataframeA, dataframeB, by="ID")
    
  2. 使用 cbind() 直接横向合并两个矩阵或数据框

    total <- cbind(A, B)
    
2. 向数据框添加行
  1. 使用 rbind() 纵向合并两个数据框

    total <- rbind(dataframeA, dataframeB)
    
  2. 两数据框必须拥有相同的变量

  3. 使变量一直,预处理:

    删除多余变量

    创建缺失值变量

10. 数据集取子集

1. 选入变量
  1. 创建新数据集保留需要变量

    newdata <- leadership[ ,c(6:10)]
    

    将行下标留空,表示选择所有行

  2. 通过变量名选择数据

    myvars <- c("q1", "q2", "q3", "q4", "q5")
    newdata <- leadership[myvars]
    

    等同

    myvars <- paste("q", 1:5, sep="")
    newdata <- leadership[myvars]
    
2. 剔除变量
  1. 通过变量下标剔除变量,在列下标前加一减号,剔除该列

    newdata <- leadership[c(-8, -9)]
    
  2. 通过变量名剔除变量

    myvars <- names(leadership) %in% c("q3", "q4")
    newdate <- leadership[!myvars]
    
  3. 将不需要列赋值为NULL

    leadership$q3 <- leadership$q4 <- NULL
    
3. 选入观测
  1. 通过下标选入观测

    newdata <-leadership[1:3, ]
    
  2. 通过筛选选入观测

    newdata <- leadership[leadership$gender=="M" & 
                         leadership$age >30, ]
    
  3. 可改写为

    attach(leadership)
    newdata <- leadership[gender=="M" & age >30, ]
    detach(leadership)
    
  4. 限定时间在2009年1月1日和2009年12月31日之间

    leadership$date <- as.Date(leadership$date, "%m/%d/%y")
    startdate <- as.Date("2009-01-01")
    enddate <- as.Date("2009-12-31")
    newdata <- leadership[which(leadership$date >= startdate & 
                               leadership$date <= enddate), ]
    
4. subset() 函数
  1. 使用 subset() 选择变量和观测

    newdata <- subset(leadership, age >= 35 | age < 24,
                     select=c(q1, q2, q3, q4))
    
    newdata <- subset(leadership, gender=="M" & age > 25,
                     select=gender:q4)
    
5. 随机抽样
  1. 使用 sample() 从数据集中抽取随机样本

    mysample <- leadership[sample(1:nrow(leadership), 3, replace=FALSE), ]
    

    第1个参数是由要从中抽取的元素组成的向量

    第2个参数是抽取的元素数量

    第3个参数表示无放回抽样

  2. 齐全的抽样工具 sampling

  3. 分析复杂调查数据 survey

11. 使用SQL语句操作数据框

  1. 使用 sqldf

  2. 项目主页
    http://code.google.com/p/sqldf/

你可能感兴趣的:(R语言,R语言实战,学习笔记)