「生信」R for Beginners——R入门笔记

目录

  • 首先
  • 导言
  • 基本原理与概念
    基本原理
    赋值分配(assign)等操作
    在线帮助
  • R的数据操作
    对象
    在文件中读写数据
    存储数据
    生成数据
  1. 规则序列
  2. 随机序列
    使用对象
  3. 创建对象
  4. 对象的类型及转换
  5. 运算符
  6. 访问一个对象的数值: 下标系统
  7. 访问对象的名称
  8. 数据编辑器
  9. 数学运算和一些简单的函数
  10. 矩阵计算
  • R绘图
    管理绘图
    绘图函数
    低级绘图命令
    绘图参数
    一个实例
    grid和lattice包
  • R的统计分析
    关于方差分析的一个简单例子
    公式
    泛型函数
  • R编程实践
    循环和向量化
    用R写程序
    编写自己的函数

首先

  • 基础部分对重点知识做了摘抄
  • 绘图部分列出了提纲
  • 关于统计,函数及其参数还需要慢慢积累总结
  • R for Beginners 电子版

导言[1]

  • R的开发及由来. 贝尔实验室&S语言
  • R的编码及安装. 基于C及Fortran编写&Comprehensive R Archive Network(CRAN)有详细安装及包使用指南
  • 强大的统计分析作图功能.
  • 灵活性. 作为计算机语言的一种, 与语言编写的窗口化工具相比, 其可以使用各种编程语句, 切分提取数据, 满足更多的个性化需求

基本原理与概念

基本原理

  • R是解释性语言, 而非编译语言. python同样是, 而C&Foortan&Pascal就是编译语言,运行效率高很多
  • 所有变量, 数据, 函数及结果都已对象(object)的形式存在计算机的内存中, 并冠有相应的名称
  • 基本工作原理: 用户通过键鼠输入调用库(library)中的函数→计算机根据指令进行诸如读取, 计算, 显示, 网络调用等流程→将结果储存在对象(object)中
  • 对象的名称不能以数字开头, 大小写代表不同的对象

赋值分配(assign)等操作

  • 赋值. 三者有差别

    1. ->
    2. <-
    3. =
  • 显示内存中所有对象

    1. ls() #只输出对象名称
    2. ls(pat="X") #指定显示某个对象及其赋值, pat即pattern
    3. ls(pat="^X") #正则表达式
    4. ls.str() #输出对象名称+赋值

在线帮助

  • 最常用

    1. ?ls()
    2. help(ls)
  • 未导入内存的

    help("bs",package="splines")

  • 搜索某一变量

    help.search("tree")

R的数据操作

对象

  • 对象的两个内在属性: 类型(mode()函数)和长度(length()函数)

    类型分为: 数字型, 字符型, 复数型和逻辑性(TRUE&FALSE)

    长度是对元素中数目的统计

  • 字符串引用单引号双引号问题, 与perl和python相似

  • Inf-Inf表示±∞, NaN表示非数字

在文件中读写数据

  • 首先通过getwd("")确定工作目录

  • mydata <- read.table("文件"), 可用制表符分隔的txt文件, 以下为缺省值

    read.table(file, header = FALSE, sep = "", quote = "\"’", dec = ".", row.names, col.names, as.is = FALSE, na.strings = "NA", colClasses = NA, nrows = -1, skip = 0, check.names = TRUE, fill = !blank.lines.skip,strip.white = FALSE, blank.lines.skip = TRUE, comment.char = "#")

  • mydata <- scan("文件", what=list("",0,0)), what后表示第一个为字符变量, 后两个为数值变量, 忽略what则创建数值变量

    scan(file = "", what = double(0), nmax = -1, n = -1, sep = "", quote = if (sep=="\n") "" else "’\"", dec = ".", skip = 0, nlines = 0, na.strings = "NA", flush = FALSE, fill = FALSE, strip.white = FALSE, quiet = FALSE, blank.lines.skip = TRUE, multi.line = TRUE, comment.char = "")

  • mydata <- read.fwf("文件",widths=c(数字,数字,数字...)), widths表示读取每个字段的宽度, 将一整行字符按要求拆分成相应个数的相应长度, 其余选项与read.table()相同

  • 补充:

    1. read.csv(file, header = TRUE, sep = ",", quote="\"", dec=".", fill = TRUE, ...)
    2. read.csv2(file, header = TRUE, sep = ";", quote="\"", dec=",", fill = TRUE, ...)
    3. read.delim(file, header = TRUE, sep = "\t", quote="\"", dec=".", fill = TRUE, ...)
    4. read.delim2(file, header = TRUE, sep = "\t", quote="\"", dec=",", fill = TRUE, ...)

存储数据

  • write.table()

    write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ", eol = "\n", na = "NA", dec = ".", row.names = TRUE, col.names = TRUE, qmethod = c("escape", "double"))

  • save(x,y,z,file="xyz.RData")&load("xyz.RData")

  • save.image()

生成数据

上部分介绍了自动读取和输出, 以下列举的均为手动生成数据用到的函数

规则序列

  • 函数中变量的赋值与python相似,ex.

    seq(1,9,5)&seq(length=9, from=1,to=5), 完全相同

  • :优先级很高,ex.

    1:10-1&1:(10-1)

  • 创建数据框

    expand.grid(h=c(60,80),w=c(100,300),sex=c("male","female"))

       h   w    sex
    1 60 100   male
    2 80 100   male
    3 60 300   male
    4 80 300   male
    5 60 100 female
    6 80 100 female
    7 60 300 female
    8 80 300 female
    

    注: 数据行数等于 2✖️2✖️2, 内部可以加入seq()等其他函数

  • 几个常用函数:

    1. seq(x,x,x)
    2. scan()
    3. rep(x,x)
    4. sequence(x:x)&sequence(c(x,x,x,...))
    5. gl(x,x,label=c("xx","xx"...),length=x)

随机序列

  • 在统计学中, 产生随机序列特别重要, 表中介绍了很多函数
  • 函数大多命名为rXXX(), 可以通过?rXXX()查看说明, 会发现还有d/p/q...XXX()多中使用方法, 区别在于缺省值不同
  • 复习过统计学相关知识后在回头总结

使用对象

创建对象

  • 向量
  • 因子
  • 矩阵
  • 数据框
  • 列表
  • 时间序列
  • 表达式

对象的类型及转换

格式转换有很多限制条件, 先记基础知识吧

  • 转数据型

    as.numeric()

  • 转逻辑型

    as.logical()

  • 转字符型

    as.character()

运算符

包括三种运算符

  • 数学运算

    +
    -
    *
    /
    ^
    %%  #模
    %/% #整除
    
  • 比较运算符

    <
    >
    <=
    >=
    ==
    !=
    
  • 逻辑运算符

    !   #逻辑非
    &   #逻辑与
    && #同上
    |   #逻辑或
    ||  #同上
    xor(x,y)  #异或
    

    注:

    1. 比较运算符作用在两个被比较对象的每个元素上, ex. x >- 1:3; y >- 1:3 x==y

    2. &和|作用在对象中的每一个元素上并且返回和比较次数相等长度的逻辑值; &&和||只作用在对象的第一个元素上

  • 比较函数

    identical(x,y)

    all.equal(x,y)

访问一个对象的数值: 下标系统

与python和perl极为相似, 只是略过复杂

  • 第一个元素从x[1]开始
  • 方括号内可以一次性取多个数值, 也可以嵌合其他函数
  • 对矩阵取值时, 缺省返回维数尽可能低的对象, 可以通过x[,2, drop = FALSE]返回矩阵
  • 方括号中-表示不显示某值, 同样可以嵌合其他函数
  • 我的理解: 嵌合逻辑下标(TRUE/FALSE)时, 对象中每个元素通过1/0取舍
  • [[]]方括号套方括号

访问对象的名称

  • names是一个和对象有同样长度的向量并且可以通过函数names来访问

  • 一般情况下, 对象是没有names的, ex. names(x)

  • 对象赋予names, ex. names(x) <- c("a","b", "c"...) #赋予名称的数量要≤对象中元素的数目

  • 对于矩阵

    行names rownames(x)

    列namescolnames(x)

    返回全部names列表dimnames(x)

数据编辑器

  • data.entry(x)
  • High Sierra 10.13.6之后不再随附X11, 但可以手动下载安装XQuartz
  • 可能需要重启才能正产使用

数学运算和一些简单的函数

  • 相同长度的向量运算, 逐个元素运算

  • 不同长度的向量运算, 最短的元素会重复使用

    x <- 1:4
    y <- 1:2
    z <- x + y
    
  • 不同长度, 长度也不成倍数时, 运行会有警告信息, 仍然会将最短的元素重复使用

  • 常用函数及部分统计函数见原文P33, 34, 太TM多了...

矩阵计算

  • 矩阵相乘计算规则

  • 上下合并矩阵

    rbind(m1,m2)

  • 左右合并矩阵

    cbind(m1,m2)

  • 两矩阵相乘

    m1 %*% m2

  • 提取/修整/创建对角线

    提取: diag(m1)

    修整: diag(m1) <- 10

    创建:

    v <- c(10,20,30)
    diag(v)
    diag(1.2, nr = 3, nc = 5)
    

R绘图

以下三个章节概括了R的主要内容, 但要熟练使用R, 需要

  • 掌握接触的统计知识
  • 熟悉尽可能多的函数及其参数
  • 实践出真知

因为统计知识比较匮乏, 以下记录只是为了形成一个框架

管理绘图

  • Rstudio集成了各种工具, 不需要通过x11()开启绘图窗口

  • 图形分割(也不知道放到这有啥特殊的意义)

    1. 构建矩阵matrix()

    2. layout(矩阵)

    3. 展示分隔结果layout.show()

    4. ex.

      m <- matrix(1:4, 2, 2)
      layout(m, widths=c(1, 3), heights=c(3, 1))
      layout.show(4)
      

绘图函数

表中列举了常用的基础绘图函数, 第二遍每个都用一下

低级绘图命令

挺详细的, 诸如如何画水平线,长方形, 添加标题等等表中都有介绍, 后重点对插入公式做了重点介绍

绘图参数

上两节介绍的是常用函数, 这节讲的是函数中常用的参数, 诸如字体大小,对齐方式,背景颜色,实线虚线等等表中都有介绍, 后重点对标记符号的种类做了列举

一个实例

  • 基础

    x <- rnorm(10)
    y <- rnorm(10)
    plot(x,y)
    
  • 调整参数(低级)

    plot(x, y, xlab="Ten random values", ylab="Ten other values", xlim=c(-2, 2), ylim=c(-2, 2), pch=22, col="red", bg="yellow", bty="l", tcl=0.4, main="How to customize a plot with R", las=1, cex=1.5)
    
  • 调整参数(初级)

    opar <- par()
    par(bg="lightyellow", col.axis="blue", mar=c(4, 4, 2.5, 0.25))
    plot(x, y, xlab="Ten random values", ylab="Ten other values", xlim=c(-2, 2), ylim=c(-2, 2), pch=22, col="red", bg="yellow", bty="l", tcl=-.25, las=1, cex=1.5)
    title("How to customize a plot with R (bis)", font.main=3, adj=1)
    par(opar)
    

    par()存储有全部缺省值, 思路: 保存缺省值→修改缺省值→绘图→通过基础绘图命令添加title→还原回之前的缺省值

  • 调整参数(高级)—全部调整了par()的参数

    opar <- par()
    par(bg="lightgray", mar=c(2.5, 1.5, 2.5, 0.25))
    plot(x, y, type="n", xlab="", ylab="", xlim=c(-2, 2), ylim=c(-2, 2), xaxt="n", yaxt="n")
    rect(-3, -3, 3, 3, col="cornsilk")
    points(x, y, pch=10, col="red", cex=2)
    axis(side=1, c(-2, 0, 2), tcl=-0.2, labels=FALSE)
    axis(side=2, -1:1, tcl=-0.2, labels=FALSE)
    title("How to customize a plot with R (ter)",
    font.main=4, adj=1, cex.main=1)
    mtext("Ten random values", side=1, line=1, at=1, cex=0.9, font=3)
    mtext("Ten other values", line=0.5, at=-1.8, cex=0.9, font=3)
    mtext(c(-2, 0, 2), side=1, las=1, at=c(-2, 0, 2), line=0.3, col="blue", cex=0.9)
    mtext(-1:1, side=2, las=1, at=-1:1, line=0.2, col="blue", cex=0.9)
    par(opar)
    

grid和lattice包

R的统计分析

前三小节涉及很多统计分析的函数

关于方差分析的一个简单例子

公式

泛型函数

  • 常用简单R包描述
  • R包几种不同的安装方法

R编程实践

对于本章所讲的内容, 我的理解是, R包括for,if等基础语句, 但所谓的程序和函数, 是上几章作图过程中所调用的内容, 导入数据到生成统计结果的代码即是所谓的R程序

循环和向量化

用R写程序

编写自己的函数

相比python 和perl 真的死板一些, 有很多要记住并熟练使用的参数和模型


  1. 来源于2005重新修订的第二版, 由华东师范大学汤银才老师团队翻译整理 ↩

你可能感兴趣的:(「生信」R for Beginners——R入门笔记)