2020-02-10/11 R语言直播课学习

一. R与Rstudio

R: 编程语言,统计计算和绘图的环境。

R studio: R语言的集成开发环境

  1. 新建项目R project:
  1. 新建脚本:
  2. R studio界面:(1) 脚本编辑器(2) 控制台(3) 环境/历史命令/连接(4) 文件/图片/帮助/包
  3. 字号设置:Tools-Global Options- Appearance
  4. 与R"交互":session(1) 控制台窗口;(2) 脚本编辑器:逐行运行 or 选中运行;"#"为注释;脚本保存到Rproject下
  5. R语言的几类命令响应
  • 输出结果
  • 报错:Error(检查命令/环境/纠正重运行)
  • 警告:Warning(忽略)
  • 没反应(出现>,表示已完成)
  • 命令正在运行
  • 命令不完整(+后可补全)
  • 出现提示信息(无error可忽略)
  • 进一步选择(回答问题)

二、数据类型和向量

1. 数据类型:

  • 包括:数值型numeric, 字符型character, 逻辑型logical.
    如何判断? 使用函数class()

  • 逻辑型数据
    比较运算结果的是逻辑值
    <, >, <=, >=, ==, !=
    多个逻辑条件的链接
    与&、或|、非!

  • 数据类型的转换与判断
    as族函数实现数据类型之间的转换
    is族函数,判断,返回值为TRUE 或FALSE

  • 数据结构
    向量 vector(数据框单独拿出来的一列);数据框 data.frame(约等于表格);矩阵 matrix;列表 list。

2. 向量

2.1 向量生成

  • c() 逐一放到一起
    c(1,2,3,5,6,7)
  • 连续的数字用冒号":"
    1:10
  • 由重复的用rep(),有规律的序列用seq(),随机数用rnorm
rep("gene",times=15)  
seq(from = 3,to = 21,by = 3)
rnorm(n = 5, mean = 3, sd = 5)
  • 通过组合,产生更为复杂的向量
    paste0(rep("gene",times=15),1:15)

2.2 对单个向量进行的操作

  • 赋值给一个变量名 <- or =
    x<- c(1,3,5)
  • 简单数学计算: 根据某条件进行判断,生成等长的逻辑向量
  • 初级统计
    max(x), min(x), range(x), mean(x), length(x), unique(x), table(x)

2.3. 对两个向量的操作

  • 逻辑比较,生成等长的逻辑向量
    x = c(1,3,5)
    y = c(3,2,5)
    x == y
    x %in% y #x中的元素在y中吗
  • 数学计算
    x+y
  • 连接:paste
paste(x,y,sep=":")
[1] "1:3" "3:2" "5:5"
  • 交集/并集/差集
    intersect(x,y)
    union(x,y)
    setdiff(x,y)
    循环补齐:x和y不一样长
    2.4. 向量筛选(取子集)
    []:将TRUE对应的值挑选出来,FALSE丢弃
> x <- 8:12
> x[x==10]
[1] 10
> x[x<12]
[1]  8  9 10 11
> x[x %in% c(9,13)]
[1] 9
> x[4]
[1] 11
> x[2:4]
[1]  9 10 11
> x[c(1,5)]
[1]  8 12
> x[-4]
[1]  8  9 10 12
> x[-(2:4)]
[1]  8 12

2.5 修改向量中某个元素
取子集+赋值
"[]" + "<-"

> x[x>3] <- 3
> x
[1] 3 3 3 3 3

三、数据框、矩阵和列表

Vector 向量 - 一维
matrix 矩阵 - 二维 :多个长短相同、数据类型相同的向量按列组合
data.frame 数据框 :多个长短相同、数据类型可以不同的向量按列组合
List列表:数据长短可以不同、数据类型可以不同;没有行和列的概念,可以有多级元素

1. 数据框来源

  • 在R中新建
  • 由已有数据转换或处理得到
  • 从文件中读取
  • 内置数据集

2. 新建数据框(本质是向量按列组合)

读取数据框:read.csv(“gene.csv")

3. 数据框属性描述

维度(几行几列):dim(df) nrow(df)/nco(df)
行名/列名 :rownames(df)/colnames(df)

4. 数据框取子集(一个、一行、一列)

4.1 向量 -位置



4.2 根据行名或列名
df[, "exp"]
4.3 提取列的常用操作
数据框常用操作:dfexp), length(df$exp)

5. 数据框编辑

取子集¥或[]+赋值操作
df[3,3]<- 5

6. 数据框进阶

(1) 转置--行变列,列变行:t(df)
(2) 去除含有缺失值的行:na.omit(df)
(3) 两个表格的连接:
按列连接:cbind (行数相同)
按行连接:rbind (列数相同)
merge() - 根据某一相同列合并
(4) 行数较多的数据框可截取前/后几行查看
iris, head(iris,3)
(5) 行列数都多的数据框可取前几行前几列查看
iris[1:3,1:3]
(6) 查看每一列的数据类型和具体内容
str(df)
str(iris)

  • 矩阵新建和取子集
    m <- matrix(1:9,nrow=3)


  • 列表新建和取子集
    l <- list(m=matrix(1:9, nrow = 3),
    df=data.frame(gene = paste0("gene",1:3),
    sam = paste0("sample",1:3),
    exp = c(32,34,45)),
    x=c(1,3,5))
  • 删除变量



四、函数和R包

  1. 函数与参数
    ![](https://upload-images.jianshu.io/upload_images/19530557-466511b4c6ac26c2.png?imageMogr2/auto-
    orient/strip%7CimageView2/2/w/1240)
    写函数的函数


  2. R包介绍

  3. R包来源
    CRAN网站 install.packages()
    Bioconductor BiocManager::install()
    github devools::install_github()

  4. 用于R包安装的函数
    安装后要library()

  5. R包安装前需设置镜像
    国内镜像推荐:
    清华镜像
    中科大镜像
    手工设置
    tools - global option - packages
    代码设置
    options("repos"=c(CRAN="https://mir
    rors.tuna.tsinghua.edu.cn/CRAN/"))
    options(
    BioC_mirror ="https://
    ustc.edu.cn/ bioc

  6. R包安装和使用的逻辑
    安装包-加载包-使用函数
    已安装、不加载-直接使用::

  7. 常见疑问

  • 大片提示信息:检查error,无可忽略
  • package not available
    原因1 :包名写错
    原因2 :安装命令使用错误
    原因3 :本机的 R 语言版本与包所要求的版本不符(极少)
  • 是否更新
  • 加载A包,报错B包不存在(复杂)
  • 报错中由connection or url
    网络/镜像检查
  1. R包如何使用--获取帮助
    ?函数
    help函数
    R包介绍页面
    少数 R 包有 cheatsheets

你可能感兴趣的:(2020-02-10/11 R语言直播课学习)