1.设置工作路径:setwd
在使用R处理数据时,我们需要先设置工作路径。
# 先用getwd()命令查看一下当前R的工作路径
> getwd()
[1] "/home/u812901"
# 使用setwd()命令设置要处理的数据存放的路径为R的工作路径
> setwd("/home/u812901/GenekTVExampleData/R")
> getwd()
[1] "/home/u812901/GenekTVExampleData/R"
另外,我们还可以通过RStudio的图形界面,设置工作路径:
Tools-Global Options-General-Brows
2.读取数据:read.table()
# 使用read.table()命令读取文件
# 参数解析:file=文件名,sep=分隔符,header=TRUE/FALSE(是否有表头)
> read.table(file="gene_exp.txt", sep = "\t", header = TRUE)
GeneId Sample1 Sample2 Sample3
1 gene1 1 2.0 0.3
2 gene2 4 5.0 6.0
3 gene3 7 0.8 9.0
4 gene4 10 11.0 12.0
# 定义数据框
> gene_exp <- read.table(file="gene_exp.txt", sep = "\t", header = TRUE)
# 打印数据框
> gene_exp
GeneId Sample1 Sample2 Sample3
1 gene1 1 2.0 0.3
2 gene2 4 5.0 6.0
3 gene3 7 0.8 9.0
4 gene4 10 11.0 12.0
# 使用colnames()函数查看列名
> colnames(gene_exp)
[1] "GeneId" "Sample1" "Sample2" "Sample3"
# 使用rownames()函数查看行名
> rownames(gene_exp)
[1] "1" "2" "3" "4"
有时候,生物信息学处理的数据并不规范,比如:
上面的数据框就缺少第一个列名,我们可以通过colnames()给第一个元素命名:
> gene_exp2 <- read.table(file="gene_exp2.txt", sep = "\t", header = TRUE)
# 默认情况下,R会自动添加缺失的列名,此处为x
> gene_exp2
X Sample1 Sample2 Sample3
1 gene1 1 2.0 0.3
2 gene2 4 5.0 6.0
3 gene3 7 0.8 9.0
4 gene4 10 11.0 12.0
# 通过colnames()函数给缺失的列名赋值
> colnames(gene_exp2)[1] <- "Gene_ID"
> gene_exp2
Gene_ID Sample1 Sample2 Sample3
1 gene1 1 2.0 0.3
2 gene2 4 5.0 6.0
3 gene3 7 0.8 9.0
4 gene4 10 11.0 12.0
# 在读取数据时,指定第一行为行名
> gene_exp <- read.table(file="gene_exp.txt", sep = "\t", header = TRUE, row.names = 1)
> gene_exp
Sample1 Sample2 Sample3
gene1 1 2.0 0.3
gene2 4 5.0 6.0
gene3 7 0.8 9.0
gene4 10 11.0 12.0
3.将数据写入文件:write.table()
# 使用write.table将数据写入文件
write.table(gene_exp, file = "gene_exp_out.txt", sep = ",")
查看文件内容:
成功将gene_exp的内容写入文件,并以逗号分隔开,并且字符串用双引号分隔开,这显得不美观,能否把双引号隐藏呢?当然可以:
> write.table(gene_exp, file = "gene_exp_out.txt", sep = ",",quote = FALSE)
查看写入效果:
4.保存数据:save.image
如果我们的数据处理任务还没有完成,而有必须离开计算机时,我们可以将当前的环境保存下来,方便下次使用。
# 使用save.image()保存当前工作环境下的所有信息
> save.image(file = "example.RData")
# 只保存当前工作环境下的某一变量
save(gene_exp,file="gene_exp.RData"
5.加载保存的工作环境或变量
> load(file = "example.RData")
> load(file = "gene_exp.RData")