R如何将fasta转成dataframe

前面我们讲了R批量下载B细胞和T细胞受体VDJ序列文件,那么如何将这些fasta序列读到R里面,方便后面处理呢?今天小编就给大家演示一下如何利用R将fasta序列转成data.frame。我们就用上次下载到的BCR的VDJ序列为例,7个fasta文件存放在BCR_seq文件夹中。

R如何将fasta转成dataframe_第1张图片

#安装Biostrings包
BiocManager::install("Biostrings")
​
library("Biostrings")
library(plyr)
filenames=gsub("\\.fasta","",list.files("BCR_seq"))
filepath=list.files("BCR_seq",full.names = T)
#循环读入7个fasta文件额内容
data <- llply(filepath, function(x){
  fastaFile <- readDNAStringSet(x)
  #获取序列名字,只取前两列
  seq_name = do.call(rbind,strsplit(names(fastaFile),"\\|"))
  id=seq_name[,1:2]
​
  #获取序列信息,删掉.
  sequence = gsub("\\.","",paste(fastaFile))
  #生成数据框
  df <- data.frame(id, sequence,stringsAsFactors = F)
  names(df)=c("ID","name","seq")
  df
  })
names(data)=filenames

读完之后,data是一个长度为7的list。

R如何将fasta转成dataframe_第2张图片

其中每一个元素都是一个data.frame。

R如何将fasta转成dataframe_第3张图片

前面我们讲了四种获取fasta序列长度的方法,其实读到R里面之后,也能获取每条fasta序列的长度。

all_len=lapply(data,function(x){
  tmp=apply(x,1,function(x){
    c(x[2],x[3],nchar(x[3]))
  })
  tmp=t(tmp)
  colnames(tmp)=c("name","seq","seq_len")
  row.names(tmp)=tmp[,1]
  tmp
})
​

最终得到的all_len也是一个长度为7的list

R如何将fasta转成dataframe_第4张图片

其中每一个元素也是一个data.frame

R如何将fasta转成dataframe_第5张图片

参考文献

  1. R批量下载B细胞和T细胞受体VDJ序列文件
  2. 四种获取fasta序列长度的方法

你可能感兴趣的:(R如何将fasta转成dataframe)