2020-01-11 了解GeneBank格式

GenBank格式是最古老的生物信息学数据格式之一,最初是为了兼顾可读性和计算机处理的有些翱翔。具有所谓的固定宽度格式,其中前10个字符构成用作标识符的列,该行其余是与该标识符相对应的信息。

GeneBank格式

GeneBank数据

GeneBank格式可读性可以,但不适合做分析,通常用ReadSeq工具转换为其他更简单的格式。
NCBI参考序列(RefSeq)项目提供许多生物体的序列记录和相关信息,并为医学、功能学和比较研究提供基线。
RefSeq数据库是一组非冗余的参考标准,源于GenBank中存储的所有数据。包括:

  • 染色体
  • 完整的基因组分子(细胞器基因组、病毒、质粒)
  • 中间组装的gemonic contigs
  • curated基因组区域
  • mRNAs
  • RNAs
  • 蛋白质

获取不同数据格式并转换

# Fetch the sequence from NCBI. 这里-format gb即Genebank文件
efetch -db nuccore -id NC_001501 -format gb > NC_001501.gb
cat NC_001501.gb | head
如果想要FASTA格式的文件
#既可以-format fasta
efetch -db nuccore -id NC_001501 -format fasta > NC_001501-version1.fa
#也可以用seqret将Genebank文件转换为FASTA文件
cat NC_001501.gb | seqret -filter -osformat fasta > NC_001501-version2.fa

看看结果是否一样

cat NC_001501-version1.fa | head -2
cat NC_001501-version2.fa | head -2
#事实上显示的前两行就有差别

什么时候改变数据格式?

  1. 如果数据源提供了多种数据格式,最好分别获取每一种格式,而不是在格式之间相互转换,每一次转换都有可能出现问题
  2. 如果数据源只提供了一种格式,而且你不确定数据采用的基因组构建是否相同,那你只能自己做re-formatting了,这个过程一定要慎之又慎!“犯了点小错误”的数据往往是致命的
    RefSeq记录的特点是两个字母加下划线开头:NP_


你可能感兴趣的:(2020-01-11 了解GeneBank格式)