biostar 学习笔记(4-1)--- 认识数据和数据的获取

biostar 学习笔记(4-1)--- 认识数据和数据的获取

一 常用数据库

  • NCBI
  • ensembl
  • UCSC

用的最频繁的还是NCBI,下面以NCBI为例,整理数据类型和数据获取。

二 数据类型

GenBank

NCBI中所有被注释和鉴定的DNA序列信息。

SRA

NCBI中高通量测序文件的压缩格式。

fasta

第一行以”>“开头,为序列信息。

第二行开始为序列。

foo

ATGCC

bar other optional text could go here

CCGTA

fastq

fastq为高通量测序文件,其压缩格式为sra。主要包括四行:第一行为序列id信息,第二行为序列,第三行信息为+,可以添加其他信息,第四行测序碱基质量信息。

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65`

三 数据的获取

如果我们需要的信息比较少,则可进行ncbi网站直接搜索下载即可。如需要批量下载,可以安装Entrez Direct。这个软件是perl依赖的,所以安装之后可能会缺失perl模块而报错,缺什么就装上即可。安装代码如下:

wget ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip
unzip edirect.zip
cd edirect
ls
./setup.sh
echo "export PATH=\$PATH:/home/wxw/biosoft/edirect/edirect" >> $HOME/.bashrc
source ~/.bashrc

获取核酸序列

esearch -db nucleotide -query PRJNA257197 | efetch -format=fasta > genomes.fa获取蛋白序列

格式也可以保存为gb,也就是genbank的格式。

esearch -db protein -query PRJNA257197 | efetch -format=fasta > proteins.fa

当然,也可以批量获取。

efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta > multi.fa

sra的获取,需要先安装sratoolkit。

cd ~/biosoft
mkdir sratoolkit && cd sratoolkit
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
#也可以下载对应的其他版本
tar -xzvf sratoolkit.2.8.2-centos_linux64.tar.gz && cd sratoolkit.2.8.2-centos_linux64/bin/
pwd
echo "export PATH=~/biosoft/sratoolkit/sratoolkit.2.8.2-centos_linux64/bin:$PATH" >> ~/.bashrc
source ~/.bashrc

使用prefetch下载对于id的sra文件即可

prefetch SRR1553610

当然,也可以批量获取。

echo SRR1553608 > sra.ids
echo SRR1553605 >> sra.ids
prefetch --option-file sra.ids

你可能感兴趣的:(biostar 学习笔记(4-1)--- 认识数据和数据的获取)