记录下自己在安装sratoolkit和转换文件的摸索步骤
转换文件需要使用sratoolkit软件,所以首先要下载,先说下下载、解压、安装这个软件。我事先在我的Linux目录下新建一个文件夹software用来存放下载的软件,新建文件夹命令:mkdir software,然后就在这个文件夹下载软件了。
1. 在Linux下直接用wget来下载,输入如下命令:
wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz
2. 在当前目录解压下载的压缩包,输入如下命令:
tar -xzf sratoolkit.current-centos_linux64.tar.gz
3. 为了避免因升级而需要修改配置文件,把软件的版本号去了,该名字为sratoolkit
mv sratoolkit.2.9.6-1-centos_linux64 sratoolkit
4. 在sratoolkit文件夹下查看绝对路径
[wuchan@login sratoolkit]$ pwd
/share/home/wuchan/software/sratoolkit
[wuchan@login sratoolkit]$ ls
bin CHANGES example README-blastn README.md README-vdb-config schema
5. 配置环境变量,用的是vi编辑文本命令
vi ~/.bashrc #用vi编辑修改.bashrc文件
i #切换成插入
export PATH=/share/home/wuchan/software/sratoolkit/bin:$PATH #这里的绝对路径是通过在存放sratoolkit文件夹下输入pwd查看得到的
Esc #回到命令
:wq #保存退出.bashrc文件
source ~/.bashrc #让配置生效
接下来是第二部分,使用sratoolkit把sra文件转为fastq文件,为什么要转?
因为sra是二进制文件,在Linux下如果用less去查看,它会显示这是个二进制文件,你是否确定打开它。一般我们分析测序数据,是用fastq文件打开分析,所以就需要转格式。
1. 我的下载下来的sra文件存储在SRAdata文件夹下,所以进入SRAdata文件夹去转换
cd SRAdata
2. 用绝对路径去转换,输入如下:
/share/home/wuchan/software/sratoolkit/bin/fastq-dump --split-3 /share/home/wuchan/SRAdata/SRR5831963.sra
前面的语句是调用sratoolkit/bin/目录下的fastq-dump,然后--split-3表示双端测序拆分成两个reads,后面的SRR5831963.sra就是我下载的sra数据。这个拆分后的是存放在SRAdata文件夹下的。这里补充一点,当时我直接在sratoolkit文件夹下面输入如下命令:fastq-dump --split-3 /share/home/wuchan/SRAdata/SRR5831962.sra 得到的fastq文件是存在sratoolkit文件夹下。说明在当前文件夹下面调用转换命令,生成的文件也就是在当前目录下。补:这里还出现了一个错误,我直接在SRAdata下输入这个命令会报错。目前还不知道原因,猜测应该是不能直接调用fastq-dump
[wuchan@login SRAdata]$ fastq-dump --split-3 /share/home/wuchan/SRAdata/SRR5831963.sra
bash: fastq-dump: command not found...
一些错误与尝试记录
1. 发现使用自己安装的sratoolkit,可以直接这样使用也能拆分
/share/home/wuchan/software/sratoolkit/bin/fastq-dump --split-3 SRR5831962.sra
也就是不需要加sra数据的绝对路径,但前提是在存储sra数据的文件夹下。
2. 不能直接按照下面输入会报错的。
[wuchan@login SRAdata]$ /sratoolkit/bin/fastq-dump --split-3 SRR5831965.sra
-bash: /sratoolkit/bin/fastq-dump: No such file or directory
[wuchan@login SRAdata]$ ~/sratoolkit/bin/fastq-dump --split-3 SRR5831965.sra
-bash: /share/home/wuchan/sratoolkit/bin/fastq-dump: No such file or directory
说明使用fastq-dump命令,必须输入完整的软件sratoolkit/bin目录的绝对路径才能使用。
使用别人的软件,发现sra文件也不需要写绝对路径,也可以这样输入命令:
/share/home/yeguojun/softwares/sratoolkit.2.9.6-1-ubuntu64/bin/fastq-dump --split-3 SRR5831964.sra
最终得到的拆fastq文件也存储在当前文件夹下
[wuchan@login SRAdata]$ /share/home/yeguojun/softwares/sratoolkit.2.9.6-1-ubuntu64/bin/fastq-dump --split-3 SRR5831964.sra
Read 46413234 spots for SRR5831964.sra
Written 46413234 spots for SRR5831964.sra