NCBI,sra数据获取以及处理:生成fastq文件

获取方法一:

从NCBI获取需要的SAR序列号

screen -S GSE136447#创建后台程序(可以写shell脚本,存在问题“/r” 可以利用空格;解决换行问题,可以使用nohup XXX.sh &)

cat /data/shift/GSE136447/GSE136447.txt|while read i#存放的为SAR序列号

do

/data/biosoft/software/sratoolkit.2.9.6-1-ubuntu64/bin/prefetch -X 99999999999999 -O `pwd`  $i && echo "**${i}.sra done**"

done

*****注意要根据MD5值判断文件是否完整,否则无法进入下一步操作******

处理SAR文件

1.将文件转为fastq格式

(1)下载fastq-dump.2.8.2

curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-ubuntu64.tar.gz#从网页下载fastq-dump

ll

tar xvf sratoolkit.2.8.2-ubuntu64.tar.gz#解压

cd sratoolkit.2.8.2-ubuntu64/bin#进入文件

ll#确定fastq-dump.2.8.2名字,方便后续使用

pwd#查询当前路径

echo export PATH=$PATH:/root/sratoolkit.2.8.2-ubuntu64/bin >> ~/.bashrc#将安装路径加入环境变量中

source ~/.bashrc

cd ../#回到根目录中

fastq-dump.2.8.2 -h#可以使用

(2)fastq-dump使用,数据转换

fastq-dump.2.8.2 -X 1 --split-spot SRR2240617.sra#判断测序数据类型

Read 1 spots for SRR2240617.sra

Written 1 spots for SRR2240617.sra

fastq-dump.2.8.2 -X 1 --split-spot  -Z SRR2240617.sra | wc  -l#返回值:4:单端SE;8:双端PE

#single-end 单端测序

fastq-dump.2.8.2  SRR2240617.sra              # 结果生成SRR5489805.fastq

fastq-dump.2.8.2  --fasta  SRR2240617.sra  # 结果生成SRR5489805.fastq

#pair-end  双端测序

fastq-dump.2.8.2 --split-3  SRR2240617.sra    #  结果生成  SRR2240617_1.fastq,SRR2240617_2.fastq

2.fastqc质控

(1)fastqc下载:

进入下面网址,选择对应的版本下载

wget --no-check-certificate https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip               #不能直接下采用方法

nohup wget --no-check-certificate https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip &#挂后台,这个巨慢,如果执行中间停止了或者出错了,可以继续执行第二次继续,但是结束后要删除之前的下载记录

unzip fastqc_v0.11.9.zip#解压

 cd FastQC/

ll

chmod 700 fastqc#更改权限(u+x)

pwd#确定fastqc所在位置,方便下次继续执行

cd ../

mkdir result#建立新文件夹,方便结果输出

cd result

pwd#确定result所在位置,方便下次继续执行

cd ../

ll

#出现图形无法执行问题,利用一下两句

yum install fontconfig

fc-cache --force

nohup /root/FastQC/fastqc -o /root/result -t 6 /root/SRR2240617_1.fastq /root/SRR2240617_2.fastq &

#会输出四个文件,将输出的html文件传到电脑上直接看就行了

cat nohup.out

(2)奇怪的要求,使用fasta

awk 命令转换

awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR2240617_2.fastq > SRR2240617_2.fasta

awk '{if(NR%4 == 1){print ">" substr($0, 2)}}{if(NR%4 == 2){print}}' SRR2240617_1.fastq > SRR2240617_1.fasta

你可能感兴趣的:(NCBI,sra数据获取以及处理:生成fastq文件)