组装细菌基因组

1.首先上Genome Announcements网站找一篇细菌基因组文章,找到文章记载的SRA号,这里随便找一篇,找到的SRA号为SRR9678926;
2.用prefetch下载该文件;

prefetch SRR9678926

下载完成,下载文件大小为85M


序列下载

3.将下载的sra文件进行解压

fastq-dump --gzip --split-files ~/ncbi/public/sra/SRR9678926.sra

解压完成后有两个文件,文件名分别为SRR9678926_1.fastq.gz 和 SRR9678926_2.fastq.gz


解压

4.对解压完成的gz文件进行Fastqc质控

fastqc SRR9678926_1.fastq.gz  SRR9678926_2.fastq.gz
质控结果

质控之后的结果可以通过下载后缀html的文件进行查看
5.Trimmomatic去接头

java -jar ~/Biosofts/Trimmomatic038/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR9678926_1.fastq.gz  SRR9678926_2.fastq.gz  ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/home/xiaoxiang/Biosofts/Trimmomatic038/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20  TRAILING:20 MINLEN:75
去接头

去接头后会形成四个文件 output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz
output_reverse_unpaired.fq.gz
其中
output_forward_paired.fq.gz output_reverse_paired.fq.gz
为过滤后的文件,也可通过对其进行Fastqc质控,比较过滤前后序列的变化
6.Spades组装基因组草图

spades.py --careful --pe1-1  output_forward_paired.fq.gz   --pe1-2  output_reverse_paired.fq.gz   -o ./SPAdesout_new
拼接

将刚刚过滤后得到的里两个文件进行拼接

7.Quast评价组装的基因组效果

quast.py SPAdesout_new/contigs.fasta --min-contig 200 -o SPAdesout_new/quast_out
评价

评价后的结果,我们可以通过查看生成的report文件

你可能感兴趣的:(组装细菌基因组)