组装细菌基因组

1.上Genome Announcements网站(https://mra.asm.org/)找一篇细菌基因组文章;找到文章记载的SRA号
z1.png

z2.png

SRR为14581598

2.从SRA数据库上用prefetch下载该文件

prefetch SRR14581598

运行结果为

z3.png

3.Fastq-dump解压;

fastq-dump --gzip --split-files SRR14581598/SRR14581598.sra

z4.png

4.Fastqc质控;去接头

fastqc SRR14581598_1.fastq.gz

z5.png

fastqc SRR14581598_2.fastq.gz

z6.png

可以将生成的html文件下载查看


z7.png
z8.png
z9.png

z10.png
z11.png
z12.png

横坐标表示每个每个碱基的位置,纵坐表示碱基质量值,中间的红线表示中位数,蓝色的线代表平均值;
背景色从上到在下依次为green, orange, red; 表示碱基质量的三种标准:very good, reasonable, poor;将碱基质量分成3个不同的标准。

Trimmomatic进行过滤

java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR14581598_1.fastq.gz SRR14581598_2.fastq.gz ./trim_out/output_forward_paired.fq.gz ./trim_out/output_forward_unpaired.fq.gz ./trim_out/output_reverse_paired.fq.gz ./trim_out/output_reverse_unpaired.fq.gz ILLUMINACLIP:/disk/teaching/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75

z13.png

ls trim out/

z14.png

5.Spades组装基因组草图;

spades.py --careful --pe1-1 SRR14581598_1.fastq.gz --pe1-2 SRR14581598_2.fastq.gz -o ./SPAdesout

z15.png

6.Quast评价组装的基因组效果

conda activate python27

quast.py SPAdesout/contigs.fasta -o quast_out

z16.png

查看生成的文件

ll quast_out

z17.png

下载整个文件 quast_out

打开 report.html 查看结果

z18.png
z19.png

由report结果得到:总基因组长度为2145540 bp,N50值为
42635bp,GC含量为37.86%
序列总长度合理、N50等值越高长,组装结果越好。

你可能感兴趣的:(组装细菌基因组)