组装细菌基因组

1.上Genome Announcements网站(https://mra.asm.org/) 找到一篇细菌基因组文章,并记录文章的SRA号。

SRA号

2.从SRA数据库上用prefetch下载该文件。

prefetch SRR9209170

prefetch命令

3.用Fastq-dump解压,解压成gz文件。

fastq-dump --gzip --split-files SRR9209170.sra


(需要在sra文件所在目录下进行解压)

4.Fastqc质控

fastqc SRR9209170_1.fastq.gz
fastqc SRR9209170_2.fastq.gz


将得到的.html下载下来用浏览器打开查看


SRR9209170_1.fasqc.html

SRR9209170_2.fasqc.html

5.Trimmomatic去接头

Trimmomaticy有PE(用两端测序:输入两个序列文件,输出四个输出文件)和SE(用于单端测序:数据是单端测序的)此处我们用PE。

运行Trimmomatic

java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar

选择PE双端测序去接头 设置参数(根据质量评估结果设置,此处用老师给的参数)

java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar PE -phred33 SRR9209170_1.fastq.gz SRR9209170_2.fastq.gz -baseout SRR9209170.fq.gz ILLUMINACLIP:/disk/201931107010127/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:20 TRAILING:20 MINLEN:75(我输入的是绝对路径,使用baseout可以自动输出四个文件)

(我用mv命令将四个文件移动到trim_out文件夹中)

可以再次使用fastqc,将匹配上的正向反向的序列再次质量评估,比较去接头之后的变化

fastqc SRR9209170_1P.fa.gz
fastqc SRR9209170_2P.fa.gz

再次查看



过滤之后发现了,序列的总的碱基数和序列长度都有所减少

6.Spades组装基因草图

cd SRR9209170/
spades.py --careful --pe1-1 /disk/201931107010127/SRR9209170/SRR9209170_1P.fastq.gz --pe1-2 SRR9209170_2P.fastq.gz -o ./SPAesout_9209170_new2
(在gz文件所在目录下使用此命令)


查看SPAesout_9209170_new2中有cogtigs.fasta文件,下一步Quast所需要

7.Quast评价组装的基因组效果

cd SRR9209170/SPAesout_9209170_new2
quast.py contigs.fasta -o ./quast_out


再次进入SPAesout_9209170_new2/qusst_out,将report.html下载到本地查看即可完成

你可能感兴趣的:(组装细菌基因组)