canu 组装PacBio数据

基因组组装的三个层次,contig, scaffold和chromosomes.
contig表示从大规模测序得到的短读(reads)中找到的一致性序列。
组装的第一步就是从短片段文库中组装出contig,进一步基于不同长度的大片段文库,将原本孤立的contig按序前后连接,这一步会得到scaffolds。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome)

详细可参考:Canu Pipeline — canu 2.2 documentation
canu组装流程:canu -correct, 纠正,将原始数据使用MHAP算法进行比对,根据比对结果将reads进行聚类,根据聚类结果生成consensus一致性序列,从而对测序数据进行自我纠正。
canu -trim, 采用CABOG中的重叠修剪(overlap-based trim)方法,将测序数据中不产生重叠的部分切除。
canu -assemble, 使用纠正与修剪后的reads进行基于OLC算法的组装,生成contig,从而完成组装。

Assembling PacBio HiFi with HiCanu
Canu Quick Start — canu 2.2 documentation
数据来源
SRR10971019 : Run Browser : SRA Archive : NCBI (nih.gov)

数据下载download

 vim download_data.sh
 #!/bin/bash
prefetch-orig.2.10.8 `$sratool/srapath-orig.2.10.8 SRR10971019`
qsub -N download -cwd download_data.sh

数据转换sra2fastq

vim sra2fastq.sh
 #!/bin/bash
fastq-dump-orig.2.10.8 -O ~/WGS/E.c/fastq  --gzip ~/WGS/E.c/SRR10971019/SRR10971019.sra
qsub -N sra2fastq -cwd sra2fastq.sh
mkdir E.c
curl -L -o ecoli.fastq https://sra-pub-src-1.s3.amazonaws.com/SRR10971019/m54316_180808_005743.fastq.1

关于参数 useGrid=false:Canu will automatically take full advantage of any LSF/PBS/PBSPro/Torque/Slrum/SGE grid available, even submitting itself for execution. Canu makes heavy use of array jobs and requires job submission from compute nodes, which are sometimes not available or allowed. Canu option useGrid=false will restrict Canu to using only the current machine, while option useGrid=remote will configure Canu for grid execution but not submit jobs to the grid.
如果默认参数报错,可以更改useGrid=false试一下。
vim ecoli.sh

#!/bin/bash
 canu \
 -p asm -d ecoli_hifi \
 genomeSize=4.8m \
 useGrid=false  \
 -pacbio-hifi ecoli.fastq

nohup bash ecoli.sh &> log_ecoli
生成文件夹:ecoli_hifi里asm.contigs.fasta文件为组装后的contigs.

你可能感兴趣的:(canu 组装PacBio数据)