生信 | 基因组组装实战(五):三代数据纠错gcpp、racon

写在前面

  • 以下内容均来自我在菲沙基因(Frasergen)暑期生信培训班上记录的课堂笔记

1.三代数据纠错

  • :gcpp,封装到了pb-assembly中,使用conda安装
conda install -c bioconda pb-assembly -y 
  • 使用方法,一轮纠错就差不多了
pbmm2 index contig.fasta ref.mmi
pbmm2 align ref.mmi *subreadset.xml contigs.fasta.bam
samtools sort -@ 32 -o contigs.fasta.sorted.bam contigs.fasta.bam
gcpp -j60 --algorithm=arrow contigs.fasta.sorted.bam -r contig.fasta -o myConsensus.fasta
  • :racon,使用conda安装
#比对要用到minimap2,因此顺手安装一下
conda install -c bioconda minimap2 -y
conda install -c bioconda racon -y
  • 软件用法,进行多轮纠错更加准确
input=/test/4-fsa/contigs.fasta
data=/00.data/all_subreads.bam.fasta
#第一轮纠错
minimap2 -t 10 $input $data > round1.paf
racon -t 10 $data round1.paf $input > round1.fasta
#第二轮纠错
minimap2 -t 10 round1.fasta $data > round2.paf
racon -t 10 $data round2.paf round1.fasta > round2.fasta
#第三轮纠错
minimap2 -t 10 round2.fasta $data > round3.paf
racon -t 10 $data round3.paf round2.fasta > round3.fasta

2.二代纠错

  • 软件:pilon
  • 使用conda安装
#比对用到了bwa与samtools ,也顺手安装一下
conda install -c bioconda bwa -y
conda install -c bioconda pilon -y
conda install -c bioconda samtools -y
  • 比对
bwa index -p index/draft draft.fa
bwa mem -t 16 index/draft raed1_fq.gz read2_fq.gz |samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam

draft.fa:三代数据组装好的基因组文件
read1_fq.gz read2_fq.gz:illumina的双端测序数据经过质控之后的数据

  • 纠错
pilon \
--genome draft.fa \
--frags align_filter.bam \
--fix snp,indels \
--output pilon_polished \
--vcf

--frags 表示输入的是1kb以内的paired-end文库,
--jumps 表示 大于1k以上的mate pair文库,
--bam 则是让软件自己猜测
-vcf 输出一个vcf文件,包含每个碱基的信息
--fix Pilon将会处理的内容,基本上选snps和indels就够了
--variant 启发式的变异检测,等价于--vcf --fix all,breaks, 如果是polish不要使用该选项
--minmq 用于Pilon堆叠的read最低比对质量,默认是0。

3.Hi-C挂载

  • Hi-C技术简介
    Hi-C技术是3C技术(Chromosome Conformation Capture染色体构象捕获)的一种衍生技术。
    Hi-C是结合3C技术高通量测序技术捕获基因组的三维结构的技术。
    Hi-C技术
  • Hi-C 辅助组装简介
    使用Hi-C辅助组装,可以将contigs组装到假染色体水平
    Hi-C辅助组装
  • Hi-C辅助组装原理
    首先对下机数据进行质控去接头获得高质量的clean reads,然后将数据比对到已经组装的基因组序列上并去除PCR重复。利用去噪矫正之后的交互数据,构建染色质交互矩阵,针对其染色质三维空间结构特征,选取合适的聚类模型将未定位scaffolds锚定到染色体上,并采用相应的排序算法确定挂载scaffolds的正确顺序和方向,组装出染色体水平的全基因组序列。
Hi-C辅助组装原理
  • 关于Hi-C的介绍单独记录一篇

你可能感兴趣的:(生信 | 基因组组装实战(五):三代数据纠错gcpp、racon)