SALSA Hi-C辅助组装

基于HI-C,将contig挂载到scaffold水平,同时可对contig进行纠错。

具体可见:Ghurye, J., Pop, M., Koren, S., Bickhart, D., & Chin, C. S. (2017). Scaffolding of long read assemblies using long range contact information. BMC genomics, 18(1), 527. Link

1. 安装

依赖

  • python2.7
  • BOOST库,下载,解压缩即可
  • Networkx(version lower than 1.2)
## 建p y2.7的环境
conda create -n py2.7 python=2.7
conda activate py2.7

## 安装networkx模块
pip install networkx==1.11

## 安装SALSA (安装最新即可)
git clone https://githup.com/marbl/SALSA.gti
cd SALSA
make -j8

2. 简单使用

所需要文件

  • HI-C reads 比对到contig的bam文件
  • contigs.fa
  • GFA文件(可不要)

bam文件也可以使用其他HI-C挂载软件所得,均可。

bam mem -SP5M -t 10 contig.fa HiC.R1.fq.gz HiC.R2.fq.gz \
  | samtools view -hF 256 - \
  | samtools sort -@ 10 -o alignment.bam -T tmp.ali
samtools index alignment.bam

运行SALSA

# bam -->bed
bamToBed -i read.fastq.gz.sorted.bam >alignment.bed

# sort
sort -k4 alignment.bed >tmp && mv tmp alignment.bed

# SALSA
run_pipeline.py -a contigu.fa -l contig.fa.fai -b \
  alignment.bed -e AAGCTT -o scaffolds

一些参数说明:

  • -m : 选择yes,则对contigs进行纠错
  • -e:酶切位点,根据自己实际情况写,Mbol: GATC; HinDIII: AAGCTT。
  • -o 输出文件

最终结果,在scaffold中,最主要的两个文件就是

  • scaffolds_FINAL.agp
  • scaffolds_FINAL.fasta

感觉效果一般,我个人不推介

你可能感兴趣的:(SALSA Hi-C辅助组装)