评估组装中的污染

##选取部分组装结果
##bwa把原始数据比对到组装结果上,samtools比对排序
bwa index -p ref part.genome.fa
cat sample.list |while read a;do echo "bwa mem -t 8 -M ref R1.fastq.gz R2.fastq.gz -R \"@RG\tID:XX\tPL:ILLUMINA\tLB:$a\tSM:XX\" 2>$a.bwamem.log |samtools sort -@ 8 -T /XXX/tmp/$a - >$a.sorted.bam &";done >run.bwa.sh
##比对结果去Duplicates
awk_2 run.bwa.sh|sed 's/^>//;s/.sorted.bam//'|while read a;do echo "java -Xmx100g -jar /XXX/picard.jar MarkDuplicates TMP_DIR=/XXX/tmp MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=800 INPUT=$a.sorted.bam OUTPUT=$a.sorted.dedup.bam METRICS_FILE=$a.sorted.dedup.metrics REMOVE_DUPLICATES=true ASSUME_SORTED=true &>$a.dedup.log && echo "$a.sorted.bam done" && rm $a.sorted.bam";done >run.dedup.sh
##写脚本算出part.genome.fa各条contig下特定bin(例:2000bp)下的深度,gc深度
##写脚本将part.genome.fa序列分成特定bin长度的序列subseq.fa,比对nt数据库,取tophit
##写脚本整合结果,subseq.fa的depth,GC content,及Taxon
##写脚本可视化

你可能感兴趣的:(评估组装中的污染)