WGS分析用breakdancer找染色体结构变异

结构变异(structural variants,SV)
结构变异类型:
通过pair-ends分析鉴定
---插入(Insertion)
---缺失(Deletion)
---缺失插入(Delegation and Insertion)
---反转(Inversion)
.....

1. breakdancer软件安装

1.1 官网查看,只更新到2013年 breakdancer-1.1.2_2013_03_08.zip

1.2 conda 安装

首先查查看conda中有没有?

conda search breakdancer

conda install -y breakdancer
失败了一次,又一次,

安装失败

再装一次,就好了,conda的镜像不稳定
装好了

2. 找SV

2.1 检测insert
#-q INT Minimum mapping quality [35]
#-s Minimal mean insert size [50]
#-b INTNumber of bins in the histogram [50] 
#-g Output mapping flag distribution
mkdir SV && cd SV
bam2cfg.pl -g -h /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam >4AL_requence.cfg
运行后出现的warning

一般来说我只关心报错error,warning什么的根本不管的,所以看一下生成了什么

ls
#4AL_requence.cfg
#4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram
#4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram.png

4AL_requence.cfg:测序平台,样本,读长:150,indel总数量,最小值,最大值,平均indel长度,等


cfg信息

4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram:插入片段的大小
4AL_reseq.sorted.unique.markdup.add.bam.lib1.insertsize_histogram.png生成的图片显示:插入片段的大小(横坐标)及相应的频率(纵坐标)


查看插入片段大小生成的柱状图
2.2 检测结构变异
breakdancer-max -q 10  4AL_requence.cfg > 4AL_requence.ctx
#-o STRING operate on a single chromosome [all chromosome]
#-s INT minimum length of a region [7]
#-m INT maximum SV size [1000000000]
#-r INT minimum number of read pairs required to establish a connection -q INTminimum mapping quality
#输出文件格式:
#Chr1  Pos1  Orientation1  Chr2  Pos2  Orientation2  Type  Size  Score  num_Reads  num_Reads_lib  4AL_reseq.sorted.unique.markdup.add.bam
#chr1A_part1    3363    28+25-  chr1A_part1 3475    28+25-  ITX -248    99  22  /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam|22  NA
#chr1A_part1    26809   6+3-    chr1A_part1 26916   6+3-    ITX -266    64  3   /home/huawei/raw_data/YSQ/4AL_resequence/output/bam/4AL_reseq.sorted.unique.markdup.add.bam|3   NA

1-3列和4-6列被用来指定两个SV断点的坐标。
一列为染色体chr,一列为位置pos,一列为方向orientation,正负号代表reads比对到anchoring区域的方向,数字代表比对到这个位置的reads数目。
第7列表示SV的类型,
分别有:DEL (deletions), INS (insertion), INV (inversion), ITX (intra-chromosomal translocation,异位发生在同一条染色体内), CTX (inter-chromosomal translocation,易位发生在两条同源或非同源染色体之间), and Unknown.
第8列表示SV的大小,可以忽略正负号的意义,对染色体间易位无用。
第9列可信度得分。
第10列支持该SV的reads数目。
第11列,library中支持该SV的reads数目
第12列run parameter

生成SV

第七列为不同的SV类型,统计各种类型有多少,并分别输出到不同的txt中。
cat 4AL_requence.cfg |grep 'DEL' >4AL_DEL.txt
cat 4AL_requence.cfg |grep 'INV' >4AL_INV.txt
cat 4AL_requence.cfg |grep 'ITX' >4AL_ITX.txt
cat 4AL_requence.cfg |grep 'CTX' >4AL_CTX.txt

你可能感兴趣的:(WGS分析用breakdancer找染色体结构变异)