BreakDancer检测染色体结构变异

作者按

BreakDancer是认可度最高的call染色体结构变异的软件,因为它灵敏度很高,但是假阳性也很高。

文章发在nature,原理就是寻找比对断点,然后寻找read pairs。

概述

官方文献为

http://www.nature.com/nmeth/journal/v6/n9/abs/nmeth.1363.html

官方manual网址为

https://github.com/genome/breakdancer

原理

(待有时间补充)

安装

GitHub上clone即可

git clone https://github.com/genome/breakdancer.git

运行脚本

#1. 生成配置文件
perl ~/Software/breakdancer/perl/bam2cfg.pl ../testsample.bam > test.cfg

#2.跑CNV结果
~/Software/breakdancer/bin/breakdancer-max test.cfg > sample_sv.xls

软件参数

BreakDancerMax (Update from 1.0 to 1.1 version only applied to cpp now.)

Usage: breakdancer_max
Options:
-o STRING operate on a single chromosome [all chromosome] 单独跑一个染色体,默认是全部染色体
-s INT minimum length of a region [7] 最小的结构变异大小,默认是7bp
-c INT cutoff in unit of standard deviation [3] 单位区域的标准偏差cutoff值,默认是3
-m INT maximum SV size [1000000000] SV的最大值,默认为1Gbp
-q INT minimum alternative mapping quality [35] 最小的比对质量,默认值为35
-r INT minimum number of read pairs required to establish a connection [2] 双端reads都有断点的数目,默认值为2
-x INT maximum threshold of haploid sequence coverage for regions to be ignored [1000] 最大被忽略的单倍体测序深度,默认值为1000
-b INT buffer size for building connection [100] 铆定时缓冲区的大小,默认值是100
-t only detect transchromosomal rearrangement, by default off 只检测染色体重排,默认关闭
-d STRING prefix of fastq files that SV supporting reads will be saved by library SV支持reads的fastq文件的前缀由library保存
-g STRING dump SVs and supporting reads in BED format for GBrowse 以SV和支持reads用bed格式转存
-l analyze Illumina long insert (mate-pair) library 分析illumina长插入文库
-a print out copy number by bam file rather than library, by default on 用bamfile输出拷贝数而不是靠library,默认是开启的
-h print out Allele Frequency column, by default off 输出突变频率,默认关闭
-y INT output score filter [40] 得分cutoff值,默认40

结果文件
#Software: 1.4.5-unstable-66-4e44b43 (commit 4e44b43)
#Command: ~/Software/breakdancer/bin/breakdancer-max test.cfg 
#Library Statistics:
#test.bam   mean:217.46 std:81.76   uppercutoff:630.36  lowercutoff:0   readlen:145.6library:wuyutong   reflen:3047530075   seqcov:7.17377  phycov:5.35423  1:267938    2:4994514   4:13850809  8:270324     32:861346
#Chr1   Pos1    Orientation1    Chr2    Pos2    Orientation2    Type    Size    Score   num_Reads   num_Reads_lib   test.bam
chrM    1   1310+572-   chrM    1015    1310+572-   ITX -84 99  41  test.bam|41 NA
……
结果注释

BreakDancer输出结果包含以下几列:

  1. Chromosome 1 染色体1
  2. Position 1 位置1
  3. Orientation 1 断点1两个方向的reads数
  4. Chromosome 2 染色体2
  5. Position 2 位置2
  6. Orientation 2 断点2两个方向的reads数
  7. Type of a SV SV的类型
  8. Size of a SV的大小
  9. Confidence Score 置信度
  10. Total number of supporting read pairs 支持双端reads的数目
  11. Total number of supporting read pairs from each map file 每个比对文件支持双端的数目
  12. Estimated allele frequency 估算的突变频率
  13. Software version 软件版本
  14. The run parameters 运行参数

第1-3和4-6列是定义两个SV的断点的,+,-分别是比对到锚定区域的正向反向reads。

第7列是检测到的SV类型,DEL (deletions)缺失, INS (insertion)插入, INV (inversion)倒位, ITX (intra-chromosomal translocation)染色体内易位, CTX (inter-chromosomal translocation)染色体间易位, and Unknown.

第8列是SV的大小,他对染色体间易位是没有意义的。

第9列是本方法检测SV的置信度。

第11列
pool analysis时候用到的,区分germline和somatic等等

第12列
估计的突变频率

Column 13 and 14 are information useful to reproduce the results.

Example 1:
1 10000 10+0- 2 20000 7+10- CTX -296 99 10 tB|10 1.00 BreakDancerMax-0.0.1 t1表示:

染色体间易位,chr1:10000和chr2:20000之间,有10对来自tB库的read pair,置信度为99。

Example 2:
1 59257 5+1- 1 60164 0+5- DEL 862 99 5 nA|2:tB|1 0.56 BreakDancerMax-0.0.1 c4

A deletion between chr1:59257 and chr1:60164 connected by 5 read pairs, among which 2 in library nA and 1 in library tB support the deletion hypothesis. This deletion is detected by BreakDancerMax-0.0.1 with a separation threshold of 4 s.d.

Example 3:
1 62767 10+0- 1 63126 0+10- INS -13 36 10 NA|10 1.00 BreakDancerMini-0.0.1 q10

An 13 bp insertion detected by BreakDancerMini between chr1:62767 and chr1:63126 with 10 supporting read pairs from a single library 'NA' and a confidence score of 36.

过滤标准

这个软件普适性很高,也因为检测精度很高而被大家认可,但是产生的结果特别多,假阳性率高,所以如何过滤是个很难的问题。我暂时除了多个软件取交集还没找到别的方法。

我目前测试了17个阳性样本,breakdancer都不会漏掉阳性结果,但是也产生了其他的假阳性结果。

不过,毋庸置疑的是支持pair reads越多,越可信,但是多少,会比较难确定。等我辅助多测试几个样本,总结一下。

可视化结果

参考文献

NOTE

你可能感兴趣的:(BreakDancer检测染色体结构变异)