MutScan软件介绍

近期在分析人的一种眼科疾病的WES数据时,发现RPGR基因的第15号外显子的一部分在高度重复区域,该区域是高含量的CT重复,因此前期的文库捕获、后期比对都比较困难。好在我的样本在这个区域的覆盖度还可以,但是常规的流程没有检测出来这个区域的可靠变异,因此需要验证这个区间是否还有漏掉的位点。发现MutScan软件可以基于输入的位点进行验证,从fastq序列入手,不经过bwa比对,而是进行字符串匹配(当然会考虑到容错),找出来一些位点。

1.软件的情况如下:

1.1 源代码网址:

http://www.github.com/OpenGene/MutScan

1.2 下载二进制文件后直接使用:

wget http://opengene.org/MutScan/mutscan
chmod a+x ./mutscan

或者下载可编译文件:

# get source (you can also use browser to download from master or releases)
git clone https://github.com/OpenGene/MutScan.git

# build
cd mutscan
make

# Install
sudo make install

1.3 软件功能:

直接扫描FastQ文件检测和可视化目标突变

  • 特性
  • 应用程序方案
  • 快速浏览一下。
  • 下载,编译和安装。
  • HTML报告
  • JSON报告
  • 所有选项
  • 自定义你的变异文件。
  • 与 bam/cram一起工作。
  • 备注
  • 引用 MutScan。

1.4 软件特性

  • 超敏感,保证所有支持突变的读取都将被检测到
  • 可以比普通管道快 50 X+ ( 例如。 BWA + Samtools + GATK/VarScan/Mutect).
  • 非常容易使用,无需其他任何东西。 没有校准没有参考基因组没有变异电话没有。
  • 包含在癌症相关突变突变点,如 EGFR p.L858R, BRAF p.V600E.。
  • 美观且信息丰富的HTML报表,具有信息pileup可视化。
  • 多线程支持。
  • 支持单端和双端数据。
  • 对于对端数据,MutScan将尝试合并每对,并进行质量调整和错误纠正。
  • 能够扫描一个,文件中的突变,可以用来可以视化被称为变量的变异。
  • 可以用于筛选假阳性突变。 换句话说,MutScan可以处理高度repetive序列以避免 false INDEL调用。
应用程序方案:
  • 你对某些特定的( 比如drugable突变) 类型感兴趣,并希望检查给定的FastQ文件是否包含它们。
  • 你对管道调用的突变没有足够的信心,因此你希望可视化并验证它们以避免 false 正调用。
  • 你担心管道使用过于严格的筛选,并且可能会导致某些 false 负数,因这里你要快速检查。
  • 你想看到所谓的变异,并用它清晰的pipeUp信息拍摄一个截图。
  • 你称为大量INDEL突变,并且担心它们主要是 false 优点( 特别是在高度repetive区域)。
  • 你想验证并可视化你的管道调用的VCF中的每个记录。

1.5 Windows 版本( 可能不是最新版本)

如果要在 Windows 上编译 MutScan,则应使用 cygwin。 我们已经用 cygwin-2.6.0/G++ 5.4构建了一个,它可以从以下位置下载: http://opengene.org/MutScan/windows_mutscan.zip

1.6 HTML报告

  • 将生成一个HTML报告,并将它的写入给给定的文件名。 有关示例,请参阅 http://opengene.org/MutScan/report.html。
  • 如果在Linux服务器中运行命令并希望在本地系统上查看HTML报告,那么 记住要复制所有 xxxx.htmlxxxx.html.files 并将它们保存在同一文件夹中,然后单击 xxxx.html 在浏览器中查看它。
  • 默认文件 NAME 是 mutscan.html,并且还会生成一个文件夹 mutscan.html.files
  • 默认情况下,将为每个发现的突变生成一个 indivudal HTML文件。 但是你可以指定 -s 或者 --standalone 来包含单个HTML文件中的所有突变。 如果扫描太多记录( 例如扫描 VCF ),请注意这个模式,它将给你一个非常大的HTML文件,并且不能加载。
  • 下面是MutScan生成的突变( EGFR p.t790m ) pileup的屏幕截图:


    image.png
  • 上面 p.T790M 突变的pileup。 EGFR p.T790M 是肺癌中非常重要的drugable突变。
  • 每个基础的颜色表示它的质量,并且在鼠标超过时显示质量。
  • 第一列,d 表示 MATCH的编辑距离,--> 表示转发,<--表示反向

1.7 JSON报告

默认情况下禁用JSON报告。 你可以通过使用 -j 或者 --json 指定一个JSON文件 NAME 来启用它。 JSON报告如下所示:

{
 "command":"./mutscan -1/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R1_001.fastq -2/Users/shifu/data/fq/S010_20170320003-4_ffpedna_pan-cancer-v1_S10_R2_001.fastq -h z.html -j z.json -v --simplified=off ",
 "version":"1.14.0",
 "time":"2018-05-15 15:48:21",
 "mutations":{
 "NRAS-neg-1-115258747-2-c.35G>C-p.G12A-COSM565":{
 "chr":"chr1",
 "ref":["TGGATTGTCAGTGCGCTTTTCCCAACACCA","G","CTGCTCCAACCACCACCAGTTTGTACTCAG"],
 "reads":[
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieiiiiiiiiiiieieeeee" },
 {
 "breaks":[31,61,62,76], 
 "seq":"ATATTCATCTACAAAGTGGTTCTGGATTAGCTGGATTGTCAGTGCGCTTTTCCCAACACCAGCTGCTCCAACCACC",
 "qual":"eeeeeiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiieeeee" }
 ]
 },
 "PIK3CA-pos-3-178936082-9-c.1624G>A-E542K-COSM760":{
 "chr":"chr3",
 "ref":["AAAGCAATTTCTACACGAGATCCTCTCTCT","A","AAATCACTGAGCAGGAGAAAGATTTTCTAT"],
 "reads":[
 {
 "breaks":[22,52,53,83], 
 "seq":"GGAAAATGACAAAGAACAGCTCAAAGCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGAGCAGGAGAAAGATTTTCCAAAGATGTTTCTCAGAACGCTGCAGTCTGCAATTTGTATGAATTCCC",
 "qual":"eeeeeiiiQiiiiiieiiiieiSeiiiiiie`iiii`i`iiiiiiiiiiiiii`iiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiaiiiiiiiiiiiiiiiiiieiiiiiieeeee" },
 {
 "breaks":[0,27,28,58], 
 "seq":"GCAATTTCTACACGAGATCCTCTCTCTAAAATCACTGCGCAGGAGAAAGATTTTCTATGGACCACAGGTAAGTGCTAAAATGGAGATTCTCTGTTTCTTTTTCTTTATTACAGAAAAAATAACTGACTTTGGCTGATCTCAGCATGTTTTTACCATACC",
 "qual":"AAAAAEEEEiieiiieiiiiiiiiiieiiiiiiiie``iiiiiieiiiiiiiiiieiiiieiieieeiiiSiiiiiieiiiiiiiiiiiiiieiiiiiSiiiiiiiiiiiiieiiiiiiiiiiii`ieiiieiii`ieiiiii`eS``eieEEEAAAAA" }
 ]
 }
 }
}

1.8 软件选项

usage: mutscan -1  -2  [options]...
options:
 -1, --read1 read1 file name, required
 -2, --read2 read2 file name
 -m, --mutation mutation file name, can be a CSV format or a VCF format
 -r, --ref reference fasta file name (only needed when mutation file is a VCF)
 -h, --html filename of html report, default is mutscan.html in work directory
 -j, --json filename of JSON report, default is no JSON report (string [=])
 -t, --thread worker thread number, default is 4
 -S, --support min read support required to report a mutation, default is 2.
 -k, --mark when mutation file is a vcf file, --mark means only process the records with FILTER column is M
 -l, --legacy use legacy mode, usually much slower but may be able to find a little more reads in certain case -s, --standalone output standalone HTML report with single file. Don't use this option when scanning too many target mutations (i.e.> 1000 mutations) -n, --no-original-reads dont output original reads in HTML and text output. Will make HTML report files a bit smaller -?, --help print this message

1.9 示例

纯文本结果,其中包含检测到的突变和它们的支持读取,将直接打印。 你可以使用 > 将输出重定向到文件,例如:

mutscan -1  -2  result.txt

MutScan生成非常有用的HTML文件报告,默认为工作目录中的mutscan.html。 你可以使用 -h 参数更改文件 NAME,例如:

mutscan -1  -2  -h report.html

对于单端排序数据,省略 -2 参数:

mutscan -1 

多线程

-t 参数指定要启动的工作线程数。 默认的线程号是 4。 建议使用比系统的CPU内核少的数字。

变异文件

  • -m 指定的变异文件可以是 CSV file,也可以是 VCF file
  • 如果没有指定 -m,MutScan将使用内置的默认变异文件,其中包含 60个相关的癌症相关突变点。
  • 如果提供了 CSV,则不需要参考基因组程序集。
  • 如果提供 VCF,应提供相应的参考基因组程序集( 例如 )。 ucsc.hg19. fasta ),并且不应该被压缩。

格式的csv格式变异文件

带有 name,left_seq_of_mutation_point,mutation_seq,right_seq_of_mutation_point 和 chromosome(optional) 列的CSV文件:

#name, left_seq_of_mutation_point, mutation_seq, right_seq_of_mutation_point, chromosome

NRAS-neg-1-115258748-2-c.34G>A-p.G12S-COSM563, GGATTGTCAGTGCGCTTTTCCCAACACCAC, T, TGCTCCAACCACCACCAGTTTGTACTCAGT, chr1

NRAS-neg-1-115252203-2-c.437C>T-p.A146V-COSM4170228, TGAAAGCTGTACCATACCTGTCTGGTCTTG, A, CTGAGGTTTCAATGAATGGAATCCCGTAAC, chr1

BRAF-neg-7-140453136-15-c.1799T>A -V600E-COSM476, AACTGATGGGACCCACTCCATCGAGATTTC, T, CTGTAGCTAGACCAAAATCACCTATTTTTA, chr7

EGFR-pos-7-55241677-18-c.2125G>A-p.E709K-COSM12988, CCCAACCAAGCTCTCTTGAGGATCTTGAAG, A, AAACTGAATTCAAAAAGATCAAAGTGCTGG, chr7

EGFR-pos-7-55241707-18-c.2155G>A-p.G719S-COSM6252, GAAACTGAATTCAAAAAGATCAAAGTGCTG, A, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

EGFR-pos-7-55241707-18-c.2155G>T-p.G719C-COSM6253, GAAACTGAATTCAAAAAGATCAAAGTGCTG, T, GCTCCGGTGCGTTCGGCACGGTGTATAAGG, chr7

testdata/mutations.csv 给出了csv格式变异文件的示例

vcf格式变异文件

标准VCF可以作为一个变异文件,文件扩展名为 .vcf 或者 .vcf。 如果突变文件是VCF文件,你应该通过 -r 指定 reference assembly file。 例如命令可以是:

mutscan -1 R1.fq -2 R2.fq -m target.vcf -r hg19.fa

使用 bam/fill

如果希望使用 bam/fill文件运行 MutScan,可以使用 samtools 将它们转换为FASTQ文件,使用 samtools fastq 命令,最新版本的samtools fastq 数据支持 paired。

注释

  • 如果你读得太短,MutScan 需要至少 50个长读,不要使用它
  • 如果你希望只使用一个读取支持来提取突变,请在命令中添加 -S 1 或者 --support=1

2. 一些说明:

(1)相关的网站:
https://github.com/OpenGene/MutScan#get-mutscan

https://www.biostars.org/p/213988/

https://www.biostars.org/p/283969/#283980

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-018-2024-6

(2)关于indel模式,创建vcf时的格式:
如果变异类型是insertion,则直接把变异后的序列作为M序列,如下图中的红色框内:


image.png

对于deletion类型:


(3)该软件更像是验证变异位点,不是call 变异,是需要把已知的位点先填入的。

你可能感兴趣的:(MutScan软件介绍)