MutSigCV进行突变负荷分析寻找Driver Gene

本文的安装方法是有Matlab授权,运行MutSig源代码的方法。

如果没有Matlab授权,可以

http://www.mathworks.com/products/compiler/mcr/安装MatlabMCR

还有一种在线进行MutSigCV分析的网站:

http://genepattern.broadinstitute.org/gp/pages/index.jsf?lsid=MutSigCV 通过简单注册,就可以在线使用,运算速度还没有测试。

安装环境

Windows10

软件的下载及安装

1.安装Matlab环境

MutSig是基于Matlab的一款程序,首先要安装Matlab。

登陆智慧华中大的资源页面可以下载到有授权的Matlab,按操作指南去MathWorks的主页进行用户注册>下载Matlab3合一版本>安装。

2.安装MutSigCV及下载必要文件

进入https://software.broadinstitute.org/cancer/cga/mutsig_download下载最新版本“MutSigCV_1.41.zip”安装包>解压

进入https://software.broadinstitute.org/cancer/cga/mutsig_run下载最新版本的5个依赖文件:

genome reference sequence:   chr_files_hg18.zip    or   chr_files_hg19.zip (有可能需要翻墙下载)

mutation_type_dictionary_file.txt

exome_full192.coverage.txt.zip

gene.covariates.txt (以上三个文件目前官网下载路径有错,可以从ftp://ftp.broadinstitute.org/pub/genepattern/example_files/MutSigCV_1.3/下载)

其中

mutation_type_dictionary_file.txt 当MAF文件没有effect列时是必须的,另外4个文件是当我们只有MAF文件的时候需要的,建议也同时下载。

建议大家下载Example数据LUSC.MutSigCV.input.data.v1.0.zip,了解数据格式,并试运行。

Input文件

1.突变文件(必须):mutations.maf(Tab分隔,有表头)

"gene" 列:突变所在的基因的名字  (也可以称为 "Hugo_Symbol")

"patient" 列: 突变所在的病人的名字 (也可以被称为 "Tumor_Sample_Barcode")

"effect" 列:突变在这个基因上所产生的作用类型:分为 "nonsilent" (蛋白质序列改变或可变剪切), "silent" (同义突变),或"noncoding" (内含子区或UTR区)"categ" ’列:突变分类.  MutSigCV依据突变所在的DNA序列将突变分成了7类,对于每一种分类,有不同的风险值. 如果用户不知道每一行的categ类型,从版本1.3开始程序可以自动计算,只需要用户提供Variant_Classification, Reference_Allele, and Tumor_Seq_Allele1+2这4列的信息即可

1. CpG transitions

2. CpG transversions

3. C:G transitions

4. C:G transversions

5. A:T transitions

6. A:T transversions

7. null+indel mutations

转换(transitions)和颠换(transversions)

转换:嘌呤和嘌呤之间的替换,或嘧啶和嘧啶之间的替换。

颠换:嘌呤和嘧啶之间的替换

MutSigCV进行突变负荷分析寻找Driver Gene_第1张图片

http://dridk.me/transition_transversion.html

2.覆盖度文件(非必要):coverage.txt

"gene"列: 基因名, 与突变文件的基因名列对应

"effect"列: 分类为"silent", "nonsilent", or "noncoding"

"categ"列: 与突变文件一致

: number of sequenced bases for patient#1 in this gene and effect/categ bin

: number of sequenced bases for patient#2 in this gene and effect/categ bin

(etc.)

但是这个文件通常不容易得到,因此MutSig提供了exome_full192.coverage.txt文件作为替换

3.协变量文件(非必要):gene.covariates.txt

"gene"列: 与上述两个文件一致.

:  the value of the first covariate for each gene

:  the value of the second covariate for each gene

:  the value of the third covariate for each gene

etc.

协变量被用来计算每对基因之间的距离,从而确定每个基因最近的邻居基因,以及局部背景突变率。

Example中的协变量文件已经被证实可以用于多种肿瘤的分析。每个基因包含一下3个信息:  (1) global expression, derived from RNA-Seq data and summed across the 91 cell lines in the CCLE (Barretina et al.).  (2) DNA replication time (from Chen et al.).  (3) the HiC statistic, a measure of open vs. closed chromatin state (from Lieberman-Aiden et al.).

软件运行

1.如果有完整的Input文件:

将上述3个文件及mutation_type_dictionary_file.txt放在MutSigCV.m所在的文件夹中

双击

MutSigCV.m启动Matlab

>>MutSigCV('mutations.maf','coverage.txt','covariates.txt','output.txt')

2.如果只有MAF文件:

将MAF文件,及genome reference sequence(chr_files_hg18.zip    or   chr_files_hg19.zip),mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip和gene.covariates.txt文件放在MutSigCV.m所在的文件夹中

双击MutSigCV.m启动Matlab

>>MutSigCV('my_mutations.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg19')

结果解读

output.txt.sig_genes.txt文件中包含了Driver Gene,从P值由小到大排列。

TCGA数据实战

从TCGA上下载MAF的open的文件,文件内包括四种MAF文件:mutect,varscan,somaticsniper,muse,不同的算法和统计模型用于检测体细胞突变,目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2 。

1. 下载chr_files_hg38

如果有需要这部分hg38的文件,可以找我要完整版,不需要再下载和修改了。

TCGA上下载的数据是GRCh38(hg38)版本的,而MutSig的官网上没有提供hg38的chr_file,所以我们从https://www.ncbi.nlm.nih.gov/grc/human/data?asm=GRCh38上下载hg38的每个染色体的序列,例如点击

NC_000001.11,进入NCBI页面后,点击Send To,选择:Compelete Record-File-FASTA保存,保存后的文件命名为“chr1.txt",本地打开该文件,去除>开头第一行信息,并去除文件中所有换行符(替换\n为空)。将22+XY染色体的文件都保存于子文件夹”chr_files_hg38“中。

2. 将mutect文件放入MutSigCV.m所在文件夹下

3. 确保mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip ,gene.covariates.txt也都在

4. 修改MutSigCV.m源文件

原版本有bug,要做如下修改 #在Ubuntu系统中似乎不需要修改:

360行附近:

f2 = regexprep(uchr,'^(.*)$',[chr_files_directory '/chr$1.txt']);

f3 = regexprep(uchr,'^(.*)$','chr$1.txt');  #添加f3变量

chr_file_available = ismember(f3,f1); #将f2改为f3

5. 运行程序

>>MutSigCV('TCGA_ESCA_mutect.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg38')

你可能感兴趣的:(MutSigCV进行突变负荷分析寻找Driver Gene)