本文的安装方法是有Matlab授权,运行MutSig源代码的方法。
如果没有Matlab授权,可以
http://www.mathworks.com/products/compiler/mcr/安装MatlabMCR
还有一种在线进行MutSigCV分析的网站:
http://genepattern.broadinstitute.org/gp/pages/index.jsf?lsid=MutSigCV 通过简单注册,就可以在线使用,运算速度还没有测试。
安装环境
Windows10
软件的下载及安装
1.安装Matlab环境
MutSig是基于Matlab的一款程序,首先要安装Matlab。
登陆智慧华中大的资源页面可以下载到有授权的Matlab,按操作指南去MathWorks的主页进行用户注册>下载Matlab3合一版本>安装。
2.安装MutSigCV及下载必要文件
进入https://software.broadinstitute.org/cancer/cga/mutsig_download下载最新版本“MutSigCV_1.41.zip”安装包>解压
进入https://software.broadinstitute.org/cancer/cga/mutsig_run下载最新版本的5个依赖文件:
genome reference sequence: chr_files_hg18.zip or chr_files_hg19.zip (有可能需要翻墙下载)
mutation_type_dictionary_file.txt
exome_full192.coverage.txt.zip
gene.covariates.txt (以上三个文件目前官网下载路径有错,可以从ftp://ftp.broadinstitute.org/pub/genepattern/example_files/MutSigCV_1.3/下载)
其中
mutation_type_dictionary_file.txt 当MAF文件没有effect列时是必须的,另外4个文件是当我们只有MAF文件的时候需要的,建议也同时下载。
建议大家下载Example数据LUSC.MutSigCV.input.data.v1.0.zip,了解数据格式,并试运行。
Input文件
1.突变文件(必须):mutations.maf(Tab分隔,有表头)
"gene" 列:突变所在的基因的名字 (也可以称为 "Hugo_Symbol")
"patient" 列: 突变所在的病人的名字 (也可以被称为 "Tumor_Sample_Barcode")
"effect" 列:突变在这个基因上所产生的作用类型:分为 "nonsilent" (蛋白质序列改变或可变剪切), "silent" (同义突变),或"noncoding" (内含子区或UTR区)"categ" ’列:突变分类. MutSigCV依据突变所在的DNA序列将突变分成了7类,对于每一种分类,有不同的风险值. 如果用户不知道每一行的categ类型,从版本1.3开始程序可以自动计算,只需要用户提供Variant_Classification, Reference_Allele, and Tumor_Seq_Allele1+2这4列的信息即可
1. CpG transitions
2. CpG transversions
3. C:G transitions
4. C:G transversions
5. A:T transitions
6. A:T transversions
7. null+indel mutations
转换(transitions)和颠换(transversions)
转换:嘌呤和嘌呤之间的替换,或嘧啶和嘧啶之间的替换。
颠换:嘌呤和嘧啶之间的替换
http://dridk.me/transition_transversion.html
2.覆盖度文件(非必要):coverage.txt
"gene"列: 基因名, 与突变文件的基因名列对应
"effect"列: 分类为"silent", "nonsilent", or "noncoding"
"categ"列: 与突变文件一致
: number of sequenced bases for patient#1 in this gene and effect/categ bin
: number of sequenced bases for patient#2 in this gene and effect/categ bin
(etc.)
但是这个文件通常不容易得到,因此MutSig提供了exome_full192.coverage.txt文件作为替换
3.协变量文件(非必要):gene.covariates.txt
"gene"列: 与上述两个文件一致.
etc.
协变量被用来计算每对基因之间的距离,从而确定每个基因最近的邻居基因,以及局部背景突变率。
Example中的协变量文件已经被证实可以用于多种肿瘤的分析。每个基因包含一下3个信息: (1) global expression, derived from RNA-Seq data and summed across the 91 cell lines in the CCLE (Barretina et al.). (2) DNA replication time (from Chen et al.). (3) the HiC statistic, a measure of open vs. closed chromatin state (from Lieberman-Aiden et al.).
软件运行
1.如果有完整的Input文件:
将上述3个文件及mutation_type_dictionary_file.txt放在MutSigCV.m所在的文件夹中
双击
MutSigCV.m启动Matlab
>>MutSigCV('mutations.maf','coverage.txt','covariates.txt','output.txt')
2.如果只有MAF文件:
将MAF文件,及genome reference sequence(chr_files_hg18.zip or chr_files_hg19.zip),mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip和gene.covariates.txt文件放在MutSigCV.m所在的文件夹中
双击MutSigCV.m启动Matlab
>>MutSigCV('my_mutations.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg19')
结果解读
output.txt.sig_genes.txt文件中包含了Driver Gene,从P值由小到大排列。
TCGA数据实战
从TCGA上下载MAF的open的文件,文件内包括四种MAF文件:mutect,varscan,somaticsniper,muse,不同的算法和统计模型用于检测体细胞突变,目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2 。
1. 下载chr_files_hg38
如果有需要这部分hg38的文件,可以找我要完整版,不需要再下载和修改了。
TCGA上下载的数据是GRCh38(hg38)版本的,而MutSig的官网上没有提供hg38的chr_file,所以我们从https://www.ncbi.nlm.nih.gov/grc/human/data?asm=GRCh38上下载hg38的每个染色体的序列,例如点击
NC_000001.11,进入NCBI页面后,点击Send To,选择:Compelete Record-File-FASTA保存,保存后的文件命名为“chr1.txt",本地打开该文件,去除>开头第一行信息,并去除文件中所有换行符(替换\n为空)。将22+XY染色体的文件都保存于子文件夹”chr_files_hg38“中。
2. 将mutect文件放入MutSigCV.m所在文件夹下
3. 确保mutation_type_dictionary_file.txt ,exome_full192.coverage.txt.zip ,gene.covariates.txt也都在
4. 修改MutSigCV.m源文件
原版本有bug,要做如下修改 #在Ubuntu系统中似乎不需要修改:
360行附近:
f2 = regexprep(uchr,'^(.*)$',[chr_files_directory '/chr$1.txt']);
f3 = regexprep(uchr,'^(.*)$','chr$1.txt'); #添加f3变量
chr_file_available = ismember(f3,f1); #将f2改为f3
5. 运行程序
>>MutSigCV('TCGA_ESCA_mutect.maf','exome_full192.coverage.txt','gene.covariates.txt','my_results','mutation_type_dictionary_file.txt','chr_files_hg38')