GISTIC2.0的使用

1. 背景

癌症是通过逐步获得体细胞遗传信息的改变而形成的,包括点突变、拷贝数改变和融合事件,这些改变影响了调控细胞生长和生存的关键基因的功能。这些改变所对应的癌基因和抑癌基因的确定大大加快了对癌症发病机制的理解和对新的治疗脆弱性的识别,其中特别是体细胞拷贝数变异(SCNAs),在肿瘤发生和癌症治疗中发挥着核心作用。

Cancer forms through the stepwise acquisition of somatic genetic alterations, including point mutations, copy-number changes, and fusion events, that affect the function of critical genes regulating cellular growth and survival [1]. The identification of oncogenes and tumor suppressor genes being targeted by these alterations has greatly accelerated progress in both the understanding of cancer pathogenesis and the identification of novel therapeutic vulnerabilities [2]. Genes targeted by somatic copy-number alterations (SCNAs), in particular, play central roles in oncogenesis and cancer therapy [3].

而探索驱动型SCNAs及对应受影响的基因,存在两个挑战:1. 在每个细胞分裂过程中都会随机获得体细胞变异,其中只有一些(驱动变异, 'driver' alterations)会促进癌症的发展;2. SCNAs可能同时影响多达数千个基因,但驱动变异的选择性优势可能仅由这些基因中的一个或少数几个介导。
识别drivers的一种常见方法是研究大量的癌症样本,其概念是,包含driver events的区域应该比只包含passengers的区域变异得更频繁。GISTIC(Genomic Identification of Significant Targets in Cancer)算法的提出即是基于此。

算法文章于2011年发表在Genome Biology上,至今引用量已过一千。


2. 软件安装与初步使用

我是在虚拟机下尝试使用的,系统是ubuntu 16.04
进入官网下载页面 ftp://ftp.broadinstitute.org/pub/GISTIC2.0/,下载GISTIC_2_0_23.tar.gz安装包。
由于我之前在win主机下下载过,于是直接将此安装包放进了主机与虚拟机的共享文件夹。
将安装包复制到设定好的安装目录下并解压缩:

mkdir -p bioinfo/GISTIC2.0
cp -i /media/sf_linux_share/GISTIC_2_0_23.tar.gz bioinfo/GISTIC2.0
cd bioinfo/GISTIC2.0
tar -zxvf GISTIC_2_0_23.tar.gz
ls bioinfo/GISTIC2.0

获得如下文件:

之后需要配置matlab环境:

unzip -d MCR_Installer/ MCR_Installer/MCRInstaller.zip
cd MCR_Installer
ls
./install -mode silent -agreeToLicense yes -destinationFolder ~/bioinfo/GISTIC2.0/MATLAB_Compiler_Runtime/   

按照提示添加环境变量,末尾的successful说明matlab环境已经配置成功

添加环境变量:

export mcr_root=/home/xxx/bioinfo/GISTIC2.0/MATLAB_Compiler_Runtime
export LD_LIBRARY_PATH=$mcr_root/v83/runtime/glnxa64:$mcr_root/v83/bin/glnxa64:$mcr_root/v83/sys/os/glnxa64:
export XAPPLRESDIR=$mcr_root/v83/X11/app-defaults

运行示例:

cd
cd bioinfo/GISTIC2.0
./run_gistic_example

发现报错。。。

google到解决方案:应用程序自带库老旧或与系统其余部分兼容性不佳。在 matlab 安装目录下寻找 sys/os/glnxa64/libstdc++.so.6 将其备份后移走,再将 /usr/lib/x86_64-linux-gnu/libstdc++.so.6 链接过来替代之。问题解决。
重新运行示例,得到如下结果文件:


深入了解示例代码 run_gistic_example:

#!/bin/sh
## run example GISTIC analysis

## output directory
echo --- creating output directory ---
basedir=`pwd`/example_results
mkdir -p $basedir 

echo --- running GISTIC ---
## input file definitions
segfile=`pwd`/examplefiles/segmentationfile.txt
markersfile=`pwd`/examplefiles/markersfile.txt
refgenefile=`pwd`/refgenefiles/hg16.mat
alf=`pwd`/examplefiles/arraylistfile.txt
cnvfile=`pwd`/examplefiles/cnvfile.txt
## call script that sets MCR environment and calls GISTIC executable 
./gistic2 -b $basedir -seg $segfile -mk $markersfile -refgene $refgenefile -alf $alf -cnv $cnvfile -genegistic 1 -smallmem 1 -broad 1 -brlen 0.5 -conf 0.90 -armpeel 1 -savegene 1 -gcm extreme

根据示例代码理解输入文件: 拷贝数segment文件(必需),包含6列:

  1. Sample (sample name)
  2. Chromosome (chromosome number)
  3. Start Position (segment start position, in bases)
  4. End Position (segment end position, in bases)
  5. Num markers (number of markers in segment)
  6. Seg.CN (log2() -1 of copy number)]

另外需要参考基因组文件(必需),另外还有芯片探针文件,样本列表文件,CNV文件是可选的。
具体理解还是要参考说明文档,即安装包GISTIC_2_0_23.tar.gz中的GISTICDocumentation_standalone.htm文件。

输出数据理解:
all_data_by_genes.txt --- 基因在不同样本中具体的拷贝数数值
all_thresholded.by_genes.txt --- 基因在不同样本中拷贝数数值离散化后的结果,-2代表缺失两个拷贝,-1代表缺失一个拷贝,0代表拷贝数正常,1代表增加一个拷贝,2代表扩增两个拷贝
focal_data_by_genes.txt --- 基因在不同样本中具体的拷贝数数值(只考虑 focal events)
broad_data_by_genes.txt --- 基因在不同样本中具体的拷贝数数值(只考虑 arm events)
all_lesions.conf_90.txt --- 识别到的拷贝数扩增和缺失的Peak区域
amp_genes.conf_90.txt --- 识别到的拷贝数扩增的Peak区域及区域内涉及到的基因
del_genes.conf_90.txt --- 识别到的拷贝数缺失的Peak区域及区域内涉及到的基因
broad_significance_results.txt --- 显著发生拷贝数变异的broad区域
broad_values_by_arm.txt --- 染色体臂在样本中的拷贝数数值
scores.gistic --- 该算法的打分结果,可导入IGV进行可视化
以及一些可视化的结果图:

freqarms_vs_ngenes.pdf
raw_copy_number.pdf
amp_qplot.pdf
del_qplot.pdf

另外,Broad institute 开发的GenePattern分析平台可在线运行GISTIC2.0,有需要的同学可自行探索。

参考:
https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/
https://www.genepattern.org/modules/docs/GISTIC_2.0
http://www.bio-info-trainee.com/1648.html
http://www.bio-info-trainee.com/2527.html

你可能感兴趣的:(GISTIC2.0的使用)