点击关注,桓峰基因
桓峰基因公众号推出基于基因组变异数据生信分析教程并配有视频在线教程,目前整理出来的教程目录如下:
DNA 1. Germline Mutation Vs. Somatic Mutation 傻傻分不清楚
DNA 2. SCI 文章中基因组变异分析神器之 maftools
DNA 3. SCI 文章中基因组变异分析神器之 maftools
DNA 4. SCI 文章中基因组的突变信号(maftools)
DNA 5. 基因组变异文件VCF格式详解
DNA 6. 基因组变异之绘制精美瀑布图(ComplexHeatmap)
DNA 7. 基因组拷贝数变异分析及可视化 (GISTIC2.0)
DNA 8. 癌症的突变异质性及寻找新的癌症驱动基因(MutSigCV)
DNA 9. 揭秘肿瘤异质性与TMB, MSI之间的相关性
DNA 10. 识别癌症驱动基因 (OncodriveCLUST)
DNA 11. 识别肿瘤蛋白质三维结构上突变热点(HotSpot3D)
今天来讲一下,我们通过软件 MutSigCV 或者 OncodriveCLUST 筛选驱动基因后,发现驱动基因上是具有某几个hotspots位点,我们进一步思考这种hotspots位点通过改变氨基酸,又会对蛋白的三维结构有何影响呢?
前 言
HotSpot3D是一个用于识别泛癌细胞中高频突变热点的高精度软件,早在2016年就已经发布了,那个时候只能用命令行执行,现在该工具提供了网页交互模式,让更多不懂编程和Linux的工作人员更加方便的使用该工具。提高HotSpot3D软件服务的用户友好性和数据利用的有效性,提供了对变量的一站式分析和突变交互的查询服务,而不需要安装命令行版本的HotSpot3D。
摘 要
HotSpot3D利用药物和突变的配对结果来挖掘有希望的候选药物,为携带特定突变的患者创造个性化治疗的机会。在功能上,服务器包括在线分析和数据库查询,该数据库包含三维蛋白质结构中突变对的结构-功能关系,来源于癌症基因组图谱中33个癌症的肿瘤数据(TCGA)。
总的来说,该数据库产生了约6258个簇和约26000个近端对,包括8000多个可用药突变、369个罕见突变和99个复发突变。
其特点包括以下三方面:
可访问性
HotSpot3D是一款用于识别泛癌细胞中高频突变热点的高精度软件。HotSpot3D Web致力于为研究人员提供一种更简单的方法:只需单击准备好的突变数据文件,就可以使用HotSpot3D内核快速获得软件结果。
2. 可视化和Re-visualization
HotSpot3D Web为提供结果数据文件和突变热点的3D可视化。此外,还支持重新可视化。随时可以通过上传结果文件查看蛋白质3D结构上的突变热点。
3. 分享
该软件将HotSpot3D应用于TCGA,对包括BLCA、BRCA、CESC等33种肿瘤类型的4400例TCGA肿瘤进行了研究。可以直接提供突变聚类数据的结果和可视化。
线上操作流程
主页网址进入之后看到GET STARTED,点击进去,或者下移鼠标:
http://niulab.scgrid.cn/HotSpot3D/html/global.jsp#hero
进入页面上传准备好的数据:
根据软件的要求需要提前准备好maf格式突变数据,我们copy 一下线上例子,是SMAD2基因的突变信息,如下:
Hugo_Symbol Chromosome Start_Position End_Position Variant_Classification Reference_Allele Tumor_Seq_Allele1 Tumor_Seq_Allele2 Tumor_Sample_Barcode transcript_name amino_acid_change
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000585978 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000586487 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000586514 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000587269 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000587353 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000587421 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000589877 NULL
SMAD2 18 45368254 45368254 3'Flank C C T sample21 ENST00000591214 NULL
SMAD2 18 45368254 45368254 Missense_Mutation C C T sample21 ENST00000262160 p.D450N
SMAD2 18 45368254 45368254 Missense_Mutation C C T sample21 ENST00000356825 p.D420N
SMAD2 18 45368254 45368254 Missense_Mutation C C T sample21 ENST00000402690 p.D450N
SMAD2 18 45368254 45368254 Missense_Mutation C C T sample21 ENST00000586040 p.D420N
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000585978 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000586487 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000586514 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000587269 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000587353 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000587421 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000589877 NULL
SMAD2 18 45368266 45368266 3'Flank G G C sample22 ENST00000591214 NULL
SMAD2 18 45368266 45368266 Missense_Mutation G G C sample22 ENST00000262160 p.L446V
SMAD2 18 45368266 45368266 Missense_Mutation G G C sample22 ENST00000356825 p.L416V
SMAD2 18 45368266 45368266 Missense_Mutation G G C sample22 ENST00000402690 p.L446V
SMAD2 18 45368266 45368266 Missense_Mutation G G C sample22 ENST00000586040 p.L416V
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000585978 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000586487 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000586514 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000587269 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000587353 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000587421 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000589877 NULL
SMAD2 18 45368278 45368278 3'Flank G G C sample23 ENST00000591214 NULL
SMAD2 18 45368278 45368278 Missense_Mutation G G C sample23 ENST00000262160 p.L442V
SMAD2 18 45368278 45368278 Missense_Mutation G G C sample23 ENST00000356825 p.L412V
SMAD2 18 45368278 45368278 Missense_Mutation G G C sample23 ENST00000402690 p.L442V
SMAD2 18 45368278 45368278 Missense_Mutation G G C sample23 ENST00000586040 p.L412V
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000585978 NULL
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000586487 NULL
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000586514 NULL
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000587269 NULL
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000587353 NULL
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000587421 NULL
SMAD2 18 45371711 45371711 3'Flank C C T sample24 ENST00000589877 NULL
SMAD2 18 45371711 45371711 Missense_Mutation C C T sample24 ENST00000262160 p.R427Q
SMAD2 18 45371711 45371711 Missense_Mutation C C T sample24 ENST00000356825 p.R397Q
SMAD2 18 45371711 45371711 Missense_Mutation C C T sample24 ENST00000402690 p.R427Q
SMAD2 18 45371711 45371711 Missense_Mutation C C T sample24 ENST00000586040 p.R397Q
SMAD2 18 45371711 45371711 Missense_Mutation C C T sample24 ENST00000591214 p.R397Q
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000585978 NULL
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000586487 NULL
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000586514 NULL
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000587269 NULL
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000587353 NULL
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000587421 NULL
SMAD2 18 45371730 45371730 3'Flank C C A sample25 ENST00000589877 NULL
SMAD2 18 45371730 45371730 Missense_Mutation C C A sample25 ENST00000262160 p.G421W
SMAD2 18 45371730 45371730 Missense_Mutation C C A sample25 ENST00000356825 p.G391W
SMAD2 18 45371730 45371730 Missense_Mutation C C A sample25 ENST00000402690 p.G421W
SMAD2 18 45371730 45371730 Missense_Mutation C C A sample25 ENST00000586040 p.G391W
SMAD2 18 45371730 45371730 Missense_Mutation C C A sample25 ENST00000591214 p.G391W
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000585978 NULL
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000586487 NULL
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000586514 NULL
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000587269 NULL
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000587353 NULL
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000587421 NULL
SMAD2 18 45371747 45371747 3'Flank C C A sample26 ENST00000589877 NULL
SMAD2 18 45371747 45371747 Missense_Mutation C C A sample26 ENST00000262160 p.R415I
SMAD2 18 45371747 45371747 Missense_Mutation C C A sample26 ENST00000356825 p.R385I
SMAD2 18 45371747 45371747 Missense_Mutation C C A sample26 ENST00000402690 p.R415I
SMAD2 18 45371747 45371747 Missense_Mutation C C A sample26 ENST00000586040 p.R385I
SMAD2 18 45371747 45371747 Missense_Mutation C C A sample26 ENST00000591214 p.R385I
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000585978 NULL
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000586487 NULL
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000586514 NULL
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000587269 NULL
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000587353 NULL
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000587421 NULL
SMAD2 18 45371772 45371772 3'Flank G G C sample27 ENST00000589877 NULL
SMAD2 18 45371772 45371772 Missense_Mutation G G C sample27 ENST00000262160 p.Q407E
SMAD2 18 45371772 45371772 Missense_Mutation G G C sample27 ENST00000356825 p.Q377E
网站上具体看以下格式说明:
我们选择第二种方式,直接复制Demo里面的突变数据到Data text里面,注意突变行数不能超过1000行,如下:
最后,就是提交数据了。
提交后出现,如下信息,
亲爱的用户,
您的作业提交成功。
如果您的电子邮件地址已提供,您将收到另一个电子邮件后,工作完成。
您还可以刷新页面并检查作业的状态。
感谢您使用HotSpot3D。
HotSpot3D
点击确定即可:
“工作状态”:
每10秒自动更新一次,也可以手动刷新更快。
四种类型:
1. 等待:等待处理。
2.处理:请稍候。完成:处理完成。
4.无集群:在你的输入文件中没有突变热点。
5.网络错误:请检查您的网络并手动刷新页面。
状态:运行中
状态:运行完成
最后查看结果,可以看到具体突变的hotspot,感觉还不错,可是,
我想很遗憾的告诉大家我的经验,就是我上传过多次自己的数据,从来没有成果过,呜呜... 如果成功的可以分享一下您的喜悦给我,实在很期待这款软件真的能为我所用!!
本地安装操作
如果有很多突变基因需要分析,可以通过本地安装方式进行批量处理:
首先确保有cpanm:
cpan App::cpanminus
对于配置,建议使用local::lib:
cpanm --local-lib=~/perl5 local::lib && eval $(perl -I ~/perl5/lib/perl5/ -Mlocal::lib)
依赖包括模块:
LWP::Simple,
Test::Most,
List::Util,
List::MoreUtils,
Parallel::ForkManager
安装HotSpot3D包:
git clone https://github.com/ding-lab/hotspot3d
cd hotspot3d
配置测试环境:
It is helpful to add your perl5 lib directory, and to add your perl5 bin directory.
You can add the following lines to your ~/.bash_profile. Then run 'source ~/.bash_profile'.
export PERL5LIB=~/perl5/lib/perl5/:${PERL5LIB}
export PERL5BIN=~/perl5/bin/:${PERL5BIN}
export PATH=~/perl5/bin/:${PATH}
Add cosmic v67 information to 3D proximity results :
mkdir preprocessing_dir/cosmic
cp COSMIC/cosmic_67_for_HotSpot3D_missense_only.tsv.bz2 ./preprocessing_dir/cosmic/
cd ./preprocessing_dir/cosmic/
bzip2 -d cosmic_67_for_HotSpot3D_missense_only.tsv.bz2
使用参数:
Preprocessing
drugport -- 0) Parse drugport database (OPTIONAL)
uppro -- 1) Update proximity files
prep -- 2) Run preprocessing steps 2a-2f
calroi -- 2a) Generate region of interest (ROI) information
statis -- 2b) Calculate p_values for pairs of mutations
anno -- 2c) Add region of interest (ROI) annotation
trans -- 2d) Add transcript annotation
cosmic -- 2e) Add COSMIC annotation to proximity file
prior -- 2f) Prioritization
Analysis
main -- Run analysis steps a-f (beta)
search -- a) 3D mutation proximity searching
cluster -- b) Determine mutation-mutation and mutation-drug clusters
sigclus -- c) Determine significance of clusters (BETA/OPTIONAL)
summary -- d) Summarize clusters (OPTIONAL)
visual -- e) Visulization of 3D proximity (OPTIONAL)
运行例子试试看,下载数据网站:
https://www.synapse.org/#!Synapse:syn8699796/files/
注册之后才能下载,这里就不多说了,按照以下要求都下载了就可以了!去https://www.synapse.org/ !Synapse:syn8699796,并查看wiki获取任何更新/详细信息。选择Files选项卡,然后进入AverageResidueDistance数据目录(syn8717211)。DrugPort处理结果位于此处(syn9704835)。
选择参考基因组版本(GRCh37 (syn9701918),或GRCh38 (syn9704851))。
需要下载hugo.uniprot.pdb.transcript.csv (syn9704852)。
有两个下载选项可供选择,其中的priorities .tar.gz (syn9704853)包含所有经过预处理的人类蛋白质。这是一个很大的文件,可能需要一个小时或更长时间,这取决于网速。或者,您可以下载优先级/ (syn9705109)或其中任何特定的蛋白质邻近文件。邻近文件被压缩以更快/更有针对性的下载。
注:邻近数据仅包含突变 20Angstroms 以内的对。这对于许多HotSpot3D应用程序来说应该足够了。
实例解析
都准备好之后开始基于优先排序结果和可视化的三维接近搜索
1. 接近搜索(获取输入突变的接近信息):
hotspot3d search --maf-file=your.maf --prep-dir=preprocessing_dir
2. 成对聚类数据:
hotspot3d cluster --pairwise-file=3D_Proximity.pairwise --maf-file=your.maf
3. 计算聚类的显著性:
hotspot3d sigclus --prep-dir=preprocessing_dir --pairwise-file=3D_Proximity.pairwise --clusters-file=3D_Proximity.pairwise.singleprotein.collapsed.clusters
4. 聚类总结:
hotspot3d summary --clusters-file=3D_Proximity.pairwise.singleprotein.collapsed.clusters
5. 可视化(使用PyMol):
hotspot3d visual --pairwise-file=3D_Proximity.pairwise --clusters-file=3D_Proximity.pairwise.singleprotein.collapsed.clusters --pdb=3XSR
可视化后期在介绍PyMol这个蛋白可视化以及旋转的软件!!建议基因数不多就选择在线分析,几分钟搞定,专业生信,或蛋白分析可以考虑本地安装批量出来,各有各的优势!!
References:
1. Protein-structure-guided discovery of functional mutations across 19 cancer types; Niu B, Scott AD, Sengupta S, Bailey MH, Batra P, Ning J, Wyczalkowski MA, Liang WW, Zhang Q, McLellan MD, Sun SQ, Tripathi P, Lou C, Ye K, Mashl RJ, Wallis J, Wendl MC, Chen F, Ding L; Nat Genet 2016 Aug;48(8):827-37
本文使用 文章同步助手 同步