一、HiC-Pro 简介
HiC-Pro是目前比较流行的HiC数据标准化处理工具之一,其流程主要分为6个步骤,比对、过滤HiC比对结果、检测有效HiC序列、结果合并、构建HiC关联图谱以及关联图谱标准化。
HiC-Pro可以输出各个尺度的HiC标准化互作图谱,从每个窗口5Kb到1Mb,当然窗口越大,所生成的互作关系越少,计算时间就越少,反之则越多。同时HiC-Pro能与下游的可视化软件HiCPlotter等兼容,输出文件可以直接用于可视化分析。
二、HiC-Pro 原理
HiC-Pro的比对mapping的原理如下图所示,我们拿到了Hi-C的测序数据,HiC-Pro设置好配置文件自动进行批量化处理流程
HiC-Pro能够自动化的比对,标准化和构建相互作用矩阵,在处理多样化的测序数据时,HiC-Pro能够检测和自动过滤测序数量差的reads和无效的片段。
三、下载安装
(1)下载地址:
https://github.com/nservant/HiC-Pro
(2)安装:
依赖软件还是比较多,分别如下。
bowtie2、g++、sort、samtools(>1.1)Python2 (注释是2,3不支持version >=2.7)、4个Python模块(pysam (>=0.8.3), bx-python(>=0.5.0), numpy(>=1.8.2), scipy(>=0.15.1) )R、以及两个R包(RColorBrewer和ggplot2 (>2.2.1) )
(3)解压安装:
unzip HiC-Pro-master.zip && make configure && make install (安装成功如下所示)HiC-Prousage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]Use option -h|--help for more information[zhangsan@wei ~]$ HiC-Pro -husage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]Use option -h|--help for more informationOPTIONS -i|--input INPUT : input data folder; Must contains a folder per sample with input files -o|--output OUTPUT : output folder -c|--conf CONFIG : configuration file for Hi-C processing [-p|--parallel] : if specified run HiC-Pro on a cluster [-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run mapping: perform reads alignment - require fast files proc_hic: perform Hi-C filtering - require BAM files quality_checks: run Hi-C quality control plots merge_persample: merge multiple inputs and remove duplicates if specified - require .validPairs files build_contact_maps: Build raw inter/intrachromosomal contact maps - require_allValidPairs files ice_norm : run ICE normalization on contact maps - require .matrix files [-h|--help]: help [-v|--version]: version
其实最重要的是三个参数,通过帮助文档我们可以发现HiC-Pro使用起来十分方便,但最重要的就是配置文件(configuration-file )的设置。
(4)注释文件
为了处理HiC-Pro的原始文件,我们需要3个注释文件
bed文件:包含限制性酶切位点的文件,其依赖于限制性内切酶和参考基因组
染色体大小文件:这个文件可以在UCSC基因组浏览器上下载
bowtie2 indexes :查看bowtie2说明文档建立基因组index文件
四、软件运行
将'config-hicpro.txt'文件复制粘贴到当前文件夹,然后进行编辑修改,具体如何详细修改参见config文件的说明文档
将输入文件按照如下形式放在有个rawdata文件夹中,如下所示
PATH_TO_MY_DATA
sample1
++ file1_R1.fastq.gz
++ file1_R2.fastq.gz
++ …sample2
++ file1_R1.fastq.gz
++ file1_R2.fastq.gz
…
运行HiC-Pro程序
MY_INSTALL_PATH/bin/HiC-Pro -i FULL_PATH_TO_DATA_FOLDER -o FULL_PATH_TO_OUTPUTS -c MY_LOCAL_CONFIG_FILE
Hi-C数据测试
一个非常小的fastq 文件(2M reads)用于Hi-C测试,数据数据来源于Dixon et al 2012
wget https://zerkalo.curie.fr/partage/HiC-Pro/HiCPro_testdata.tar.gz && tar -zxvf HiCPro_testdata.tar.gz
编辑configuration 文件,设置bowtie2 indexes的路径
运行 HiC-Pro
HICPRO_INSTALL_DIR/bin/HiC-Pro -c config_test_latest.txt -i test_data -o hicpro_latest_test vendredi 13 juillet 2018, 14:55:21 (UTC+0200) Bowtie2 alignment step1 ... Logs: logs/dixon_2M_2/mapping_step1.log Logs: logs/dixon_2M/mapping_step1.log vendredi 13 juillet 2018, 14:56:06 (UTC+0200) Bowtie2 alignment step2 ... Logs: logs/dixon_2M_2/mapping_step2.log Logs: logs/dixon_2M/mapping_step2.log vendredi 13 juillet 2018, 14:56:15 (UTC+0200) Combine R1/R2 alignment files ... Logs: logs/dixon_2M_2/mapping_combine.log Logs: logs/dixon_2M/mapping_combine.log vendredi 13 juillet 2018, 14:56:20 (UTC+0200) Mapping statistics for R1 and R2 tags ... Logs: logs/dixon_2M_2/mapping_stats.log Logs: logs/dixon_2M/mapping_stats.log vendredi 13 juillet 2018, 14:56:21 (UTC+0200) Pairing of R1 and R2 tags ... Logs: logs/dixon_2M_2/mergeSAM.log Logs: logs/dixon_2M/mergeSAM.log vendredi 13 juillet 2018, 14:56:29 (UTC+0200) Assign alignments to restriction fragments ... Logs: logs/dixon_2M_2/mapped_2hic_fragments.log Logs: logs/dixon_2M/mapped_2hic_fragments.log vendredi 13 juillet 2018, 14:57:09 (UTC+0200) Merge chunks from the same sample ... Logs: logs/dixon_2M/merge_valid_interactions.log Logs: logs/dixon_2M_2/merge_valid_interactions.log vendredi 13 juillet 2018, 14:57:09 (UTC+0200) Merge stat files per sample ... Logs: logs/dixon_2M/merge_stats.log Logs: logs/dixon_2M_2/merge_stats.log vendredi 13 juillet 2018, 14:57:10 (UTC+0200) Run quality checks for all samples ... Logs: logs/dixon_2M/make_Rplots.log Logs: logs/dixon_2M_2/make_Rplots.log vendredi 13 juillet 2018, 14:57:22 (UTC+0200) Generate binned matrix files ... Logs: logs/dixon_2M/build_raw_maps.log Logs: logs/dixon_2M_2/build_raw_maps.log vendredi 13 juillet 2018, 14:57:23 (UTC+0200) Run ICE Normalization ... Logs: logs/dixon_2M/ice_500000.log Logs: logs/dixon_2M/ice_1000000.log Logs: logs/dixon_2M_2/ice_500000.log Logs: logs/dixon_2M_2/ice_1000000.log
五、结果查看
-o 输出文件夹中,共有bowtie_results和hic_results两个结果文件夹。
其中bowtie_results文件夹下共有三个文件夹:bwt2、bwt2_global和bwt2_local,分别是序列比对结果、染色体间关联比对结果和染色体内部关联比对结果。其中bwt2文件夹下有一些数据统计结果的输出文件,如mpairstat文件等。
Total_pairs_processed 23546961 100.0Unmapped_pairs 22197 0.094Low_qual_pairs 0 0.0Unique_paired_alignments 17744193 75.357Multiple_pairs_alignments 462162 1.963Pairs_with_singleton 5318409 22.586Low_qual_singleton 0 0.0Unique_singleton_alignments 0 0.0Multiple_singleton_alignments 0 0.0Reported_pairs 17744193 75.357
hic_results文件夹下共有data、matrix以及pic三个文件夹。data文件夹下是比对上的有效序列对,文件末尾为_allValidPairs;pic文件夹下是各类结果数据统计下图所示;matrix文件夹下分为 iced 和 raw 两个文件夹,分别标准化后的关联矩阵和初始的关联矩阵。
六、HiCPlotter可视化
1. HiCPlotter的介绍:
python 脚本,不需要安装
与HiC-Pro 兼容,设置相对应的参数即可可视化HiC结果
HiCPlotter基本可以做出三维基因组分析的大部分结果,应用方便快捷,唯一的就是调色比较麻烦(相对于它的简单快捷可以忽略不计啦)
先展示一下HiCPlotter的便捷
## Plot the genome-wide map at 1Mb resolutionpython HiCPlotter.py -f hic_results/matrix/sample1/iced/1000000/sample1_1000000_iced.matrix -o Examplegw -r 1000000 -tri 1 -bed hic_results/matrix/sample1/raw/1000000/sample1_1000000_ord.bed -n hES -wg 1 -chr chrX## Plot the chrX at 150Kb resolutionpython HiCPlotter.py -f hic_results/matrix/sample1/iced/150000/sample1_150000_iced.matrix -o Exemple -r 150000 -tri 1 -bed hic_results/matrix/sample1/raw/150000/sample1_150000_ord.bed -n Test -chr chrX -ptr 1
直接调用Python就可以运行啦,减少了繁琐的安装步骤。
2. HiCPlotter的可视化实战
使用方式
python HiCPlotter.py -f file1 file2 -n name1 name2 -chr chrX -o output
2.1 整条染色体的Hi-C关系互作图
注意:如果设置-fh为0的话,表明形成的hic-martrix是没有表头行
Hi-C和TADs的数据来源: Dixon et, al. Nature 2012
python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default1 -fh 0
人类ESC细胞21号染色体的互作图
2.2 染色体某一区域的Hi-C互作图谱
python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default2 -ptd 1 -pptd 1 -s 600 -e 900 -fh 0 -w 8 -tr 10 -pi 1
2.3 TAD 的可视化
python HiCPlotter.py -f data/HiC/Human/hES-nij.chr21.2 -n hES -chr chr21 -r 40000 -o default2 -ptd 1 -pptd 1 -s 600 -e 900 -fh 0 -w 8 -tr 10 -pi 1 -pdb 1
2.4 多个数据集的比较相互作用
Hi-C 数据来源:Zuin et, al. PNAS 2014
Tips : 加 -hmc 参数可以改变heatmap的颜色
python HiCPlotter.py -f data/HiC/Human/GSM1081526_TEV_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081528_HRV_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081530_CTRL_r1_cis.index.chr6.txt_matrix.txt data/HiC/Human/GSM1081533_CTCF_r2_cis.index.chr6.txt_matrix.txt -n WT RAD21-Depleted siControl CTCF-Depleted -chr chr6 -r 40000 -fh 0 -pi 0 -sn 0.35 -o Rad21.CTCF -s 2800 -e 2950 -hmc 5
wild type, RAD21-depleted, CTCF-depleted 的细胞6号染色体局部区域的互作关系
2.5 基因之间的相互作用
Tips:相比较默认的jpeg格式的文件,pdf格式的文件则相对更好一些
python HiCPlotter.py -f data/HiC/Human/IMR90-chr10_25kb.RAWobserved_KRnormalizedMatrix.txt -o genes -n IMR90 -chr chr17 -g genes.sorted.bed -r 25000 -s 1800 -e 1850 -hist data/HiC/Human/IMR90.Rad21.bedGraph -hl Rad21 -hm 500 -ext pdf
备注来源:
染色质高级结构研究之Hi-C技术(下篇)——可视化实战
ZZQ&DIATRE [DIATRE表观遗传](javascript:void(0);) 2018-12-20