菜鸟自学04:运行HiC-Pro软件的tips

把之前写在CSDN的博文搬运了过来,集中记录自己的学习过程。
emmmm这篇其实没写完,很长时间没碰又给忘了,不管了。。


Hic-Pro的安装

折腾了一段时间,终于把hicpro软件安装好了,走了弯路,回过头才发现别人的教程已经写的非常正确且清晰了…
说说hic-pro,hic-pro的作用是把测序文件输出为标准互作图谱。
hic-pro的安装有两点麻烦,一是依赖的软件较多,需要参考 https://github.com/nservant/HiC-Pro 官方说明书一一解决;二是要修改配置文件**config-install.txt **

来自生信技能树

1.prefix参数的作用是指定软件安装的位使得在日后使用中维护起来更方便。源码安装包括三个步骤:configure(配置)、make(编译)、make install(安装)。
2.创建虚拟环境的好处就是避免了不同版本程序之间的冲突,再说不用的时候直接删除环境就行了,不用为之前安装的软件杂乱而不知所措。
3.配置时为什么不直接指定到hicpro下,而是再创建一个bin文件夹呢?


Hic-Pro的运行

运行hic-pro的关键是修改该软件的配置文件config-hicpro.txt。可以先查看需要修改的参数文件。

cat config-hicpro.txt
#关键的几个参数
BOWTIE2_IDX_PATH =  #就是用bowtie2建立参考基因组的索引所在路径,注意是绝对路径
REFERENCE_GENOME =  #索引名
GENOME_SIZE =  ?
PAIR1_EXT = #双端测序文件1
PAIR2_EXT = #双端测序文件2
GENOME_FRAGMENT =  ?
LIGATION_SITE =  ?

1.GENOME_SIZE =
在建立的索引目录下新建一个txt文件:

cat >chrom_bacteria.sizes  #创建一个新的文件cat > filename,文件名我是参考hicpro的配置示例 
Chromosome 4016942  #在文件中写入内容,表明这个参考基因的大小是4016942bp,1bp即为1个碱基对(base pair)

2.GENOME_FRAGMENT =

#就是HiC消化片段位点文件
mkdir -p ~/data/project/hic/digest
cd ~/data/project/hic/digest
bin=/home/zhuchumeng/local/app/hicpro/bin/HiC-Pro_2.11.0/bin/utils/digest_genome.py  
$bin -r C^CATGG -o bacteria.bed ../ref/ref.fa 
上面两行来源于消化位点文件生成的命令:`/PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii -o Refgenome.fasta`

.py是python运行脚本。
运行完成后在digest目录下出现了bacteria.bed文件。
bed文件关于bed文件

Browser Extensible Data (BED) BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。
必须包含的3列是:
chrom, 染色体或scafflold 的名字(eg chr3, chrY, chr2_random, scaffold0671 )
chromStart 染色体或scaffold的起始位置,染色体第一个碱基的位置是0

chromEnd 染色体或scaffold的结束位置,染色体的末端位置没有包含到显示信息里面。例如,首先得100个碱基的染色体定义为chromStart =0 . chromEnd=100, 碱基的数目是0-99

3.LIGATION_SITE = CCATGG
因为该篇论文中使用的限制酶是NcoI,这应该是它的特异识别序列。

source ~/miniconda3/bin/activate
source activate hic    #要运行hicpro程序了,所以要进入hic的虚拟环境
cd ~/data/project/hic/    #进入数据存放的hic目录
cp ~/local/app/hicpro/bin/HiC-Pro_2.11.0/config-hicpro.txt ./   #./表示当前目录hic
vi config-hicpro.txt
bin=/home/urname/local/app/hicpro/bin/HiC-Pro_2.11.0/bin/HiC-Pro   #如果已经添加HiC-Pro的路径到环境变量中,就不需要这一步了
nohup $bin -i fq -o out -c config-hicpro.txt 1> run.log 2>&1 &    #理解是将config文件运行结果输出到运行日志,并将标准输出和标准错误都重定向到运行日志?另外,fq是存放数据的地方,记得单独建文件夹放测试数据fq/s1/,config-hicpro.txt和fq都要放在hic目录下

之后可能会报错,如urname目录下找不到bin文件夹,新建一个就是,纯粹是依赖作用,实际上运行后文件夹里不会产生任何东西。还有就是记得根据实际路径修改config-system.txt文件。


Hic-Pro的使用

主要包括:序列比对;数据过滤;原始互作图谱构建;互作图谱迭代校正。
我的数据运行完后数据过滤出来了,但是matrix的文件夹里没有出现原始和标准化后的矩阵图,可能原因:1)数据跑断了,导致分析不完整;2)相关绘图软件缺失;3)软件设置参数有问题,这个可能性不大,因为只有三个参数嘛。。


去Google网上论坛查看hicpro主题,似乎找到问题根源了。原因正是第三点。

HIC-PRO DOES NOT GENERATE ANY MAPS
HiC-Pro is using the chrom.sizes files to build the map.
Be sure that your chromosome names are the same in all annotations files (bowtie2 indexes, restriction fragments, chromosome sizes, etc.)


hiclib的安装与使用###

PS:可算知道为嘛教程里创建的是python=2.7版本的环境了。

image

详情见:https://mirnylab.bitbucket.io/hiclib/

hiclib主要用于数据标准化,不过hicpro就可以了,为什么还要安装hiclib?
或者是想比较两者分析的结果?
三维基因组常用分析工具汇总

你可能感兴趣的:(菜鸟自学04:运行HiC-Pro软件的tips)