2020-02-19

Chip-seq 流程

sra-tools 下载安装

#加压包
tar zxf sra-tools.tar.gz

#将来需要调用的命令都在bin文件夹中,更改环境变量(全局),>>的意思是追加不是覆盖,以下路径需要自己主动变更,因为是我自己的系统,你只要找到你存放sratoolkit的路径替换掉/home......ubuntu64/之间的内容即可。
export PATH=$PATH:/home/decen/software/sratoolkit.2.9.2-ubuntu64/bin >> ~/.bashrc
source ~/.bashrc
#调用一下命令试试看,prefetch SRR6819004,立即关闭终端,文件太大
#但是我尝试几次好像都是临时生效,关闭终端还是要重新配置变量
export PATH=$PATH:/share/home/chenli-lyo/soft/sratoolkit.2.9.6-1-ubuntu64/bin >> ~/.bashrc
export PATH="/share/home/chenli-lyo/soft/sratoolkit.2.9.6-1-ubuntu64/bin:$PATH"
export PATH="share/home/chenli-lyo/soft/FastQC/fastqc$PATH"
#方法二:第二个方法更有效
vi ~/.bashrc  #用vi/vim编辑器修改bashrc文件
i  #开始插入内容,移动光标到最底部,不管前面有任何内容,都要重启一行录入以下,并且你要找到你存放sratoolkit的路径替换掉/home......ubuntu64/之间的内容即可。
export PATH=$PATH:/home/username/local/app/sratoolkit/bin
ESC, :wq  #退出vi编辑器并保存文件
source ~/.bashrc  #让配置生效
#关闭linux,重启动
--------------------- 


fastqc 下载安装

#在下列网站上下载对应的fastqc压缩包:http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc
#解压缩:
unzip fastqc.zip
#解压缩后生成了一个名为:fastqc的文件
cd FastQC #进入fastqc文件,可以看到里面有一个fastqc执行文件,
chmod 755 fastqc(将fastqc设置为可执行程序)
 ./fastqc #即可运行fastqc程序。如想要在任何目录下运行fastqc程序,则需将fastqc程序的路径添加至环境变量.bashrc中即可。
echo 'export PATH=~/soft/FastQC:$PATH'  >>~/.bashrc
source ~/.bashrc
#检测是否安装成功
fastqc -h 
#开始质控
fastqc SRR4034951.fastq.gz 

lsf集群提交作业

#使用bsub提交命令,例如提交shell 脚本
bsub bash -i xxx.sh

fastqc质控结果解读

Per tile sequence quality

Position specific failures of flowcells

介绍

当Per tile sequence quality显示fail或者warning,表明测序的lane或某个run中出现出现了部分故障,从而影响一些特定的区域和循环,进而使测序数据的质量下降。另外,如果read的3’端的质量是好的,就意味着存在瞬时质量损失(Transient quality loss)的区域难以被剪切处理。

质控过滤

#过滤
java -jar /share/home/chenli-lyo/soft/Trimmomatic-0.39/trimmomatic-0.39.jar SE -phred33 SRR3085650.fastq.gz TrimmedSRR3085650.fastq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:50

samtools的安装

参考https://www.jianshu.com/p/6b7a442d293f

#解压samtools
tar -xjf *.tar.bz2
#进入samtools文件夹
cd samtools-1.9
#编译,安装
make
make prefix=/share/home/chenli-lyo/soft/samtools-1.9 install
#加入环境变量
echo 'export PATH=/share/home/chenli-lyo/soft/samtools-1.9/bin:$PATH' >>~/.bashrc
source ~/.bashrc

比对

  • HISAT2/STAR/Tophat: suitable for transcriptome based or RNA-seq alignment (splice-aware aligner)

  • Bowtie/Bowtie2/bwa: suitable for genome based alignment (ChIP-seq/WGS)

    使用Bowtie2 进行比对

    #在bowtie2的文件夹里,输入:
    gmake NO_TBB=1 
    
    echo 'PATH=/share/home/chenli-lyo/soft/bowtie2-2.3.5.1:$PATH' >>~/.bashrc
    source ~/.bashrc
    #bowtie2安装完成
    #需要注意的是:
    #这条命令把bowtie2 生成的sam文件通过管道|传递到samtools,将sam转换为bam文件,省去中间sam文件的空间占用
    #genome_index 指的是用于bowtie2的索引文件(如下图),而不是参考基因组本身,构建过程参考后文。
    #genome_index 需要指定路径及其共用文件名,比如我的索引文件放在/data/ref/bowtie2/mm10目录下,但是需要输入的参数为/data/ref/bowtie2/mm10/mm10。最后一个mm10指的是共用文件名。
    #参数说明
    #-q: 输入文件为fastq
    #--phred33: 测序碱基的质量体系,现在基本都是33
    #-p: 线程数
    #--no-unal:不保留未必对上的记录
    #-x:索引前缀
    #-S:sam格式输出
    bowtie2 -p 16 -3 5 --local -x /share/home/chenli-lyo/soft/mm9/mm9 -U SRR4034952.fastq.gz | samtools sort -O bam -o /share/home/chenli-lyo/ChipEpop/SRR4034952.bam
    #参考https://blog.csdn.net/u011262253/article/details/79833969
    

Call Peaks

用MACS2 call peak

需要Python 2.7

#安装Python 2.7
#参考 https://blog.csdn.net/qq_23113053/article/details/61203557

#安装numpy
python2 pip install numpyXXX
#numpy下载要注意版本号x86
#安装之前需前置numpy,numpy要前置Django
#解压Django python2.Django-1.11之前的
python2.7 -m pip install --user Django-1.11.22-py2.py3-none-any.whl
 #同样安装pillow
python2.7 -m pip install --user Pillow-6.1.0-cp27-cp27mu-manylinux1_x86_64.whl
#安装numpy
python2 -m pip install --user numpy-1.16.4-cp27-cp27mu-manylinux1_x86_64.whl

#MACS2安装
#参考http://www.mamicode.com/info-detail-1658533.html
cd 进入macs2 文件夹
#没有sudo权限,所以用prefix安装,参考https://blog.csdn.net/yuan_lo/article/details/48289317
##参考此博客,解决所有问题https://blog.csdn.net/Zephyr_Hu/article/details/81836347


cd soft/MACS2-2.1.2/
export PYTHONPATH=$PYTHONPATH:/share/home/chenli-lyo/soft/softbin
export PYTHONPATH=$PYTHONPATH:/share/home/chenli-lyo/soft/softbin/lib64/python2.7/site-packages/
python2.7 setup.py install --prefix=/share/home/chenli-lyo/soft/softbin
echo 'PATH=/shareshare/home/chenli-lyo/soft/softbin/masc2:$PATH' >>~/.bashrc
echo 'PATH=/shareshare/home/chenli-lyo/soft/softbin/bin/masc2:$PATH' >>~/.bashrc
source ~/.bashrc

#需离线安装python-devel
#下载python-devel-2.7.5-76.el7.x86_64.rpm
#解压python-devel-2.7.5-76.el7.x86_64.rpm
rpm2cpio python-devel-2.7.5-76.el7.x86_64.rpm | cpio -idvm
vim  ~/.bashrc
export PATH=$PATH:$share/home/chenli-lyo/soft/usr/bin/
:wq
source ~/.bashrc
echo 'PATH=/share/home/chenli-lyo/soft/bowtie2-2.3.5.1:$PATH' >>~/.bashrc
source ~/.bashrc

callpeak用法

# 常规的peak calling
macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
# 较宽的peak calling
macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1

--- 这次用的代码

macs2 callpeak -t SRR4034951.bam -c SRR3085650.bam -f BAM -g hs -n test -B -q 0.01

macs2 callpeak -t /share/home/chenli-lyo/ChipEpop/SRR4034951.bam? -c SRR3085650.bam? BAM -g hs -n test -B -q 0.01
macs2 callpeak -t /share/home/chenli-lyo/ChipEpop/SRR4034951.bam? -c SRR3085650.bam? -g hs -n test -B -q 0.01 #BAM 系统无法识别,故删除,不知其影响

注释 Rstudio中用ChIPseeker

下载ChIPseeker,配置工作环境

#下载ChIPseeker
source ("https://bioconductor.org/biocLite.R")
biocLite("ChIPseeker")
# 下载人的基因和lincRNA的TxDb对象
biocLite("GenomicFeatures")
biocLite("GenomeInfoDb")
biocLite("GenomicRanges")
biocLite("org.Mm.eg.db")
biocLite("TxDb.Mmusculus.UCSC.mm9.knownGene")
biocLite("clusterProfiler")
biocLite("ReactomePA")
biocLite("DOSE")
#loading packages
library("ChIPseeker")
library("GenomicFeatures")
library("GenomeInfoDb")
library("GenomicRanges")
library("org.Mm.eg.db")
library("TxDb.Mmusculus.UCSC.mm9.knownGene")
txdb <- TxDb.Mmusculus.UCSC.mm9.knownGene
library("clusterProfiler")


#读取文件
usp7 <- readPeakFile("./usp7callpeak/test_summits.bed")

你可能感兴趣的:(2020-02-19)