RNA-seq 可变剪切

可变剪切定义

有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing)

内含子剪切需要区分外显子和内含子,主要识别包括内含子5‘及3’末端序列即中间分支点(branch site)附近序列。5‘剪切点称为供体点(donor site),3’剪切点称为受体点(acceptor site)。内含子开始和末尾的碱基最为保守,为GU-AG(约占99.24%),少数为GC-AG(0.7%),极少数为(AT-AC)

剪切由剪切体催化完成,剪切体主要有几个糖蛋白亚基组成。每个亚基由RNA链和蛋白质组成,剪切体分为主要剪切体(major spliceosome)和次要剪切体 (minor spliceosome),主要剪切体负责对接GU-AG的形式,次要剪切体对接AT-AC的形式,剪切过程就是U1结合donor site,U2结合branch site ,U4-U5-U6 形成复合物去绑定链接到U1-U2上,最终完成剪切。


可变剪切种类主要可以分为以下五类:

可变剪切分析软件

RNA-seq可变剪切一般分析过程:

比对软件:hisat2、 star、 tophat

AS识别软件:依赖已有的gtf文件,Asprofile、rmats、cash,不依赖的有leafcutter

AS差异分析:定量再进行差异表达分析

推荐软件:cash/rMATS

CASH 可变剪切分析

下载路径:https://sourceforge.net/projects/cash-program/

Released /2.2.1/cash_v2.2.1.zip

unzip cash_v2.2.1.zip

cd cash_v2.2.1

要求:Java version ≥ 1.8   自行安装:https://www.java.com/en/download/help/linux_x64_install.xml

java –jar cash.ja

运行脚本

无生物学重复:

java -jar -Xmx10g cash.jar --Case:prefix1 C1.bam --Control:prefix2 C2.bam --GTF ref.gtf—Output sample

有生物学重复:

java-jar -Xmx10g cash.jar --Case:Control C1.bam,C2.bam --Control:Treat T1.bam,T2.bam --GTF ref.gtf--Output samples

~/bio/jdk1.8.0_201/bin/java -jar -Xmx10g ~/bio/cash/cash.jar --Case:Mutation ~/testData/bams/C1.bam,~/testData/bams/C.bam --Control:WildType ~/testData/bams/W1.bam,~/testData/bams/W2.bam --GTF ~/ref/hg19.gtf --Output test

结果文件解读:

文件1:test.ControlvsTreat.alldiff.statistics.txt 主要是统计分析结果

文件2: test.MutationvsWildType.alldiff.txt 具体剪切信息文件

rMATS可变剪切分析

Multivariate Analysis of Transcript Splicing (MATS)  4.0版本以上的,不支持没有生物学重复的差异分析

下载: http://rnaseq-mats.sourceforge.net/rmats4.0.2/

Release of rMATS 4.0.1(建议下载版本,最新4.0.2版本运行时候bugs可能较多)

安装相关需求包,有root权限按照官方指南安装,没有的安装如下:

User Guide http://rnaseq-mats.sourceforge.net/rmats4.0.1/user_guide.htm

利用 conda 安装 numpy ,libblas, liblapack,gfortran (https://anaconda.org/bioconda/)

libgsl0ldbl包需要自行编译

先去官网下载GSL安装包http://www.gnu.org/software/gsl/

下载最新的版本后解压,在解压后的目录执行

./configure --prefix=/usr/local/bin && make && make install

cd /usr/local/bin

vi ./bashrc 添加路径

最下面加入:

export LD_LIBRARY_PATH=/usr/local/bin: $LD_LIBRARY_PATH

source ./bashrc

找到编译的路径,建立软连接

cd /usr/local/bin      

ln libgsl.so.23 libgsl.so.0

脚本运行

fastq文件运行

python rmats.py --s1 s1.txt --s2 s2.txt --gtf gtfFile --bi STARindexFolder -od outDir -t readType -readLength readLength [options]*

python rMATS-turbo-xxx-UCSx/rmats.py --s1 s1.txt --s2 s2.txt --gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf --bi ~/STARindex/hg19 --od out_test -t paired --nthread 6 --readLength 101 --tophatAnchor 8 --cstat 0.0001 --tstat 6

s1及s2的文件为两个样品的fastq文件路径

bam文件运行

python rmats.py --b1 b1.txt --b2 b2.txt --gtf gtfFile --od outDir -t readType --nthread nthread --readLength readLength --tstat tstat [options]*

python rMATS-turbo-xxx-UCSx/rmats.py --b1 b1.txt --b2 b2.txt -gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf -od bam_test -t paired --readLength 101 --cstat 0.0001 --libType fr-unstranded

b1.txt和b2.txt文件为两个样品的bam文件路径

结果文件解读

输出五种可变剪接类型输出:可变剪接类型.MATS.JCEC.txt 考虑外显子长度 可变剪接类型.MATS.JC.txt 不考虑外显子长度



rmats2sashimiplot 可视化rmats分析结果

下载链接:https://github.com/Xinglab/rmats2sashimiplot

python2.7下安装python setup.py install (需安装python画图包matplotlib)

你可能感兴趣的:(RNA-seq 可变剪切)