可变剪切定义
有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接, alternative splicing)
内含子剪切需要区分外显子和内含子,主要识别包括内含子5‘及3’末端序列即中间分支点(branch site)附近序列。5‘剪切点称为供体点(donor site),3’剪切点称为受体点(acceptor site)。内含子开始和末尾的碱基最为保守,为GU-AG(约占99.24%),少数为GC-AG(0.7%),极少数为(AT-AC)
剪切由剪切体催化完成,剪切体主要有几个糖蛋白亚基组成。每个亚基由RNA链和蛋白质组成,剪切体分为主要剪切体(major spliceosome)和次要剪切体 (minor spliceosome),主要剪切体负责对接GU-AG的形式,次要剪切体对接AT-AC的形式,剪切过程就是U1结合donor site,U2结合branch site ,U4-U5-U6 形成复合物去绑定链接到U1-U2上,最终完成剪切。
可变剪切种类主要可以分为以下五类:
可变剪切分析软件
RNA-seq可变剪切一般分析过程:
比对软件:hisat2、 star、 tophat
AS识别软件:依赖已有的gtf文件,Asprofile、rmats、cash,不依赖的有leafcutter
AS差异分析:定量再进行差异表达分析
推荐软件:cash/rMATS
CASH 可变剪切分析
下载路径:https://sourceforge.net/projects/cash-program/
Released /2.2.1/cash_v2.2.1.zip
unzip cash_v2.2.1.zip
cd cash_v2.2.1
要求:Java version ≥ 1.8 自行安装:https://www.java.com/en/download/help/linux_x64_install.xml
java –jar cash.ja
运行脚本
无生物学重复:
java -jar -Xmx10g cash.jar --Case:prefix1 C1.bam --Control:prefix2 C2.bam --GTF ref.gtf—Output sample
有生物学重复:
java-jar -Xmx10g cash.jar --Case:Control C1.bam,C2.bam --Control:Treat T1.bam,T2.bam --GTF ref.gtf--Output samples
~/bio/jdk1.8.0_201/bin/java -jar -Xmx10g ~/bio/cash/cash.jar --Case:Mutation ~/testData/bams/C1.bam,~/testData/bams/C.bam --Control:WildType ~/testData/bams/W1.bam,~/testData/bams/W2.bam --GTF ~/ref/hg19.gtf --Output test
结果文件解读:
文件1:test.ControlvsTreat.alldiff.statistics.txt 主要是统计分析结果
文件2: test.MutationvsWildType.alldiff.txt 具体剪切信息文件
rMATS可变剪切分析
Multivariate Analysis of Transcript Splicing (MATS) 4.0版本以上的,不支持没有生物学重复的差异分析
下载: http://rnaseq-mats.sourceforge.net/rmats4.0.2/
Release of rMATS 4.0.1(建议下载版本,最新4.0.2版本运行时候bugs可能较多)
安装相关需求包,有root权限按照官方指南安装,没有的安装如下:
User Guide http://rnaseq-mats.sourceforge.net/rmats4.0.1/user_guide.htm
利用 conda 安装 numpy ,libblas, liblapack,gfortran (https://anaconda.org/bioconda/)
libgsl0ldbl包需要自行编译
先去官网下载GSL安装包http://www.gnu.org/software/gsl/
下载最新的版本后解压,在解压后的目录执行
./configure --prefix=/usr/local/bin && make && make install
cd /usr/local/bin
vi ./bashrc 添加路径
最下面加入:
export LD_LIBRARY_PATH=/usr/local/bin: $LD_LIBRARY_PATH
source ./bashrc
找到编译的路径,建立软连接
cd /usr/local/bin
ln libgsl.so.23 libgsl.so.0
脚本运行
fastq文件运行
python rmats.py --s1 s1.txt --s2 s2.txt --gtf gtfFile --bi STARindexFolder -od outDir -t readType -readLength readLength [options]*
python rMATS-turbo-xxx-UCSx/rmats.py --s1 s1.txt --s2 s2.txt --gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf --bi ~/STARindex/hg19 --od out_test -t paired --nthread 6 --readLength 101 --tophatAnchor 8 --cstat 0.0001 --tstat 6
s1及s2的文件为两个样品的fastq文件路径
bam文件运行
python rmats.py --b1 b1.txt --b2 b2.txt --gtf gtfFile --od outDir -t readType --nthread nthread --readLength readLength --tstat tstat [options]*
python rMATS-turbo-xxx-UCSx/rmats.py --b1 b1.txt --b2 b2.txt -gtf gtf/Homo_sapiens.Ensembl.GRCh37.72.gtf -od bam_test -t paired --readLength 101 --cstat 0.0001 --libType fr-unstranded
b1.txt和b2.txt文件为两个样品的bam文件路径
结果文件解读
输出五种可变剪接类型输出:可变剪接类型.MATS.JCEC.txt 考虑外显子长度 可变剪接类型.MATS.JC.txt 不考虑外显子长度
rmats2sashimiplot 可视化rmats分析结果
下载链接:https://github.com/Xinglab/rmats2sashimiplot
python2.7下安装python setup.py install (需安装python画图包matplotlib)