CASH软件分析差异性可变剪接

						声明:仅用于记录和交流,非用于指导

RNA-seq 数据拿到手已经是hisat2比对好的bam格式文件:test-treat.bam与test-control.bam
接下来记录操作过程:
1、我的bam文件没有经过排序sort和建立索引index,所以我需要进行sort和建立index(sort和index原理以及文件格式变化,还没具体了解)
2、使用samtools软件进行sort和index:
centos下conda包管理器==>conda create -n rna_seq samtools ==>samtools sort test-treat.bam
/samtools sort test-control.bam ==>产生对应的sort.bam文件test-treat.sort.bam /
test-control.sort.bam

代码:#samtools sort -@ 16 sort test-treat.bam -o test-treat.sort.bam (只是设置了线程数@,必须参数为-o)
3、sort后的bam文件建立index:#samtools index -@ 16 test-treat.sort.bam /
#samtools index -@ 16 test-control.sort.bam 直接在pwd下产生bai结尾文件
4、所以你前文件夹下面就有:test-treat.bam | test-treat.sort.bam | test-treat.sort.bam.bai
test-control.bam | test-control.sort.bam | test-control.sort.bam.bai
5、#mkdir xxx ==> wget https://sourceforge.net/projects/cash-program/files/2.2.1/ ==>unzip
产生可用的二进制文件了
备注:cash为java软件,需要jre1.8.0以上的环境,centos 默认有openjdk软件包 ,使用which java查看有无java解析器,java -version查看版本等信息
6、运行cash:#cd cash 2.2.1
#java -jar cash.jar [–参数]
–Case:treat /路径/路径/test-treat.sort.bam #多个文件使用逗号隔开
–Control:control /路径/路径/test-control.sort.bam #多个文件使用逗号隔开
–GTF refgenome.gtf /gff格式文件 #基因组的索引文件,ucsc下载的
–Output /路径/路径/文件名 #分析结果存放地址
7、结果解读:得到两个文件:multiple_samples.ControlvsTreat.alldiff.statistics.txt文件主要展示的可变剪切的统计信息、统计信息中简写的含义和统计显著性意义的阈值,这里为FDR小于0.05;
和multiple_samples.ControlvsTreat.alldiff.txt是具体的可变剪切信息。
CASH软件分析差异性可变剪接_第1张图片
具体的说明文件以及其他参数说明请自行参考:软件压缩包内的说明书。

20191127软件实际用于分析时发现得到的显著意义上的差异可变剪接事件明显少于rMATs软件的比对结果。建议使用rMATs4.0.2,运行速度也很快的。

你可能感兴趣的:(CASH软件分析差异性可变剪接)