tophat2+cufflinks转录组测序(2)—去接头>比对>差异分析

在将原始数据和参考基因组数据处理好以后,就开始开始比对分析了
比对所用到的参考基因组的索引文件和基因组注释文件都存放在hg19文件夹
将sra文件解压至Fastq文件夹
主要步骤有下列几步
1用Ttimmomatic对fastq数据去接头

mkdir trim_out #创建一个存放用Trimmomatic去接头的输出文件夹
for i in Fastq/*fastq
do
        echo $i
        a=$(echo $i | cut -d "/" -f5 | cut -d "_" -f1)
        java -jar ~/Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 $i ~/trim_out/$a-clean.fastq ILLUMINACLIP:/home/qiujunhui/Biosofts/Trimmomatic-0.38/adapters/TruSeq2-SE.fa:2:30:10
done

2.序列比对用到tophat2软件,使用tophat软件的优点在于tophat2在将待测序列与参考基因组比对后,会直接生成bam文件,生成的bam文件直接可以给cufflinks构建转录本

mkdir tophat_out #创建一个用tophat比对的输出文件夹
for x in ~/trim_out/*clean.fastq
do
          echo $x
          b=$(echo $x | cut -d "/" -f5 | cut -d "-" -f1)
          mkdir ~/tophat_out/$b
          tophat -p 4 -o ~/tophat_out/$b ~/hg19/genome $x
done            

-p 指定线程
-o 指定输出目录
hg19/genome为bowtie2官网上人类基因组的索引文件

2.利用cufflinks构建转录本

#mkdir cufflinks_out 创建一个用cufflinks构建转录本的输出文件夹
cd cufflinks_out
mkdir SRR957677
mkdir SRR957678
mkdir SRR957679
mkdir SRR957680
cd ..
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957677 -p 4 ~/tophat_out/SRR957677/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957678 -p 4 ~/tophat_out/SRR957678/accepted_hits.bam
 cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957679 -p 4 ~/tophat_out/SRR957679/accepted_hits.bam
cufflinks -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cufflinks_out/SRR957680 -p 4 ~/tophat_out/SRR957680/accepted_hits.bam

3.利用cuffmerge合并转录组
为了比较不同样品的差异,需要将实验组和对照组的转录组合并起来,cuffmerge不仅能用来合并,两个或多个转录组,还能把注释过后的基因组信息也合并起来,从而找到新的基因可变剪切提高合并转录组的质量

mkdir cuffmerge_out #创建一个存放用cuffmerge合并转录本的输出文件夹
#把上一操作得到的transcripts.gtf的绝对路径写到一个文本文件里面
vi accepted.txt
~/home/qiujunhui/cufflinks_out/SRR957677/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957678/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957679/transcripts.gtf
~/home/qiujunhui/cufflinks_out/SRR957680/transcripts.gtf
#保存
cuffmerge -g ~/hg19/gencode.v29lift37.annotation.gtf -o ~/cuffmerge_out -p 4 accpeted.txt

4.利用cuffdiff进行基因表达差异分析

mkdir cuffdiff _out #创建一个存放用cuffdiff进行基因表达差异分析的输出文件夹
cuffdiff -o ~/cuffdiff_out -L lable1,lable2,lable3,lable4 -p 4 -u ~/cuffmerge_out/merged.gtf ~/tophat_out/SRR957677/accepted_hits.bam  ~/tophat_out/SRR957677/accepted_hits.bam 
~/tophat_out/SRR957677/accepted_hits.bam ~/tophat_out/SRR957677/accepted_hits.bam

merged.gtf为上一步用cuffmerge合并的转录组
-L 后面是bam文件的标签,有几个bam文件就取几个标签,我只有四个bam文件所以只有四个标签

cuffdiff输出文件比较多,它会对每个基因,每个转录片段,每个编码序列,每个基因的不同剪切体进行FPKM,个数和样本间差异进行分析,最后生成机组不同的文件,按照不同的需求,就可以往下分析了
cuffdiff计算每个样本中的转录本,初始转录本和基因FPKM
1.traisoforms.fpkm_tracking 转录组的FPKM

gens.fpkm_tracking 基因的fpkm

cds fpkm_tracking 编码序列的fpkm

tss_groups.fpkm_tracking 原始转录组的FPKM

2.Count tracking files

评估每个样本中来自每个 transcript, primary transcript,和 gene的fragment数目

3.Read group tracking

计算在每个repulate中每个transcript, primary transcript和gene的表达量和frage数目

4.Differential expression test

对于splicing transcript, primary transcripts, genes,

and coding sequences.样本之间的表达差异检验。

你可能感兴趣的:(tophat2+cufflinks转录组测序(2)—去接头>比对>差异分析)