无参转录组分析(Trinity)

1分析步骤

1.1序列延伸(inchworm)--虫

-将reads切割为 k-mers(k bp长度的短片段)
-利用Overlap关系对k-mers进行延伸(贪婪算法)
-输出所有的序列(configs)

1.2构建 de Bruijn graph(chrysalls) --蛹

-聚类所有相似区域大于k-1 bp的contigs
-构图(区分不同的 'components')
-将reads比对回 components,进行验证

1.3解图,列举为转录本(butterfly) --蝶

-拆分 graph 为线性序列
-使用reads以及pairs关系消除错误序列

首先对测序文件进行组装

#双端测序,-seqType表示input数据的格式,一般是fastq格式
Trinity --seqType fq --left seq.left.fq.gz --right seq.right.fq.gz --CPU 1 --max_memory 1G

2结果解读

2.1测序质量

2.2冗余

(1)去除低质量read,一般按测序结果fastqc查看是否存在低质量序列,用catadapt将其去除
(3)检查外源dna的污染,利用序列比对寻找外源基因
(4)使用Normalization参数,降低高丰度基因的reads数据,同时提高组装效率
(5)后续聚类以及过滤

2.3去冗余

#提取最长转录本
/dir/trinityrnaseq-2.2.0/util/misc/get_longest_isoform_seq_per_trinity_gene.pl Trinity.fasta  >unigene.fasta
#软件聚类去冗余
cd-hit-est -i Trinity.fasta -o output-cdhit -T 1 -M 1000

3比对和丰度计算

3.1首先比对reads评估表达量

/dir/align_and_estimate_abundance.pl --transcripts unigene.fasta --seqType fq --left reads_1.fq.gz --right reads_2.fq.gz --est_method RSEM --aln_method bowtie --trinity_mode --prep_reference --output_dir resm_outdir

3.2查看mapping结果

perl /dir/SAM_nameSorted_to_uniq_count_stats.pl bowtie.bam

4进行差异分析

4.1创建表达矩阵

/dir/abundance_estimates_to_matrix.pl --est_method RSEM dir/isoforms.results

4.2利用edgeR进行无差异分析

/dir/run_DE_analysis.pl matrix Trinity_trans.counts.matrix --dispersion 0.1 --method edgeR --output edgeR

你可能感兴趣的:(无参转录组分析(Trinity))