生信星球转录组培训第一期Day4--郝志刚

软件环境

  • 数据转换: 将SRA转变为fq格式。用到软件fastq-dump,它属于sratools工具包中的一个。
  • 数据质控:检测原始数据质量如何,有没有接头,低质量碱基,用到软件fastqcmultiqc。其中multiqc整合多个样本的fastqc结果于一个文件中。
  • 数据过滤:去掉接头和低质量的碱基,软件时trim_galoretrimmomatic
  • 比对:基于基因组比对(starhisat2),基于转录组比对(bowtiebwa)、不基于比对(salmon)。
  • 定量:推荐使用featureCounts,它是subread软件下的一个小软件

实际操作

  • 下载软件
conda activate RNAseq
conda install fastqc multiqc trim-galore trimmomatic hisat2 bowtie2 subread salmon -y
生信星球转录组培训第一期Day4--郝志刚_第1张图片
下载结果
  • 数据转换:
    目的:将sra转变为fq文件
raw=~/RNAseq/raw
cat $raw/srr.ids | while read i ;do
#echo $i
time fastq-dump --gzip --split-3 -A $i $raw/${i}.sra -O $raw 1>sra2fq.log 2>&1;
done
  • 下载参考基因组及注释文件
rna=~/rnaseq
cd $rna/ref
# genome (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
# annotation (从ensembl下载)
wget -c ftp://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.96.gtf.gz
# -c的含义是断点续传
下载
  • 利用fastqc质控
cd $rna/qc
fastqc $rna/raw/*.gz -o ./ -t 10
# -t指定线程数;-o输出路径

将质控文件结果html合而为一,可以在当前目录下

multiqc ./
生信星球转录组培训第一期Day4--郝志刚_第2张图片
质控结果

生信星球转录组培训第一期Day4--郝志刚_第3张图片
结果解读

解析结果

生信星球转录组培训第一期Day4--郝志刚_第4张图片
SRR1039508

以SRR1039508为例,整体Summary,绿色表示通过,黄色表示警告。

  • 第一个模块 Basic Statistics


    生信星球转录组培训第一期Day4--郝志刚_第5张图片
    基本信息

    序列总数22935521,序列测序长度63,GC含量50

  • 第二个模块


    生信星球转录组培训第一期Day4--郝志刚_第6张图片
    每个碱基质量

    其中纵轴表示Phred碱基质量,横轴表示碱基在reads上的位置。比如:横坐标的1表示所有reads的第一个碱基的质量值分布,结果用一个箱线图表示。箱线图的红线表示中位数,其余的四条线为10、25、75、90四分位数。然后又看到有一条贯穿箱线图的蓝色线,它表示平均碱基质量值。

整个图又有三块背景:红色背景区域表示reads质量很差(Phred < 20),绿色背景表示质量不错(Phred > 28),由此可见,这个样本测序质量很不错。

  • 3、 Per sequence quality scores
生信星球转录组培训第一期Day4--郝志刚_第7张图片
per tile sequence quality
  • 4、 碱基总体质量值分布 Per sequence quality scores


    生信星球转录组培训第一期Day4--郝志刚_第8张图片
    总体质量值分布

    它的横轴是平均质量分数,纵轴是测序reads数。我们比较希望在低质量区域(也就是x轴前端)没有较大的峰(也就是没有太多的reads),由图可知,测序质量非常好。

  • 5、 read各个位置上碱基比例分布 Per base sequence content


    生信星球转录组培训第一期Day4--郝志刚_第9张图片
    碱基比例分布

这个图经常会蹦出来FAIL 字眼吓唬我们。因为前10-12bp的碱基是RNA测序文库制备时使用的随机六聚体引物( 'random' hexamer priming)
随机引物是人工合成的随机序列六核苷酸混合物,这些引物可以随机地与 mRNA的任何部位互补,其优点是容易合成完整的cDNA

作者:刘小泽
链接:https://www.jianshu.com/p/efb1fd3fa390


那么根据A-T配对、G-C配对,就可以得到每个位置的A和T比例应该差不多,GC比例应该差不多。但由于六聚体引物的存在,而且它也并不是真正的"随机",还是存在一些碱基偏好性的,因此前10-12bp会有较大的波动
我们只要通过这个图,能看出没有特别大的碱基偏好性就好(也就是除了特殊的六聚体引物以外,A-T或C-G的比例差在1%以内就可以)

  • GC含量分布图 Per sequence GC content


    生信星球转录组培训第一期Day4--郝志刚_第10张图片
    GC含量

    这个图表示了所有reads的GC分布,符合正态分布(也就是钟形曲线)

  • Per base N content


    生信星球转录组培训第一期Day4--郝志刚_第11张图片
    N含量
  • Sequence Length Distribution


    生信星球转录组培训第一期Day4--郝志刚_第12张图片
    image.png
  • Sequence Duplication Levels


    生信星球转录组培训第一期Day4--郝志刚_第13张图片
    image.png

    这个图可以帮助判断文库的复杂程度,如果PCR扩增次数太多或者起始扩增底物太少,都会降低文库的复杂度。

  • 过表达序列表 Overrepresented sequences


    image.png
  • Adapter Content


    生信星球转录组培训第一期Day4--郝志刚_第14张图片
    image.png

你可能感兴趣的:(生信星球转录组培训第一期Day4--郝志刚)