有参转录组学习二:数据质控

Author:ligc
Date:19/5/15

1.1 fastqc结果解读:

测序量:300M左右
reads长度:51bp

Basic Statistics

测序的adapter

adapter_content.png

重复序列的大小和数量(对于转录组测序而言,由于样品经过PCR扩增,出现重复序列属于正常情况)

duplication_levels.png

reads中N(没测到)碱基的数量

per_base_n_content.png

reads中每个碱基的平均质量值。计算公式为:Q=-10log(p),能看到大部分的碱基质量都在Q30以上。

per_base_quality.png

每个read中各个位置碱基的种类分布,刚开始GC含量不一致可能是由于开始的测序不稳定导致的。

per_base_sequence_content.png

每条序列的平均GC含量。

per_sequence_gc_content.png

每条read的平均质量,Q30以上即可

per_sequence_quality.png

每个tile中所测得的碱基的质量

per_tile_quality.png

reads的平均长度

sequence_length_distribution.png

1.2 FASTQ格式说明

FASTQ格式是一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。序列与质量得分皆由单个ASCII字符表示。
FASTQ文件中,一个序列通常由四行组成:

第一行以@开头,之后为序列的标识符以及描述信息(与FASTA格式的描述行类似)
第二行为序列信息
第三行以+开头,之后可以再次加上序列的标识及描述信息(可选)
第四行为质量得分信息,与第二行的序列相对应,长度必须与第二行相同

以下为一个包含单个序列的FASTQ文件示例:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65

本文主要参考了徐洲更师兄的文章

https://www.jianshu.com/nb/14291282

你可能感兴趣的:(有参转录组学习二:数据质控)