FastQC

Fastq文件

fastq文件格式

fastq文件命名规则

Illumina测序仪下机FASTQ命名为(NextSeq CN500下机数据为bcl格式,经过bcl2fastq转化后名称类似),例如:

Samplexx_S53_L002_R1_001.fastq.gz


fastq文件

Samplexx: 样本名,与上机时在sampleSheet中填写的一致

S53: S后跟的数字与

样本在sampleSheet中的顺序一致,从1开始

L001/2: 表示lane1 lane2,还可以有lane3,4,5...

I1/2: I1表示p7接头前的index,I2表示P5接头前的index。这两个接头序列是为了区分混合样本,有的软件需要使用

R1/2: R1表示read1,R2表示read2。R1文件的序列为barcode(16bp)+umi(12bp 和试剂有关,虽然10x官网写着10bp),R2文件的序列为测序序列(90bp 可能实际测出了150bp),一般是10x认为剪掉了一大段,怕poly(dT)序列产生干扰和一些测序质量差的序列

Undetermined_S0_L001_R1_001.fastq.gz: 存储index不匹配的reads

理论上fastqc只需要对R2文件进行

fastq序列规则


fastq文件的序列格式
fastq序列示例

第一行以“@”开头,随后为Illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分)

第二行是测序碱基序列

第三行以“+”开头,随后为Illumina 测序标识符(选择性部分)

第四行是对应序列的测序质量


FastQC软件

基本命令

fastqc -o -t ...

结果解读

fastqc报告

Duplicate模块: 总的来说,total线=duplicated reads(unique) / total reads,因此当level=1时,若该值很小,则说明reads的种类很少,当level>1k时,若该值很大,则说明>1k重复的reads很多。

你可能感兴趣的:(FastQC)