转录组质控

1.获取原始数据

公司测序下机数据可能是rawdata,也可能是cleandata,无论是哪种最好自己都做一遍质控,因为公司做得不靠谱。


rawdata的配对文件
fastq文件格式

2.利用fastqc对rawdata进行质量评估

1.下载安装fastqc

wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.9.zip
unzip fastqc_v0.11.9.zip
chmod 755 fastqc ##添加权限

2.质量评估

/home/lx_sky6/yt/soft/FastQC/fastqc -q -t 24 -o /home/lx_sky6/yt/sonyong/fastqc_result /home/lx_sky6/yt/sonyong/rawdata/*.fq.gz

每个测序文件的质检结果都包含两个文件,一个.html,一个.zip。然后下载。html文件(网页)进行查看,主要注意是否有测序接头(adapter content)以及测序的质量和GC含量。


结果

3.结果

per base sequence quality
横坐标为读段,纵坐标为测序质量评估。这里的Quality score=-10*lg10(error P),20%Q表示1%的错误读取率,30%为0.1%错误读取率。黄色块的上下线表示质量25%和75%;蓝色线,平均数;红色线,中位数。
尽量让箱线图位于绿色区域

质量好

质量差

Per sequence quality scores
该图表示总体read平均Q值的分布。横坐标为Q值,纵坐标为read数。越多read的Q值集中在高分区,证明该样品质量越好。

质量好

质量差

Per sequence GC content
该图表示GC碱基在所有序列中的分布。红色线表示待评估样品中每read的GC数,越符合理论分布,表明该样品质量越好。如果双峰,可能混有了其他物种的DNA序列。

质量好

质量差

Adapter Content
检测样品中adapter是否被全部去除及种类。理论上,样品中不含有adapter。从下图中,可看出本样品有adapter未全部去除,且剩余的是Illumina Universal Adapter,所以公司的cleandata自己也最好质控一下。

adapter

下一步就是用trimmomatic去掉adapter。

你可能感兴趣的:(转录组质控)