Fastq格式
二代测序平台获得的原始数据为fastq(或为压缩文件fq.gz)格式,包含双末端测序所得的正向和反向两个文件(通常用“1”和“2”来区分),如下所示:
每一个read包含四行内容,其中第一行以@开头,后面是reads的属性信息,也即read名称。中间用“:”隔开。例如上例中HISEQ为测序平台名称,266为测序运行run的编号,HHNWKBCXX为流通池(flowcell)编号。接下来四个数字为位置信息,2代表流通池中的第2个lane,1101代表第2个lane中的第1101个tile,10010:58789代表该read在该tile中的x:y坐标信息。1为读取编号,双末端一共有两次读取(不包含index的读取)。N代表没有被仪器过滤掉,也即通过了初步质量过滤;0为controlnumber,代表对照序列的鉴定情况。GGCTAC为文库Index序列。
第二行为read序列信息。一般条件下read1里面最前面为特异性Barcode和反向引物的序列,read2里面最前面为正向引物的序列。
第三行以“+”开头,跟随者该read的名称(一般与@后面的内容相同),可以省略,但“+”一定不能省。
第四行代表read每个碱基的测序质量。每个碱基对应的字符在ASCII码中对应的十进制数字减去33即为该碱基质量(也即Phred33体系),例如上图中第一个碱基的质量为D,对应的十进制数字为68(见下表),则碱基质量为68-33=35。碱基质量Q=-10*lgP,P为碱基被测错的概率。也即Q为30代表被测错的概率为0.001,碱基质量越高,则被测错的概率越低。
FastQC质检
对于新下机的原始数据,我们可以使用软件FastQC来对其测序质量进行可视化,软件地址:
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
FastQC使用方法如下:
fastqc -oqt fastqfile
其中参数-o设置结果文件输出路径,默认为当前路径;-q为安静模式运行;-t设置所使用的核数,根据服务器情况而定,更多命令行选项使用命令fastqc -h来查看。fastqfile为原始测序数据,也可以是fq.gz压缩文件,更多使用示例:
#可以同时检查正反向原始数据:
fastqc -o fastqc -t 20 R1.fastq R2.fastq
#对于大批量的数据,也可以用过管道命令和shell脚本进行批量处理:
ls rawdata/*fq | while read id; do fastqc -o fastqc -q -t 20 $id; done
#或者后台运行模式(一次提交多任务,所以核数要调小):
ls rawdata/*fq | while read id; do nohup fastqc -o fastqc -q -t 2 $id & done
#上面的while循环是很常用的一种文档批处理方法,注意变量的运算使用的是通配符而非正则表达式。对引用标准输入还可使用xargs函数:
ls rawdata/*fq | xargs -n 1 -P 5 fastqc -o fastqc -q -t 10
#有时候一个项目有大批量样品甚至大批量文库,需要合并来检测质量并做报告,这时候可以使用以下命令合并序列文件:
cat *1.fq > total.R1.fqcat *2.fq > total.R2.fq
打开生成的html结果报告文件,就可以看到可视化的质检结果。在查看结果之前,我们要对自己的数据有一定的把握,例如是否已经去掉接头,是扩增子测序数据还是鸟枪法测序数据等。基因组宏基因组鸟枪法测序数据reads比较随机均匀,碱基分布也会比较均匀,而扩增子数据由于两端都有引物,以及插入片段均为16S,所以会出现很多重复序列,且碱基分布非均匀。接下来详细解析不同检测结果的含义。
使用浏览器打开html文件后,即可看到基本的参数以及质量分析结果,结果分为绿色的"PASS",黄色的"WARN"和红色的"FAIL",如下所示:
更多内容请查看原文:
测序数据的解析:Fastq与FastQC