2019-08-18-02-fastq/sam和bam文件

fastq

fastq查看:zcat filename.fq.gz | head -n 8 #显示前8行文件内容(前8行代表2条序列)

格式说明:fastq文件每4行代表一条序列

第一行:记录序列测序时所用仪器以及在测序通道中坐标信息,以@开头;

第二行:测序的序列信息,以ATCGN表示,由于荧光信号干扰无法判断是什么碱基时就用N表示;

第三行:通常一个+;

第四行:与第二行碱基信息一一对应,存储测序碱基的质量值。

sam

sam文件全称是the sequencing alignment format,是alignment步骤BWA/STAR/HISAT2等软件对结果的标准输出文件,用于存储reads比对到参考基因组的比对结果。是一个纯文本格式,文件一般较大。为了节省硬盘存储,一般使用其高效压缩的二进制格式bam文件。

利用samtools view的-b参数就能把sam文件转换成bam文件。

1)sam文件查看方式

在linux终端直接用less即可进行查看;

sam文件中第二列flag信息很重要,利用samtools flagstat工具可以查看bam文件中比对的flag信息,并输出比对的统计结果

samtools flagstat *.bam

flag一共有12个标签


bam

2)bam文件查看方式

需要借助samtools view工具进行查看

samtools view filename.bam | less

NGS分析中大多数文件都是由header和record两部分组成,加上-h参数后可以将header显示出来,默认是不显示的。

header内容:每一行就是一条read比对上参考基因组的信息,总共12列,用tab键分隔。

1.read名称;

2.比对信息位flag值;

3.参考序列染色体编号;

4.5’端起始位置;

5.MAPQ:mapping quality,描述比对的质量,数字越大,特异性越高;

6.CIGAR字符串,记录插入、删除、错配等信息;

7.配对read所比对到的染色体,仅双端测序的数据才有;

8.配对read所比对到的位置,仅双端测序的数据才有;

9.插入片段的长度,仅双端测序的数据才有;

10.read序列;

11.read质量值;

12.12列以后的信息都是metadata

你可能感兴趣的:(2019-08-18-02-fastq/sam和bam文件)