1转录组fastq文件处理

第一次转录组分析
公司提供的数据为双端fastq.gz,省略了sra转换这步,sra转换为fastq这步可以以后再说了


数据校验

公司的测序文件提供了md5码

fastq文件

MD5文件内容,左md5码,右文件名
md5sum -c ***.md5

-c或 --check:用来从文件中读取md5信息检查文件的一致性

参考:Linux命令详解:md5sum
https://blog.csdn.net/hanlizhong85/article/details/77844635
转录组入门(3):了解fastq测序数据
http://www.cnblogs.com/freescience/p/7277620.html

确认OK
校验所有目录下的md5
find ../ -name "*.md5" -print0 | xargs -0 md5sum -c

原理解读https://www.jianshu.com/p/82d315a89a1f

tips:

  1. 终端活用tab补全长文件名
  2. 活用终端命令# Linux终端命令全面介绍

质控

mkdir qc #新建文件夹
cd qc
find ../../chem/ -name "*.gz" -print| xargs ls |while read id;do(/mnt/hgfs/linuxshare/biosoft/FastQC/fastqc $id  -o /mnt/hgfs/linuxshare/chem/qc  -t  3);done 

原理解读https://www.jianshu.com/p/06de287783c3

开始质控

每次产生两个文件

质控解读

结果显示有大量支原体污染...


10

大量超过0.1%的重复,通过ncbi blast发现支原体污染....
支原体污染

另外有大量接头

11

参https://www.jianshu.com/p/d72c62b907e9

序列比对

下现成的index

参考转录组入门(5): 序列比对https://www.jianshu.com/p/681e02e7f9af

还是迅雷好用...不知道是不是多线程不符合规定...下载后解压缩至hg19文件夹


hg19文件夹内文件

使用hisat2比对

for i in `0 2 4`
do
hisat2 -t -x ../hg19/genome -1 ../../${i}h/${i}h_combined_R1.fastq.gz -2 ../../${i}h/R19000257LR01-${i}h_combined_R2.fastq.gz -S ../../aligned/${i}h.sam
done

参https://www.jianshu.com/p/be74422b74aa

比对结果解读

比对结果

57.25%的配对数据一次都没有比对,40.05%的数据比是唯一比对,2.70%是多个比对。剩下的部分单端数据进行比对,95.89%数据没比对上,3.37%的数据比对一次,0.73%比对超过一次。总共才50.03%的比对率。
考虑到前面QC的两个问题,一个是支原体,一个是adapter,接下来尝试用支原体的index比对一下。

对比结果

果然36.21%的是支原体,加上adaptor的话,能够解释为什么只有50%的比对率了...
参https://www.jianshu.com/p/5ddbe9508b69

去除adaptor(待做)

AdapterRemoval

bam

samtools sort -@ 5 -o 6h.bam 6h.sam
实际分两步进行

过程中会产生一些小文件

你可能感兴趣的:(1转录组fastq文件处理)