转录组数据的下载与质控

转录数据的下载

软件下载

在这里我们介绍一种下载速度十分快的方法,Aspera
软件下载链接.
解压之后安装即可

查找数据及下载链接

在GEO的官网里面通过keyword或GEO Accession得到数据的BioProject
例如:RNA-Seq transcriptome profiling identifies CRISPLD2 as a glucocorticoid responsive gene that modulates cytokine function in airway smooth muscle cells.https://www.ncbi.nlm.nih.gov/pubmed/24926665
根据文章中提供的id进行查找
转录组数据的下载与质控_第1张图片
进入GEO官网,输入文章中的id,找到BioProject PRJNA229998
转录组数据的下载与质控_第2张图片
然后我们进入SRA Explorer
输入PRJNA229998
转录组数据的下载与质控_第3张图片
然后加入到我们的购物车里面,当然这是完全免费的,进入购物车
点击Aspera commands for downloading FastQ files然后copy,在linux里面下载就行了,下载速度比wget下载快得多。
例如

ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh [email protected]:vol1/fastq/SRR103/005/SRR1039515/SRR1039515.fastq.gz . && mv SRR1039515.fastq.gz SRR1039515_GSM1275869_N052611_Alb_Dex_Homo_sapiens_RNA-Seq.fastq.gz

对了,记得检查是否把全部链接复制,否则下载的数据会有缺失。
转录组数据的下载与质控_第4张图片

数据的质控

我们在这里用的软件是fastp,fastp是一款新兴的数据质控软件,操作简单,过滤效果好。

软件下载

我们直接使用conda安装,装好之后就可以使用

conda install fastp

质控

我们先看一下帮助文档,fastp的使用方法相当简单

usage: fastp [options] ...
options:
  -i, --in1                            read1 input file name (string [=])
  -o, --out1                           read1 output file name (string [=])
  -I, --in2                            read2 input file name (string [=])
  -O, --out2                           read2 output file name (string [=])
      --unpaired1                      for PE input, if read1 passed QC but read2 not, it will be written to unpaired1. Default is to discard it. (string [=])
      --unpaired2                      for PE input, if read2 passed QC but read1 not, it will be written to unpaired2. If --unpaired2 is same as --umpaired1 (default mode), both unpaired reads will be written to this same file. (string 

对于单末端测序

我们只要写入测序文件和输出文件就行了

fastp -i xxx.fastq.gz -o xxx.fastq.gz

这样就完成了,然后它会自动生成html和json的质控结果文件

对于现在流行的双末端测序

也很简单,只要规定一下就可以了

fastp -i xxx_1.fastq.gz -I xxx_2.fastq.gz -o xxx_1.fastq.gz -O xxx_2.fastq.gz

我们只要用小写-i和-o规定R1文件,用大写的-I和-O规定R2文件就可以了,用起来十分的方便

你可能感兴趣的:(生物信息)