GEO数据挖掘(一)下载SRA库原始测序数据

对于很多生命科学研究人员来说,经常会面临这样的问题:“不知该从哪个基因入手研究、有感兴趣的基因但不知道如何深入研究、不知道如何整合某一类疾病研究领域的数据进行分析”。这些困扰都可以通过挖掘SRA数据库的测序数据来解决,例如通过检索整理高分文章的热点基因、下载其原始数据进行深度挖掘分析、再辅助湿实验进行验证,便是一套简单完整的生信研究思路。

上一期给大家分享了如何下载GEO数据,但如果只是用GEO数据的表达矩阵去分析上调下调基因,很有可能一些 “明星”基因已经被别人做过了,研究的创新性不足。而实际上,SRA数据库内有一些已发表的CNS文章的原始数据还有非常大的潜力等待被挖掘,如果研究人员只做了编码基因,则可以研究非编码基因,探究DNA调控元件;如果数据测序深度很深,则可以研究反式剪切,挖掘潜在的环状RNA;甚至可以拿原始测序数据从头分析,探寻新的基因。结合GEO数据库和SRA数据库进行数据挖掘可以“点面结合”地探究基因功能和通路等。

SRA数据库介绍

SRA(Sequence Read Archive)数据库是NCBI旗下用于存储高通量测序数据的子库,SRA数据库收集着测序的原始数据,可以免费下载全球已发表文章的原始测序数据。SRA数据库的基本框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四个概念构建的。

STUDY :研究课题/研究项目,前缀 SRP,DRP,ERP 开头。

SAMPLE :样本信息,前缀 SRS,DRS,ERS 开头。

EXPERIMENT : 实验信息, 一次实验包含了一个或多个样本进行一个或多个RUN的测序。前缀 SRX,DRX,ERX 开头。

RUN : RUN对应某一个/对fastq下机的文件。前缀 SRR,DRR,ERR 开头。

注:前缀的第一个字母:表示样本原始被上传到的源数据库,NCBI数据库会同步EBI和DDBJ数据库的测序数据。

SRA库原始数据下载

无需LINUX操作环境的网页下载

1. 网页下载

https://trace.ncbi.nlm.nih.gov/Traces/index.htmlview=run_browser&acc=SRR9826926&display=download

使用任意浏览器,推荐火狐浏览器,打开这个网址,如图点击就自动下载了。

2. 浏览器插件

下载Aspera connect的浏览器插件进行下载。https://www.ibm.com/aspera/connect/

再按照网页方法类似步骤,利用aspera插件实现快速批量下载SRA的数据

LINUX操作环境的下载

prefetch命令下载

https://www.ncbi.nlm.nih.gov/sra/?

首先通过SRA 的RUN selector整合出所需下载的Accession List ,再通过Linux的命令行批量下载SRR文件。

# 使用prefetch命令下载单个文件:如SRR1039510

prefetch SRR1039510

# 批量下载:建立循环,并查看

outputdir=/**/sra

cat sampleId.txt | while read id

do

  echo "prefetch ${id} -O ${outputdir} "

done >download.sh

nohup sh download.sh >download.log &

# 验证数据的完整性

Vdb - validate SRR1039510

Aspera Connect下载

在ENA网站搜索项目号获得FastQ文件的下载地址,在Column Selection栏内勾选需要的信息(如下图)。

https://www.ebi.ac.uk/ena/browser/v

# 下载单个文件

# sra格式

ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh [email protected]:/vol1/srr/SRR103/008/SRR1039508 .

# gz格式

ascp  -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .

# 批量下载

# 得到sra.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符

cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url

cat filereport_read_run_PRJNA310728_tsv.xls  |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n'  >fastq.url

# 命令

outputdir=/**/sra

cat  sra.url |while read id

do

  echo "ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"

done >sra.download.sh

# 提交后台

nohup sh sra.download.sh >sra.download.log &

## 数据完整性检验

# 得到md5值

awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt

# md5值检验

md5sum -c md5.txt

总之,使用prefetch和aspera就可以抓取SRA下载的Access list信息,然后下载到需要的FastaQ文件。

目前我们已经完成了GEO数据库和SRA数据库的测序数据的下载步骤,已经拿到了分析的原材料,后续将分享“对测序数据的个性化分析,挖掘显著基因,富集通路等”一系列教程,请持续关注“GEO数据挖掘”系列文章,每周一个实用干货带您上手生信分析。

你可能感兴趣的:(GEO数据挖掘(一)下载SRA库原始测序数据)