对于很多生命科学研究人员来说,经常会面临这样的问题:“不知该从哪个基因入手研究、有感兴趣的基因但不知道如何深入研究、不知道如何整合某一类疾病研究领域的数据进行分析”。这些困扰都可以通过挖掘SRA数据库的测序数据来解决,例如通过检索整理高分文章的热点基因、下载其原始数据进行深度挖掘分析、再辅助湿实验进行验证,便是一套简单完整的生信研究思路。
上一期给大家分享了如何下载GEO数据,但如果只是用GEO数据的表达矩阵去分析上调下调基因,很有可能一些 “明星”基因已经被别人做过了,研究的创新性不足。而实际上,SRA数据库内有一些已发表的CNS文章的原始数据还有非常大的潜力等待被挖掘,如果研究人员只做了编码基因,则可以研究非编码基因,探究DNA调控元件;如果数据测序深度很深,则可以研究反式剪切,挖掘潜在的环状RNA;甚至可以拿原始测序数据从头分析,探寻新的基因。结合GEO数据库和SRA数据库进行数据挖掘可以“点面结合”地探究基因功能和通路等。
SRA数据库介绍
SRA(Sequence Read Archive)数据库是NCBI旗下用于存储高通量测序数据的子库,SRA数据库收集着测序的原始数据,可以免费下载全球已发表文章的原始测序数据。SRA数据库的基本框架是基于 STUDY, SAMPLE, EXPERIMENT, RUN 四个概念构建的。
STUDY :研究课题/研究项目,前缀 SRP,DRP,ERP 开头。
SAMPLE :样本信息,前缀 SRS,DRS,ERS 开头。
EXPERIMENT : 实验信息, 一次实验包含了一个或多个样本进行一个或多个RUN的测序。前缀 SRX,DRX,ERX 开头。
RUN : RUN对应某一个/对fastq下机的文件。前缀 SRR,DRR,ERR 开头。
注:前缀的第一个字母:表示样本原始被上传到的源数据库,NCBI数据库会同步EBI和DDBJ数据库的测序数据。
SRA库原始数据下载
无需LINUX操作环境的网页下载
1. 网页下载
https://trace.ncbi.nlm.nih.gov/Traces/index.htmlview=run_browser&acc=SRR9826926&display=download
使用任意浏览器,推荐火狐浏览器,打开这个网址,如图点击就自动下载了。
2. 浏览器插件
下载Aspera connect的浏览器插件进行下载。https://www.ibm.com/aspera/connect/
再按照网页方法类似步骤,利用aspera插件实现快速批量下载SRA的数据
LINUX操作环境的下载
prefetch命令下载
https://www.ncbi.nlm.nih.gov/sra/?
首先通过SRA 的RUN selector整合出所需下载的Accession List ,再通过Linux的命令行批量下载SRR文件。
# 使用prefetch命令下载单个文件:如SRR1039510
prefetch SRR1039510
# 批量下载:建立循环,并查看
outputdir=/**/sra
cat sampleId.txt | while read id
do
echo "prefetch ${id} -O ${outputdir} "
done >download.sh
nohup sh download.sh >download.log &
# 验证数据的完整性
Vdb - validate SRR1039510
Aspera Connect下载
在ENA网站搜索项目号获得FastQ文件的下载地址,在Column Selection栏内勾选需要的信息(如下图)。
https://www.ebi.ac.uk/ena/browser/v
# 下载单个文件
# sra格式
ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh [email protected]:/vol1/srr/SRR103/008/SRR1039508 .
# gz格式
ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh [email protected]:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz .
# 批量下载
# 得到sra.url文件,如果行尾存在特殊字符,运行 sed -i "s/\s*$//g" sra.url 去掉行尾特殊字符
cat filereport_read_run_PRJNA229998_tsv.txt |awk 'NR>1{print $NF}' >sra.url
cat filereport_read_run_PRJNA310728_tsv.xls |awk -F '\t' 'NR>1 {print $20}' |tr ';' '\n' >fastq.url
# 命令
outputdir=/**/sra
cat sra.url |while read id
do
echo "ascp -k 1 -QT -l 300m -P33001 -i ~/**/asperaweb_id_dsa.openssh era-fasp@${id} ${outputdir}"
done >sra.download.sh
# 提交后台
nohup sh sra.download.sh >sra.download.log &
## 数据完整性检验
# 得到md5值
awk 'NR>1{print $11"\t"$4}' filereport_read_run_PRJNA229998_tsv.txt >md5.txt
# md5值检验
md5sum -c md5.txt
总之,使用prefetch和aspera就可以抓取SRA下载的Access list信息,然后下载到需要的FastaQ文件。
目前我们已经完成了GEO数据库和SRA数据库的测序数据的下载步骤,已经拿到了分析的原材料,后续将分享“对测序数据的个性化分析,挖掘显著基因,富集通路等”一系列教程,请持续关注“GEO数据挖掘”系列文章,每周一个实用干货带您上手生信分析。