如何在NCBI下载SRA文件?

1.什么是GEO数据库? 

 GEO数据库全称Gene ExpressionOmnibus database,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。


 2.    GEO提供的数据类型有那些呢? 

 GEO数据库的4个概念和4个数据存放类型: GSE数据编号(Series) GPL数据编号(GEO platforms) GSM数据编号(Samples) GDS数据编号(Datasets) 一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。 


 3.    如何根据GSE/SRA/SRR号进行原始的数据下载?

https://www.jianshu.com/p/03d7db3d5e82


 4.    如何高速下载SRA文件? 

参考网站:https://www.cnblogs.com/renping/p/7977472.html

         方法主要有: 

  l  首选Aspera Connect软件,这是IBM旗下的商业高速文件传输软件,与NCBI和EBI有协作合同,我们可以免费使用它下载高通量测序文件,体验飞一般的感觉,速度可飚至300-500M/s。下载完成后,本地用fastq-dump提取fastq文件,用sam-dump提取SAM文件。 

 l  其次,如果上述方法不奏效,优先使用sratoolkit中的prefetch命令。 l  最后,使用sratoolkit中的fastq-dump和sam-dump命令下载,如果fastq-dump不稳定,推荐大家尝试Biostar Handbook中的wonderdump脚本。 

 l  (警告:不要用wget或curl去下载sra文件,这会导致下载的文件不完整!) 

 5.   Aspera Connect命令行工具ascp的安装

 安装 

wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

# (首先,进入Aspera Connect的下载页面,选择linux版本,复制下载地址)  

tar  zxvf  aspera-connect-3.7.4.147727-linux-64.tar.gz #(解压缩) 

bash  aspera-connect-3.7.4.147727-linux-64.sh 

# 查看是否有.aspera文件夹

cd  ~    # 打开根目录

ls  -a    # 软件安装在根目录下的隐藏文件夹中,如果看到.aspera文件夹,代表安装成功 # 永久添加环境变量

echo  'exportPATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrcsource  ~/.bashrc 

# 查看帮助文档ascp  –help  

ascp使用举例:

ascp-v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m [email protected]:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra~/biostar/aspera/  

 报错:(ascp: Failed to open TCP connection forSSH, exiting) 

查找原因:https://www.jianshu.com/p/9915fce02b10 

Debug: 改用上面网址中的命令 time prefetch SRR6795677 ( 使用不了 nohup&,不知道为什么?)

          下载完成后:ll -h 查看下载文件的大小(和NCBI文件大小信息进行比较),防止文件不完整。 

          此时下数据载到/public/home/thu/ncbi/public/sra文件夹下面。

你可能感兴趣的:(如何在NCBI下载SRA文件?)