GEO数据快速下载

1.简介

         俗话说“巧妇有无米之炊”,学习生信分析最重要的就是需要数据,作为刚入门或即将入门的生信小白来说,数据无疑是学习生信技能最大的阻碍了。虽然当前高通量测序的价格已经接近‘白菜价’了,但是对于刚入门的小白来说,这些未经处理的高通量的原始数据的分析还是存在很大问题的,毕竟数据量太大,普通的电脑根本无法负载。因此,众多的公共数据(如:GEO、TCGA、ICGC)成了生信小白训练技能,快速掌握学习生信技能与方法、发表SCI的好助手。但是由于公共数据库大多数在国外,如NCBI的GEO数据库,往往下载数据的时间比分析的时间还要长,而且下载下来的数据格式还需要进一步的处理、分析,使用Excel处理操作会很繁琐,如果使用如R,python语言处理分析,一切变得简单许多,但是这些对于没有编程基础或编程基础较差的小白来说,太过于困难。

        针对下载数据慢,数据处理难等问题,我们公司研发了一个新的数据平台,从善的处理以上各种问题。即使是不会编程的小白也可以通过使用我们的数据平台为自身研究找寻合理的研究方向,甚至是发表一些小文章也将成为一种可能。我们通过研发的新的数据平台将常用的公共数据库全部同步到国内服务器中,并且每天同步更新,同时按照常规发表SCI的习惯对所有数据进行整合,编排,方便大家下载与使用。

2.使用方法

1.网址:http://sangerbox.com/Information?page=1&chk3=&chk5=&chk1=&chk2=&chk4=&chk6=

2.输入关键字(以肺癌为例),

3.选择数据:

下载整合之后的数据:样本的临床信息、将探针号转化为GeneSmybol表达矩阵:

选择表达矩阵的下载方式

下载原始数据合GEO数据库中数据一样,下载数据比较超快。

结果目录:将数据下载到个人中心,在将数据下载到本地。

注:遇到有些GSE号下面会没有数据集时,先将这个GSE号输入到GEO官网上,看看作者有没有上传了这个数据集,如果GEO数据库中显示这个数据的表达矩阵即series_matrix.txt.gz文件大小为几K、几十K、或者几百K,说明该数据集作者没有上传表达谱矩阵。如果GEO数据的表达矩阵即series_matrix.txt.gz文件大小为5M以上,数据还是下载不下来,请联系小编。

你可能感兴趣的:(GEO数据快速下载)