GEO数据库学习总结(二)关于网页下载

一般R代码下载其实挺好的,但是网络狗是一件每个探索GEO小伙伴们都要经历的,有时候我们选择更换镜像,想避开蜗牛一般的的网速,但是也是不行,大家就可以去官网下载这个数据集(GSE)

网站连接

  • 官网连接 https://www.ncbi.nlm.nih.gov/geo/
  • 数据集下载连接 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
    若想下载不同的数据集,只需要更换GSE编号
    例如https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
    更换为https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE33335

网页页面

(一)GEO官网

GEO官网

1.此处可进行一些简单的探索,例如输入Lung(肺),可以找到一些你感兴趣的数据集或者实验
2. 也可以输入你想找的数据集(GSE)或者平台(GPL)


(二)GSE网页

GSE42872
  • SOFT——可下载GPL文件
  • Series——下载矩阵

(三)GSE与GPL下载

  • 点击上图,出现下面的页面,大同小异
GPL下载
GSE下载
  • 点击上图下载

我用的是谷歌浏览器
下载中............
  • 下载成功!

    下载的*GSE 的 gz.文件

  • ①打开txt文件

    打开GSE的txt文件

观察读取文件内容,根据特性选择读取R的函数,代码
  • ②打开soft文件

(四)网站下载后其文件读取

  • GSE 的 gz.文件读取
eSet = read.table('GSE42872_series_matrix.txt.gz',
             sep='\t',quote = "",fill = T,
             comment.char="!",header=T)
#也可以解压后,直接读取txt文件
eSet =read.table('GSE42872_series_matrix.txt',
             sep='\t',quote = "",fill = T,
             comment.char="!",header=T)

关于参数
comment.char="!" ——不读取文件中“!”后的内容
header=T——列名

  • GPL的soft文件读取
##注意 函数 getGEO
GPL6244=getGEO(filename = 'GSE42872_family.soft')
  • GPL也可以代码下载
library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".") 
  • 关于文件读取也总结了一下小传输门——>
R读取GSE文件后

你可能感兴趣的:(GEO数据库学习总结(二)关于网页下载)