NCBI Gene Expression Omnibus(GEO)是一个存储各种高通量实验数据的公共数据库。这些数据包括基于单通道和双通道微阵列的实验,检测mRNA,基因组DNA和蛋白质丰度,以及非阵列技术,如基因表达系列分析(SAGE),质谱蛋白质组学数据和高通量测序数据。网址:https://www.ncbi.nlm.nih.gov/geo/
series:GSE数量
platforms:各个公司出的各种芯片 各种测序仪
samples:样品数
可以点击overview查看具体信息
比如在首页搜索GSE42872,可以看到下列对应信息:
点击图一的GPL6244可以得到图二,可以看到芯片信息:
图二左滑可以得到图三,gene_assignment里能够看到基因对应的真正基因名,就可以利用R中字符串切割,提取这些基因名。
有时候会看到一个GSE里有三个芯片,根据生信技能树这篇文章: http://www.biotrainee.com/forum.php?mod=viewthread&tid=470的说明,可以具体查看芯片的信息,选择基因改变最显著的那个平台的表达矩阵进行后续分析。
四个概念:
一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台,就是GPL。
参考文章:
参考文章链接: http://www.bio-info-trainee.com/bioconductor_China/software/GEOquery.html,学习使用方法,获取所有芯片探针与gene的对应关系。
下载GEOquery包
BiocManager::install("GEOquery")
library(GEOquery)
getGEO函数
#根据GDS号下载数据 下载soft文件
gds858<-getGEO('GDS858',destdir=".")
#根据GPL号下载的是芯片设计的信息
gpl96 <- getGEO('GPL96', destdir=".")
#据GSE号下载数据,下载_series_matrix.txt.gz
gse1009 <- getGEO('GSE1009', destdir=".")
#destdir:指定下载地址 默认是工作目录
#GSEMatrix:TRUE下载Matrix文件 F下载soft文件
#AnnotGPL:T下载注释文件 F不下载
#getGPL:TRUE 下载GPL注释文件 F不下载
1.查看下载GDS返回的对象 soft文件
#Table(gds858) 可以得到表达矩阵
#Meta(gds858) 可以得到描述信息
#suppressMessages 代码检查
#soft文件下载很慢 可以选择AnnotGPL和getGPL都为F 只获得expression set
options(warn=-1) #不显示报错信息
suppressMessages(library(GEOquery))
gds858 <- getGEO('GDS858', destdir=".")
names(Meta(gds858)) #列出所有列名即描述信息
Table(gds858)[1:5,1:5]
2.查看下载GSE返回的对象 _series_matrix.txt.gz文件
gse1009 <- getGEO(‘GSE1009’, destdir=“.”)
gse1009就是expression set 对象,处理函数有:geneNames/sampleNames/pData/exprs。
3.查看下载GPL返回的对象 soft文件
gpl96 <- getGEO('GPL96', destdir=".")
names(Meta(gpl96))
Table(gpl96)[1:10,1:4]
也有其他数据下载的方式,主要是GEO主页直接点击下载原始数据或者直接下表达矩阵,但会因为网速的问题出现bug,所以个人感觉这种会更方便,因为下载之后的数据就在对应文件夹,一目了然。
exprs():提取表达矩阵
pData():查看该对象的分组信息
ExpressionSet对象简单详解
基因芯片也叫DNA芯片、生物芯片、微阵列,能够获得大量基因表达图谱的高通量技术。
DNA芯片原理与生物学中Southern杂交等试验技术相似,都是利用DNA双螺旋序列的互补性,即两条寡聚核苷酸链碱基之间形成氢键互补配对。
DNA芯片通常以尼龙、玻璃、塑料、硅片等为基质材料,固着特定序列DNA单链探针Oligo,并与被检测序列单链cDNA序列互补结合,即杂交。被检测序列用生物素或荧光染链标记,通过荧光染料信号强度可以推算每个探针对应的样品量,即样本中该mRNA水平的高低。一张DNA芯片,可以固着成千上万个探针。
根据制备方法,DNA芯片主要可以分成三类:
DNA芯片主要检测的指标就是基因表达产生的mRNA含量,通过将提取的总mRNA反转录为cDNA并杂交到具有不同基因探针的DNA芯片上,就可以得到不同基因在不同条件、不同发育阶段下的表达情况。被排列成矩阵的DNA片段通常称为探针,而样本RNA则被成为靶标。
即基因芯片分析就是为了通过生物信息学方法从这些芯片数据中发现可能对生物效应起作用的关键基因,从而寻找特定模式并对每个基因给予注释,从而挖掘出隐含的生物学过程并抽提出生物学功能层面上的意义。
DNA芯片实验步骤:
需要注意的是杂交强度不仅代表基因表达水平实际差异,还可能受非特异性杂交影响。为尽量排除这种因素,Affymetirx芯片中设计了不匹配核苷酸探针作矫正依据。此外,染料效率不同带来的系统误差需用均一化方法进行矫正。
芯片技术的两种基本方法:
芯片公司:
芯片分析软件:
GeneSpring 优点:互动式的视窗操作界面,傻瓜式操作,功能强大,拥有超过4400篇的高水平参考文献的引用,表达谱数据分析的金标准。缺点:商业软件收费,操作繁琐,功能拓展性差。如同SPSS一样,适用于零基础。
BRB-Array 优点:基于excel的分析工具,自动调用R包,功能强大,拓展性强,操作简单,免费使用。缺点:专业性强,格式要求高,稍有不符就报错。适用于有一定专业基础。
R-Bioconductor 优点:R语言,生信必学的分析工具,强大的统计分析和作图工具,集合了几乎所有最新的分析算法和工具包,免费下载使用。缺点:需要有一定计算机编程能力。
参考文章:
基因芯片技术介绍
芯片基础知识打卡
参考文章:
illumina的bead 系列表达芯片扫盲
Bioconductor官网