来源自:华大科技知识库
组学
研究细胞、组织或是整个生物体内某种分子(DNA、RNA、蛋白质、代谢物或其他分子)的所有组成内容,称之为“组学”(-omics),”-omics”术语代表了对怎样思考生物学和生物体系工作方式的重新定位。组学研究包括对基因组及基因产物(转录子组和蛋白质组)的系统生物学研究,随后必然要上升到细胞机制、分子机制和系统生物学的水平。
基因组学相关概念
基因组即指生物所具有的携带遗传信息的遗传物质的总和,包括所有的基因和基因间区域。基因组的结构主要指核酸分子中不同的基因功能区域各自的分布和排列情况,其功能是储存及表达遗传信息。不同种类生物储存的遗传信息量迥异,其基因组的结构和组织形式也不同。
三类:结构基因组学、功能基因组学和比较基因组学。
真核生物基因组有三种类型
1.核基因组:细胞核内所有遗传物质的总和;
2.线粒体基因组:线粒体携带遗传物质的总和;
3.叶绿体基因组:叶绿体携带遗传物质的总和。
转录组学相关概念
1.转录本
亦称剪切体,通常为一个基因通过转录剪接形成一种或多种可供编码蛋白质的成熟的mRNA。
2.转录因子
能与基因前端5’端上游特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。根据转录因子的作用特点可分为二类:第一类为普遍转录因子,它们与RNA聚合酶Ⅱ共同组成转录起始复合体时,转录才能在正确的位置开始;第二类转录因子为组织细胞特异性转录因子,这些TF是在特异的组织细胞或是受到一些类固醇激素\生长因子或其它刺激后,开始表达某些特异蛋白质分子时,才需要的一类转录因子。
3.转录组测序
通过高通量测序研究特定组织或细胞在某个时期转录出来的mRNA的表达量,进而对相关基因和表型的关系进行分析。本质上讲转录组测序就是在用一种新的方法实现“基因决定性状”的经典思路。
在有参考序列的前提下,基于是否做结构分析,又划分出只做定量的RNA-seq,也就是度mRNA进行表达量测定和差异表达基因分析等。
在有参考序列的前提下,基于是否做结构分析,又划分出只做定量的RNA-seq,也就是度mRNA进行表达量测定和差异表达基因分析等。
需要注意,建库至少两次生物学重复,3次以上的生物学重复更好。以3个重复为例,加上对照的三个生物学重复,一次RNA-seq需要6个样本。
蛋白质组学相关概念
蛋白的主要生物学功能
1)作为生物催化剂
2)代谢调节作用
3)免疫保护作用
4)物质的转运和存储
5)运动与支持作用
6)参与细胞间信息传递
蛋白质组数据库
(https://www.ebi.ac.uk/)
1、UniProtKB
其中85%的记录来自于公共核苷酸数据库(如ENA/GenBank/DDBJ等)提交的蛋白质编码序列,这些序列会经过UniprotKB的工作人员手动整合添加。该数据库可以用于验证蛋白质的结构功能,查找蛋白质在细胞内的定位等等,当然最基础的同源序列比对是必备功能。
2、PRIDE 官网
PRIDE是一系列PRoteomics IDEntifications的数据库。主要包含蛋白质和多肽(另有转录后修饰信息)的记录信息,同时包含支持这些记录的质谱信息。简而言之就是一个质谱数据库,每个蛋白质都附有试验方法的描述,pubmed ID。
代谢组学相关概念。
**代谢组学(metabonomics/metabolomics)是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。研究对象是生物体内相对分子质量1000Da以内的小分子代谢物。先进分析检测技术结合模式识别和专家系统等计算分析方法是代谢组学研究的基本方法。
代谢组学相关数据库
常用的代谢组学相关数据库有人类代谢组数据库(Human Metabolome Database, HMDB)、KEGG数据库、Reactome数据库 (http://www.reactome.org)等:
(1)人类代谢组数据库(HMDB)是代谢组学热门数据库之一,包含人体内发现的小分子代谢物的详细信息,包含不少于79,650种代谢物条目。
(2)SMPDB数据库与HMDB关联,包含约700种人类代谢和疾病途径的途径图。
(3)KEGG数据库是代谢组热门数据库之一,包含代谢通路和互作网络信息。
(4)Reactome数据库主要收集了人体主要代谢通路信息以及重要反应。
(5)MassBank数据库主要收集许多高分辨率低代谢组分的谱图。
(6)BioCyc数据库包含通路和基因组数据。
(7)METLIN数据库,是商业化的代谢组及串联质谱数据库,包含有约43000种代谢物和22000个MS/MS谱图。
(8)FiehnLib数据库是商业化的代谢组数据库,包含约1000个保守的代谢分子的EI光谱。
NIST/EPA/NIH Mass Spectral Library数据库也是商业化的代谢组数据库,包含超过190,000 个EI谱图。
(9)BioCyc数据库收集了通路和基因组数据,可以免费使用。
(10)MetaCyc数据库广泛收集了许多来自不同生物体的代谢通路以及酶的信息,囊括了超过51000篇文献。
(11)MMCD数据库收集有超过10000种代谢物的信息以及它们的质谱和核磁共振谱数据,大多数是拟南芥的代谢物。
表观基因组学相关概念
其研究内容主要包括两类,一类为基因选择性转录表达的调控,有DNA甲基化、基因印记、组蛋白共价修饰和染色质重塑;另一类为基因转录后的调控,包括基因组中非编码RNA、微小RNA、反义RNA、内含子及核糖开关等五类,分别是对表观基因组和表观基因组各状态的影响的不同的方面进行测序的结果:
1、组蛋白修饰:
染色质免疫沉淀测序(ChIP-Seq)使用抗各种组蛋白修饰变体的抗体,从而鉴定出全基因组组蛋白修饰类型。
2、DNA甲基化:
DNA甲基化的形成机制,包括从头合成(de novo),甲基化的维持(Maintenance)和去甲基化(Demethylation),这些过程分别由不同的基因和通路调控。这些基因和通路在动植物中即保守,又有所区别。例如,在植物中就有一个特色通路——RNA介导的DNA甲基化(RdDM)。虽然,迄今为止DNA甲基精确调控的机制还依然没有完全解开,但了解已知的基础调控方式依然对我们的研究有很大帮助。
DNA甲基化高通量检测常见的高通量DNA甲基化检测方法有MeDIP,RRBS,TBS和WGBS。随着测序价格不断下降,覆盖度和精确度都最优的WGBS相信会逐渐变成DNA甲基化研究的主流。
3、ATAC-seq
即可鉴定染色质开放的区域, ATAC-seq全称Assay for Transposase Accessible Chromatin with high-throughput sequencing,即利用转座酶研究染色质可进入性的一种新型高通量测序技术。也就是说ATAC能帮助你从全基因组范围内推测可能的转录因子,还能通过比较不同时间的染色质开放区域解答发育问题。
甲基化基本介绍
DNA甲基化是最早发现的基因表观修饰方式之一,在维持染 色体结构、X染色体失活、基因印记和肿瘤的发生中起着重要的作用。了解DNA甲基化的机制和功能以及在不同组织或不同个体中的差异将对人类健康与疾病研究 产生深远的影响;基因组DNA甲基化作为一种重要的表观遗传修饰系统,在调控基因表达、细胞分化以及其它各种生命过程中起到了非常重要的作用。
CpG 岛的发现
CpG 岛最早是由Tykocinski 和Max发现并定义的。指包含限制性内切酶HpaⅡ结合位点的小区域,因此也被称为HpaⅡ小片段岛。由于上述定义包含了许多短的重复序列,Takai 和Jones将CpG 岛进行了重新的定义: 长度不小于500 bp、GC 含量不小于55%、CpG 实际含量与期望含量之比不小于0.65。
甲基化的发生过程
在脊椎动物中,CpG二核苷酸是DNA 甲基化发生的主要位点。CpG常成簇存在,人们将基因组中富含CpG的一段DNA 称为CpG岛(CpGisland) ,通常长度在1kb~2kb 左右。CpG岛常位于转录调控区附近,DNA 甲基化的研究与CpG岛的研究密不可分。在DNA 甲基化过程中,胞嘧啶突出于DNA 双螺旋并进入与胞嘧啶甲基转移酶结合部位的裂隙中,该酶将S - 腺苷甲硫氨酸(SAM) 的甲基转移到胞嘧啶的5′位,形成5 - 甲基胞嘧啶(5 -methylcytosine ,5MC) 。
DNA去甲基化
DNA甲基化状态并不是固定不变的。与甲基 化相似, 去甲基化也有两种形式。一种是复制依赖 性的“被动去甲基”, 即通过阻止新生链上发生 DNA甲基化而达到去甲基的效果;另一种则是非复制 依赖性的“主动去甲基”。这一方面目前已经有 了很多相关研究, 在植物中的路径机制已经比较清楚, 通过 5- 甲基胞嘧啶糖苷酶和碱基去除修复路径清除 多余胞嘧啶的甲基化。但是在动物中, 虽然已经有各种证据证明了主动去甲基化的存在, 但是其作用机制仍然存在争议。
甲基化转移酶
Dnmt1
Dnmt1 包含1573 个氨基酸,其C 端为保守的催化甲基化反应结构域;Dnmt1 主要是维持DNA 的持续甲基化状态,使DNA 分子中未甲基化的那一条子链甲基化,从而保持子链与亲链有完全相同的甲基化形式,因此Dnmt1 是一种维持甲基转移酶。
Dnmt3
Dnmt3a 和Dnmt3b属于重新甲基化酶,参与DNA 甲基化的从头合成,即对没有甲基化的DNA 链进行甲基化;Dnmt3L 是一种相关蛋白调节因子,本身不具有DNA 甲基化功能,但可调节Dnmt3a 和Dnmt3b的活性,其氨基酸序列与Dnmt3a 和Dnmt3b 极其相似,但在C 端区域缺少DNA 甲基化转移酶活性所必需的相关物质
甲基化的相关研究
不同物种DNA甲基化情况
1、哺乳动物:
CpG以两种形式存在: 一种分散存在于DNA序列中;另一种呈现高度聚集状态,即CpG岛。在正常组织里,70% ~ 90% 分散存在的CpG是被甲基化修饰的,而CpG 岛则是非甲基化的。正常情况下,人类基因组非CpG岛序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100~1000bp 左右,富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,而CpG岛常位于转录调控区附近,与56%的人类基因组编码基因相关,因此基因非转录区CpG岛的甲基化状态的研究就显得十分重要。人类基因组序列草图分析结果表明,人类基因组CpG 岛约为28890个,大部分染色体每1Mb 就有5~15个CpG岛,平均每Mb含10.5 个CpG岛,并且CpG岛的数目与基因密度有良好的对应关系。
2、在无脊椎动物中
DNA 甲基化主要发生于基因内部,基因间区大部分未被甲基化,重复序列或转座子区域的甲基化情况在昆虫中几乎不存在。在无脊椎动物中,外显子和内含子的甲基化模式也表现出较大差异,如在牡蛎中,外显子和内含子存在较高的甲基化水平,而在金小蜂中,内含子的甲基化水平却要显著低于外显子。
3、植物研究
从基因表达方面研究有利于解释杂种优势的机理,可以利用甲基化手段分析亲本与杂交种之间存在的表型差异。Tsaftaris等人对玉米杂交种和亲本甲基化MSAP 分析表明,亲本的甲基化程度明显高于杂交种,由此认为杂种优势可能与DNA 甲基化程度降低有关。DNA 甲基化还可以解释作物之间的表型独立特性。基因组DNA 被甲基化修饰后,影响其对环境的胁迫应答。由于植物的分生组织产生生殖细胞,所以在形成分生组织前的表观遗传可直接传递给后代。非生物的逆境胁迫,如盐,干旱,热,抗生素等,都会引起甲基化水平的改变。
宏基因组学相关概念
宏基因组 ( Metagenome)是由Handelsman等1998年提出的新名词, 其定义为“the genomes of the total microbiota found in nature” , 即生境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因, 目前主要指环境样品中的细菌和真菌的基因组总和。
宏基因组学 (或元基因组学, metagenomics) 就是一种以环境样品中的微生群物体基因组为研究对象, 以功能基因筛选和/或测序分析为研究手段, 以微生物多样性、 种群结构、 进化关系、 功能活性、 相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。
人类微生物组计划是人类基因组计划的延伸,它研究的重点是通过宏基因组学的方法研究人体内(表)的微生物菌群结构变化与人体健康的关系。
人体内有两个基因组,一个是从父母那里遗传来的人基因组,编码大约2.5万个基因;另一个则是出生以后才进入人体、特别是肠道内的多达1000多种的共生微生物,其遗传信息的总和叫“微生物组”,也可称为“元基因组”,它们所编码的基因有100万个以上。两个基因组相互协调、和谐一致,保证了人体的健康。因此,在研究基因与人体健康关系时,一定不能忽略共生微生物基因的研究。
微生物测序与检测
(1)目前,我国的微生物检测主要用于肠道细菌的检测,未来势必会延伸到黏膜粘附细菌(口腔、呼吸道等),全生态微生物检测是微生物检测的最终目标。
(2)大量的公司会以16S rRNA基因(细菌的系统分类研究中最有用的和最常用的分子钟)测序入手。近几年,宏基因组测序技术逐步兴起,相较于16S rRNA基因,宏基因组可以提供更多更准确的信息,用于分析菌群与环境及菌群与宿主稳态。宏基因组测序技术会逐步成为微生物检测产业的核心技术。
(3)随着测序样本数量越来越多,会产生大量的数据。微生物数据库的建立与分析势必会成为微生物检测产业闭环中最为重要的环节之一。经过清洗、分析的数据可以提供用于疾病诊断、检验的数据基础,用药指导建议,保健品及药品研发等更多领域。