中心法则——DNA(脱氧核糖核酸)
DNA双螺旋像一个扭曲的梯子,而每一对碱基(ATCG)构成了梯子的横栏。
遗传信息的过程大致为:DNA转录为RNA,RNA翻译为蛋白质,蛋白质再辅助前两个过程,并协助DNA自我复制。
转录(Transcription): 把DNA片段的信息转载到一段新组成的mRNA,这个过程由RNA聚合酶和转录因子共同完成。
RNA分子有三大类: 信使RNA(mRNA)(uniquely poly-A tail)、核糖体(ribosome)RNA(rRNA)、转运RNA(tRNA),其中原核和真核细胞的mRNA特征不同: 原核细胞mRNA一般为多顺反子,以AUG为起始密码子;真核细胞mRNA一般为单顺反子,有5'端帽子、3'端尾巴,AUG为起始密码子,tRNA有三叶草结构。
真核细胞mRNA一般由5'端帽子结构、5'端不翻译区、翻译区(编码区)、3'端不翻译区、3'端聚腺苷酸尾巴构成。编码区有一种起始密码子AUG,以及三种终止密码子UGA、UAA、UAG。一般认为帽子的功能与翻译的启动有关。许多真核生物mRNA除去帽子后翻译效率大大降低。5'端不翻译区,也叫前导顺序,其中常有一段顺序会与核糖体小亚基上的18SrRNA3'端的一段顺序互补并结合,这种结合与真核mRNA的翻译启动有关。
原核细胞mRNA一般5'端有一段不翻译区,称前导顺序,3'端有一段不翻译区,中间是蛋白质的编码区,一般编码几种蛋白质。如大肠杆菌乳糖操纵子mRNA编码3条多肽链;色胺酸操纵子mRNA编码5条多肽链。原核细胞mRNA分子中一般没有修饰核苷酸,也没有5'端帽子结构和3'端聚腺苷酸尾巴。原核生物mRNA的编码区一般编码几种功能上相关联的蛋白质,两种蛋白质(由对应的mRNA翻译而成)的编码区之间常有一小段不翻译的顺序,叫做间隔区。
顺反子(cistron)即结构基因,是决定一条多肽链合成的功能单位。顺反子的概念来自遗传学中的顺反重组试验,是确定交换片段究竟在一个基因内还是属于两个基因的试验,简言之,单顺反子就是一个基因,多顺反子就是多个基因。单顺反子(monocistron): 真核基因转录单位为单顺反子,转录形成的一条mRNA模板只含有一个翻译起始点和一个终止点,因而一个基因编码一条多肽链或RNA链,每个基因转录有各自的调节元件。多顺反子(polycistron): 在原核细胞中,通常是几种不同的mRNA连在一起,相互之间由一段短的不编码蛋白质的间隔序列隔开,这样一簇mRNA叫做多顺反子mRNA,可以编码多个多肽链,这些多肽链对应的DNA片断则位于同一转录单位内,共用同一对起点和终点。
详情请查看转录(NGS)
剪接: 指从DNA模板链(cDNA)转录出的原始转录产物(pre-mRNA)中除去内含子(Intron),并将外显子(Extron)连接起来形成一个完整的mRNA分子的过程。在真核细胞中,原始转录产物(pre-mRNA)还要被加工,一个或多个序列(内含子)被剪出除去,选择性剪接的机制使之可产出不同的mRNA分子,这取决于哪段序列被当成内含子而哪段又作为留存下来的外显子。
编辑: 编辑是mRNA成熟的主要机制。研究证明,mRNA中个别碱基的取代和加减,造成mRNA的碱基序列与它的基因的碱基序列不一致,使其仍能参与翻译,所有这一系列的改变不是发生在基因水平上,也不是发生在拼接水平上,而是发生在成熟的mRNA水平上。
翻译(Translation): 成熟的mRNA在rRNA和tRNA的帮助下完成翻译,rRNA形成核糖体(先亚基 再盖上rRNA形成完整核糖体),tRNA携带氨基酸(氨基酸的种类和底座的密码子有关)。指根据中心法则,将成熟的mRNA分子(由DNA通过转录、剪接、编辑成)中“碱基的排列顺序”(核苷酸序列)解码,并生成对应的特定氨基酸序列的过程: 在由rRNA搭建的核糖体小车中,tRNA不断运送由密码子决定的氨基酸,然后核糖体小车一格一格行进,tRNA一个个空箱离开、带着氨基酸返回,这个过程由遇到起始密码子开始,遇到终止密码子结束,然后氨基酸序列变成多肽链,再在特定器官下形成蛋白质。但也有许多转录生成的RNA,如转运RNA(tRNA)、核糖体RNA(rRNA)和小核RNA(snRNA)等并不被翻译为氨基酸序列。
详情请查看翻译
复制(Replication): 作为中心法则的最后一步,DNA必须忠实地进行复制才能使遗传密码从亲代转移至子代。DNA复制是指DNA双链在细胞分裂以前的分裂期间S期进行的复制过程,复制的结果是一条双链变成两条一样的双链,每条双链都与原来的双链一样。这个过程通过边解旋边复制和半保留复制机制得以顺利完成。
详情请查看DNA复制
逆转录(Reverse transcription): 逆转录是以RNA为模板合成DNA的过程,即RNA指导下的DNA合成,是某些病毒的复制形式,需逆转录酶的催化。艾滋病病毒(HIV)就是一种典型的逆转录病毒,病毒进行逆转录是为了复制自身,人类也可以提取希望研究的mRNA的cDNA(在体外进行反转录)。
详情请查看逆转录
DNA--转录--剪接--编辑--mRNA--翻译--氨基酸--多肽链--蛋白质B站视频
中心法则——RNA(核糖核酸)
实际上,真正可用的基因只占人类基因组的3%,其余97%都是非编码序列,但是非编码序列也是可以表达的,表达产物就是非编码RNA(ncRNA)。
人类基因组中约93%的DNA是能转录为RNA的,其中2%是mRNA,98%是非编码RNA(ncRNA)。
非编码RNA(ncRNA)可以分为调控RNA和管家RNA两种。
调控RNA
miRNA: 微RNA (microRNA),18-25 nt.(nt=nucleotide核糖核苷酸),单链
siRNA: 小干扰RNA (smallinterfering RNA),21-23 nt.,双链
piRNA: piwi相互作用RNA (piwi-interacting RNA),26-35 nt.,单链,这是动物生殖细胞所特有的小RNA,转座子沉默
lncRNA: 长非编码RNA (long non-coding RNA),>500 nt.,比如Xist、PCGEM1等
管家RNA
rRNA: 核糖体RNA (ribosome RNA),26-35 nt.,单链,是构成核糖体的组成成分,有多种不同的大小,如28S、18S、5S等
tRNA: 转运RNA (transfer RNA),70-80 nt.,单链,三叶草构型,在蛋白质合成过程中起到转运氨基酸的作用,对于不同的物种,其rRNA分子的大小和种类都可能有所不同
snoRNA: 核仁小RNA (smallnucleolar RNA)
sacRNA: Small Cajal body-specific RNAs,是一种特殊的核仁小RNA,专一位于卡哈尔体(Cajal body)上,可以催化核糖核蛋白的生成
Telomerase RNA: 端粒酶RNA,是端粒酶的一部分,在端粒延伸过程中,作为端粒继续延伸的模板,由端粒酶催化实现端粒的延长
热门ncRNA——lncRNA、miRNA、circleRNA
目前研究最热门的ncRNA主要集中在lncRNA、miRNA、circleRNA三种。
IncRNA: lncRNA可通过折叠形成一定的空间结构与多种蛋白互作,也可通过碱基互补配对与其它核酸进行识别,这种识别又可将蛋白引导至特定序列位点,这些特点使得lncRNA在发育和癌症中的功能发挥得更加丰富。
作为RNA诱饵,结合转录因子,干扰其与基因promoter区域的结合,从而调控转录;作为分子海绵,吸附miRNA,抑制其与mRNA的结合,使得mRNA免于降解;作为蛋白互作的支架或桥梁,影响蛋白多聚物的形成,调控蛋白活性;招募染色质修饰因子,改变染色质的修饰水平,从而影响基因的转录和表达;与mRNA配对结合,抑制翻译;与mRNA配对结合,影响剪切;与mRNA配对结合,影响mRNA的稳定性。
circleRNA: circRNA分子呈封闭环状结构,无游离5‘和3’末端,不易被核酸外切酶RNaseR降解,比线性RNA更加稳定。 长度约200-2000bp,主要长度分布在500bp左右。
circleRNA大多数来源于外显子,少部分由内含子直接环化形成。其形成有四种模式: 套索驱动的环化、内含子碱基配对驱动环化、单个内含子成环、RNA结合蛋白驱动环化。
它可以通过竞争性结合miRNA、线性亲本基因的转录,甚至是编码多肽来发挥生物学功能。
circRNA作为ceRNA(内源竞争性RNA)竞争性结合miRNA;circRNA结合RNA结合蛋白(RBP)以形成RNA-蛋白复合物(RPC),调控线性亲本基因的转录;编码功能,circRNA具有内部核糖体进入位点(IRES),能合成多肽。
miRNA: miRNA一类由内源基因编码的非编码单链RNA分子,其长度约为19-25nt,其在肿瘤发生发展、生物发育、器官形成、病毒防御、表观调控以及代谢等方面起着极其重要的调控作用。
RNA聚合酶II/III转录成pri-miRNA,Drosa/DGCR8复合体将其裂解为pre-miRNA(前体miRNA);Exportin-5-Ran-GTP复合物将pre-miRNA转运出核;Dicer酶裂解pre-miRNA至成熟的长度(19-25nt);双链的miRNA被转载进AGO2,一条链降解,一条链形成RISC,发挥生物学功能。生物学功能有:mRNA的裂解及降解、抑制翻译。此外还有转录调控功能。
RNA-seq结果解读
目前在生信里面应用最为广泛和成熟的RNA-seq技术就是转录组测序,狭义上也就是指的全部mRNA的表达水平,而RNA-seq完成后会生成很多的数据和图片,如火山图、韦恩图、聚类热图等。
火山图(Volcano Plot)显示了两个重要的指标: fold change和校正后的p value,利用t检验分析出两样本间显著差异表达的基因后,以log2(fold change)为横坐标,以t检验显著性检验p值的负对数-log10(adj p-value)为纵坐标。
红色代表基因上调,绿色代表基因下调。
横轴: fold change代表检测样本对对照样本(TS vs CK)的RNA表达量倍数(商)。图中当横轴为1时,代表表达量为2倍关系(log2(2)=1)。
纵轴: padj就是adj p-value(调整p值),代表差异是否具有显著性,统计学中,以p<0.05代表差异具备显著性,由于-log10(0.05)=1.3,所以图示中1.3以上的点代表差异具有显著性。
韦恩图(Vene PLot)用于显示元素集合重叠区域的图示。
在RNA-seq项目中,每个椭圆表示一个比较集合(处理组 vs 对照组)中的差异基因,椭圆重叠区域的数字表示对应的多个比较集合之间的共有差异基因个数。如图示,集合A、B、C、D共有差异基因有44个。
聚类热图(Clustered HeatMap)可用于判断不同实验条件下差异基因的表达模式,热力值表示该点的基因表达。
红色: 表示基因表达水平高;蓝色: 表示基因表达水平低。
横轴代表不同的实验处理条件/样本(cell),纵轴代表差异基因(gene),并且差异基因已经进行了聚类分组,表达模式或相近的差异基因会被聚类为一组。
中心法则——Protein(蛋白质)
脱氧核糖核苷酸排列成的核酸是DNA(一般是双链),核糖核苷酸排列成的核酸是RNA(一般是单链),两种都是核酸。
基因是一段有遗传效应的DNA(或者说是一段有遗传效应的脱氧核糖核苷酸序列),基因在染色体是线性排列的(就像点在线上),染色体是由DNA和蛋白质组成。
基因(DNA)记载着蛋白质上的氨基酸排列顺序,而DNA要通过RNA(mRNA)的转录和tRNA的翻译才产生蛋白质。氨基酸排列成组成多肽,多肽被修整成蛋白质。
蛋白质是由一系列所谓的“氨基酸”分子构建的三维大分子。通常20种氨基酸可形成蛋白质,这些氨基酸可以被蛋白质序列“字母表”中的字母所标记,其中每个字母都是一个氨基酸。
下面是一段蛋白质序列的例子:
ARNDCEQGHILKMFPSTWYZ
通常DNA和mRNA携带遗传信息,但是蛋白质却是生命体中的实际上的基础。每个生物体都是由蛋白质构成的,并通过不断产生的蛋白质的相互作用而起作用。
第一步是转录,遗传信息由DNA经转录转移到mRNA中,第二步是翻译,根据遗传密码的中心法则,将成熟的mRNA分子中“碱基的排列顺序”(核苷酸序列)解码并生成对应的特定氨基酸序列。
翻译的具体过程为: mRNA被分成三个连续字母的单位,每个字母被称为密码子(codon),然后将密码子经由翻译表翻译成氨基酸,因此我们可以说蛋白质是氨基酸序列。
根据对应的遗传密码表,密码子翻译成氨基酸。例如,密码子TCA,对应编码S,即氨基酸丝氨酸。密码子有64种,但只有20个氨基酸。
因为一些密码子能翻译成相同的氨基酸,这被称为密码子简并性。例如: CGU、CGC、CGA、CGG、AGA、AGG --> Arg
蛋白编码基因的注释
如上图所示:蛋白质编码基因的功能注释可以分为个层次(结构、功能、生物学路径)。
第一层次蛋白编码基因结构分析(Structure):
直向同源物(使用Blast)例如: Blast可以用来发现特定于脑膜炎奈瑟氏球菌与其他密切相关的奈瑟氏球菌物具有高度的同源性。
调控蛋白(使用P2RP)例如: P2RP(预测的原核调节蛋白)可以用来确定蛋白质是一种调节蛋白。 P2RP是一种基于网络的框架,用于鉴定和分析原核生物基因组中的调节蛋白。
信号肽和跨膜蛋白(使用SignalP、Phobius、Philius)例如: Philius可以用来预测蛋白质是否是跨膜蛋白。我们还使用Phobius,它是一种组合的跨膜和信号肽预测因子。
结构域和基序(使用CD Search、Interproscan): Interproscan,它像Blast2Go一样,提供基于同源性和GO术语的注释,但是基因HMM的算法,并且依赖于更多来源的注释:Gene3D、Superfamily、PIRSF、TIGER、Panther、Pfam、SMART、PRINTS、HAMAP、ProSite、ProDom。Interproscan识别蛋白质家族结构域,基序和功能位点。
第二个层次蛋白编码基因功能分析(Function):
操纵子属于共调节蛋白家族。这些蛋白质组在进化选择期间是高度保守的,并且在相同方向上彼此相邻。它们不会被启动子或终止子分开,因为它们被表达为形成整体功能系统。
使用OperonDB,它主要计算每个保守的基因对估计基因,是否属于同一个操纵子的概率。该算法考虑到几个替代可能性,如在共同祖先相邻的无关功能,被隔离的可能性,或由于基因对的水平转移。
第三个层次蛋白编码基因途经分析(Pathway):
蛋白质相互作用和细胞中涉及的途径对于获得基因组的整体上的功能很重要。运用所得到信号和代谢途径,我们将可以可视化生物合成。通路将用于检查基因在特定生物系统中预测好坏的程度。路径分析中的主要工具如下: Blast2GO和KASS。
Blast2GO查找同源序列,映射以检索GOterm和注释,以选择相应可靠的功能。
KASS 通过与人工注释的KEGG GENES数据库相比对,该方法基于序列相似性,双向最佳比对结果,获得了高度的准确性。
蛋白质与NGS相结合和相关应用
NGS被应用于多组学研究的各个领域。在表观表观遗传学方面,有用来分析组蛋白修饰的染色质免疫沉淀测序(Chip-seq)。在蛋白质组学方面,有蛋白质间的相互作用的酵母双杂交测序(Y2H-seq)。
Chip-seq
研究体内蛋白质与DNA的相互作用,也称结合位点分析法。即在生理状态下把细胞内的DNA与蛋白质交联在一起,通过超声处理将染色质切为小片段后,利用抗原抗体的特异性识别反应,将与目的蛋白相结合的DNA片段沉淀下来,以富集存在组蛋白修饰或者转录调控的DNA片段,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。
ChIP-Seq的原理
首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。
ChIP-Seq的流程
基本流程如下图:
把DNA和蛋白质交联在一起,超声处理为小片段,利用抗原抗体的特异性识别反应,将与目的蛋白相结合的DNA片段沉淀下来,富集和纯化DNA,构建文库,高通量测序,最后精确定位到基因组上。ChIP-seq过程中,由于DNA富集过程受多种因素的影响。因此,在做ChIP实验时,一定要做好实验对照。因为没有对照,很难对实验结果的可靠性进行评估。一般有三种实验对照:Input对照、阳性对照和阴性对照。常用Input对照。
ChIP-Seq的应用
1.判断 DNA 链的某一特定位置会出现何种组蛋白修饰
2.检测 RNA polymerase II 及其它反式因子在基因组上结合位点的精确定位
3.研究组蛋白共价修饰与基因表达的关系
4.CTCF 转录因子研究