基因组学重点整理

生物五界:动物、植物、真菌、原生生物和原核生物;生物三界:真细菌、古细菌、真核生物

具有催化活性的RNA分子称为核酶(ribozyme)核酶催化的生化反应有:自我剪接 、催化切断其它RNA、合成多肽键 、催化核苷酸的合成大学课程资料中转群

新基因的产生:基因与基因组加倍1)整个基因组加倍; 2)单条或部分染色体加倍;3)单个或成群基因加倍

DNA水平转移:原核生物中的DNA水平转移可通过接合转移,噬菌体转染,外源DNA的摄取等不同途径发生,水平转移的基因大多为非必须基因。动物中由于种间隔离不易进行种间杂交,但其主要来源于真核细胞与原核细胞的内共生。动物种间基因转移主要集中在逆转录病毒及其转座成分

外显子洗牌与蛋白质创新:产生全新功能蛋白质的方式有二种:功能域加倍,功能域或外显子洗牌

基因冗余:一条染色体上出现一个基因的很多复份(复本)当人们分离到某一新基因时,为了鉴定其生物学功能,常常使其失活,然后观察它们对表型的影响。许多场合,由于第二个重复的功能基因可取代失活的基因而使突变型表型保持正常。这意味着,基因组中有冗余基因存在。看家基因很少重复,它们之间必需保持剂量平衡,因此重复的拷贝很快被淘汰与个体发育调控相关的基因表达为转录因子,具有多功能域的结构。这类基因重复拷贝变异可使其获得不同的表达控制模式,促使细胞的分化与多样性的产生,并导致复杂形态的建成,具有许多冗余基因

非编码序列扩张方式:滑序复制、转座因子

模式生物海胆、果蝇、斑马鱼、线虫、蟾蜍、小鼠、酵母、水稻、拟南芥等。模式生物基因组中G+C%含量高, 同时CpG 岛的比例也高。进化程度越高, G+C 含量和CpG 岛的比例就比较低

如果基因之间不存在重叠顺序,也无基因内基因(gene-within-gene),那么ORF阅读出现差错的可能只会发生在非编码区。细菌基因组中缺少内含子,非编码序列仅占11%, 对阅读框的排查干扰较少。细菌基因组的ORF阅读相对比较简单,错误的机率较少。高等真核生物DNA的ORF阅读比较复杂:基因间存在大量非编码序列(人类占70%);绝大多数基因内含有非编码的内含子。高等真核生物多数外显子的长度少于100个密码子

内含子和外显子序列上的差异:内含子的碱基代换很少受自然选择的压力,保留了较多突变。由于碱基突变趋势大多为C-T,故A/T的含量内含子高于外显子。由于终止密码子为TAA\TAG\TGA,如果以内含子作为编码序列,3种读码框有很高比例的终止密码子

基因注释程序编写的依据:1)信号指令,包括起始密码子,终止密码子,终止信号,剪接受体位和供体位,多聚嘧啶序列,分支点保守序列2)内容指令,密码子偏好,内含子和外显子长短

基因功能的检测:基因失活基因过表达RNAi干涉

双链DNA的测序可从一端开始,亦可从两端进行,前者称单向测序,后者称双向测序。

要获得大于50 kb的DNA限制性片段必需采用稀有切点限制酶

酵母人工染色体(YAC)1)着丝粒 在细胞分裂时负责染色体均等分配。2)端粒 位于染色体端部的特异DNA序列,保持人工染色体的稳定性3)自主复制起始点( ARS)在细胞中启动染色体的复制

合格的STS要满足2个条件:它应是一段序列已知的片段,可据此设计PCR反应来检测不同的DNA片段中是否存在这一顺序;STS必需在染色体上有独一无二的位置。如果某一STS在基因组中多个位点出现,那么由此得出的作图数据将是含混不清的。

遗传图绘制主要依据由孟德尔描述的遗传学原理,第一条定律为等位基因随机分离,第二条定律为非等位基因自由组合,显隐性规律/不完全显性、共显性、连锁

衡量遗传图谱的水平 覆盖程度 饱和程度

基因类型:transcribed, translatable gene (蛋白基因 ) ; transcribed but non-translatable gene ( RNA基因 )Non- transcribed, non-translatablegene ( promoter, operator ) rRNA基因,tRNA基因, scRNA基因, snRNA基因, snoRNA基因, microRNA基因

基因组(genome):生物所具有的携带遗传信息的遗传物质总和。

基因组学(genomic):用于概括涉及基因作图、测序和整个基因功能分析的遗传学分支。

染色体组(chromosome set):不同真核生物核基因组均由一定数目的染色体组成,单倍体细胞所含有的全套染色体。

比较基因组学(comparative genomics):比较基因组学是基因组学与生物信息学的一个重要分支。通过模式生物基因组与人类基因组之间的比较与鉴别,为分离重要的候选基因预测新的基因功能研究生物进化提供依据。(目标)

RNA世界:RNA不仅可以是信息的携带者,而且还可以是功能的执行者,这使科学家们想到了原始的生物世界可能是一个只由RNA组成的“RNA世界”

外显子洗牌:由不同基因中编码不同结构域的片段彼此连接形成的全新编码顺序称为功能域或外显子洗牌。

水平基因转移:是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流。

基因共线性(syteny/colinearity):不同基因组中,基因排列顺序的一致性更能够体现基因组的共同起源,这种基因排列顺序的一致性称为共线性。破坏基因组共线性的因素很多, 包括转座、插入、染色体重排、区段加倍和缺失。染色体重排可造成大范围基因位置的改变,但不打乱基因组某些区段的微观共线性。

宏观共线性系指遗传连锁图上锚定标记排列次序的一致性。

微观共线性(microsynteny)则指物理图上基因顺序的一致排列。在多数情况下, 只有在进化距离非常近的物种间才能保持很好的微观共线性。

基因岛(gene island):某些区段基因密度比全基因组的平均密度高很多,形成基因岛。

直系同源集簇(clusters of orthologous groups,COG):由一个共同的祖先基因衍生的一组基因。包括:

不同基因组中执行同一生物学功能的种间同源物 (ortholog);同一基因组中因基因加倍产生的种内同源物 (paralog),或平行基因。

基因的协同丢失和协同进化:执行同一生物学功能的基因有相伴丢失的趋势。与此同时,为了补偿丢失基因所执行的功能,导致其它具有类似功能的基因群高度分化。 这就是基因的协同丢失和协同进化。

开放读框(open reading frames, ORFs)所有编码蛋白质的基因都含有开放读框,它们由一系列指令氨基酸的密码子组成。开放读框有一个起点,又称起译密码,一般为ATG,还有一个终点,又称终止密码,分别为TAA,TAG和TGA,三者含义相同。

同义密码子(synonym):编码同一氨基酸的不同密码子称为同义密码子,其差别仅在密码子的第三位碱基不同。

同源查询(homology search)利用已存入数据库中的基因顺序与待查的基因组序列进行比较,从中查找可与之匹配的碱基顺序用于界定基因,这种方法称为同源查询。同源查询的依据:生物的不同种属之间具有功能或结构相似的直系基因成员,它们在起源上一脉相承,其间存在保守的顺序组成。待注释的DNA顺序与已报道的其它基因序列对比,可发现其中的相似性: 1)存在某些完全相同的序列; 2)ORF读框的排列类似,如等长的外显子;3)ORF指令的氨基酸顺序相同;4)模拟的多肽高级结构相似

孤独基因(orphan gene)在基因分类时,缺少同源顺序的ORF被称为孤独基因。

同源性(homology): 起源于同一祖先序列发生变异的序列。直向同源基因(orthologous ~)不同物种间的同源基因。

共生同源基因(paralogous ~)同一物种的同源基因。

相似性(similarity): 同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占比例。可取代氨基酸:具有相同性质(极性)的氨基酸,代换不影响蛋白质的生物学功能

一致性(identity): 同源DNA(蛋白质)序列中同一碱基(氨基酸)位置上相同的碱基(氨基酸)成员

动物园杂交(Zoo-blotting)如果某一物种的DNA顺序与来自另一亲缘种的DNA片段杂交产生阳性信号,该区段可能含有一个或多个基因,这种方法称为动物园杂交。

结构域(domain):指蛋白质高级结构中具有相对独立的亚结构区,通常含有数个二级结构基序,具有相对独立的功能。

蛋白质域结构(domain architecture):又称蛋白质指纹,指蛋白质成员中结构域的组合形式及排列顺序。

直系同源(orthologous)这是指不同物种之间的同源基因,它们来自物种分隔之前的同一祖先。

平行同源(paralogous)同一种生物内部的同源基因,它们常常是多基因家族的不同成员, 其共同的祖先基因可能存在于物种形成之后,也可能出现于物种形成之前。

基因剔除(knock-out)将一段无关的DNA片段用来取代某一特定的基因,是最简便的使基因失活的方法。主要原理是,在一段无关片段的两侧连接与代换基因两侧相同的顺序,将这一构建导入目的细胞,由于同源片段之间的重组,可使无关片段取代靶基因整合到染色体中。

覆盖面:指随机测序获得的序列总长与单倍体基因组序列总长之比。

染色体步移(chormosome walking) 从第一个重组克隆插入片段的一端分离出一个片段作为探针从文库中筛选第二个重组克隆,该克隆插入片段含有与探针重叠顺序和染色体的其他顺序。从第二个重组克隆的插入片段再分离出末端小片段筛选第三个重组克隆,如此重复,得到一个相邻的片段,等于在染色体上移了一步,故称之为染色体步移

顺序标签位点(Sequence tagged site, STS)是一小段长度在100到500 bp的DNA顺序,每个基因组仅一份拷贝,很易分辨。顺序标签位点作图 通过PCR或分子杂交将小段DNA顺序定位在基因组的DNA区段中。

表达顺序标签EST): 从cDNA克隆中找到的小段顺序,cDNA代表了mRNA所在细胞中表达的基因。EST可转变为STS,条件是这个EST来自单拷贝基因而非基因家族成员。

RFLP标记 限制性片段长度多态性,是指用某一种限制性内切酶来切割来自不同个体的DNA分子,内切酶的识别序列有差异,即是由限制性酶切位点上碱基的插入、缺失、重排或点突变所引起的。这种差异反映在酶切片段的长度和数目上

SSLP(Simple sequence length polymorphisms) 简单序列长度多态性,产于重复顺序的可变排列,同一位点重复顺序 的重复次数不同,表现出DNA序列的长度变化。SSLP有些场合又称SSR。

SSR标记:简单序列重复,微卫星DNA标记,它是指基因组中存在的由2-5个核苷酸为重复单位组成的长达几十个核苷酸的串联重复序列,广泛分布于真核生物基因组中。

单核苷酸多态性(single nucleotide polymorphisms, SNP):2个同源DNA顺序中同一碱基位置含有不同的核苷酸

作图试剂(mapping reagent):覆盖整条染色体或整个基因组的DNA片段群体,用于STS作图。

厘镭(centiRay,cR),其定义是DNA分子暴露在N拉德X射线剂量下两个分子标记之间发生1%断裂的频率。

C值(C value)是指一个单倍体基因组中DNA的总量,一个特定的种属具有特征的C值。

C值悖理(C value paradox)生物的复杂性与基因组的大小并不完全成比例增加

为什么说RNA分子起主导地位?

RNA不仅可以是信息的携带者,而且还可以是功能的执行者,这使科学家们想到了原始的生物世界可能是一个只由RNA组成的“RNA世界”。

首先,在人工模拟的原始地球的条件下,核糖核苷酸或RNA要比脱氧核糖核苷酸或DNA相对容易形成一些。其次、在现代的生物系统中,合成核苷酸过程是先从糖、氨基酸、二氧化碳等小分子物质合成出RNA的前体;再由核糖核苷酸经还原反应去氧生成DNA的前体。因此,认为RNA比DNA先出现是合理的。RNA能贮存遗传信息,在现代生物中,仍然有少数病毒的基因组完全由RNA组成。从而,认为最早的遗传物质是RNA也是合理的。

RNA一般以单链的形式存在,而单链的RNA可以折叠成多种多样的结构,这为RNA可以具有多种功能提供了结构上的基础。现代的蛋白质酶也正是靠有多种多样的立体结构才可以担当催化生物体内众多的新陈代谢过程的重任。另一方面,在模拟原始地球的条件下很容易产生类蛋白,但不能通过模拟的途径来形成具某种功能的简单蛋白质。因此,RNA是先于蛋白质的生物催化剂。

单独由RNA组成的原始生命的进化以不完全精确的RNA自复制为基础。从大量的RNA变异体中,通过不断的选择,可以使RNA的某种催化功能得到大大的强化,甚至产生出具有新催化功能的RNA分子。因此,只由RNA构成的生命系统是可以进化的。

在RNA世界中,RNA本身能自我复制,并且能进行一些十分简单的生命活动:RNA分子内或分子间的重组(RNA自剪接)、催化一些早期的生物化学反应、RNA还有可能促进DNA和蛋白质的产生

RNA如何把其长期贮存遗传信息的功能移交给DNA,把它的大部分催化功能移交给蛋白质?

为什么会出现RNA向蛋白质的转变?

一方面,蛋白质的多样性远远超过RNA,因为多肽链中有20种氨基酸,RNA只有4种核苷酸,前者的排列组合的方式比后者大得多,可以催化范围更广的反应; 另一方面,蛋白质的催化更为成功。因为多肽链有更大的可塑性,而RNA分子中碱基配对区段则有较强物理刚性。第三,RNA分子的长度有限,限制了它们的催化反应活性。

RNA原始基因组仍处在十字路口

一方面,RNA扮演的主要角色是催化各种生化反应,这一点它们做得不错。另一方面,RNA行使编码功能,但显得不太适合。由于受2‘-OH基团的影响,RNA的磷酸脂键稳定性较差,无法胜任建立稳定遗传系统的重任。RNA的编码功能转移到更为稳定的DNA是一种必然的趋势。

RNA世界向DNA世界的转变

尿苷酸由其甲基化的衍生物胸腺嘧啶取代,使DNA顺序具有更高的稳定性;DNA损伤修复系统的诞生进一步奠定了双链DNA作为编码分子的地位,使遗传信息更忠实地传递。

基因组的起源

最初,DNA基因组由许多分散的分子组成,每一个指令单个蛋白质,相当于一个基因。这些基因彼此连接成染色体,它们可能在编码的RNA转变为DNA之前或之后出现。 由于组成了含许多基因的染色体,在细胞分裂时基因的分配要比分散的类型更加有效、精确而方便,在竞争中占有优势。

概括:地球上最早出现的生物大分子为RNA,RNA同时具有催化与编码两种功能。RNA可以催化肽键形成并合成蛋白质,此后RNA与蛋白质联手以RNA为模板合成DNA。RNA的编码功能由DNA取代,催化功能转移到蛋白质,RNA自身则成为传达遗传信息的中介分子.

生物为什么能忍受如此之多的无用DNA?

非编码DNA可能具有某种尚未识别的功能,如果没有这些DNA细胞将不能存活。 基因的调控顺序虽然没有编码蛋白的功能,但仍有重要的控制基因表达的作用。多数转座因子特别是逆转录转座因子含有控制基因表达的顺序,当它们插入到基因附近时有可能成为增强子的组成元件,为基因表达多样性提供分子基础。

基因功能比基因数量更重要

并非每种生物的基因数量与其基因组尺寸成正比。总体上说,高等动物的基因组大, 基因排列得也稀疏, 也就意味着不必要的重复序列和基因内区多。大的基因组并不意味着更多的基因, 甚至高等动物并不一定比低等动物的基因多。 例如果蝇比低等的线虫少5,000个基因。这就是说, 基因功能比基因数量更重要。 如果去掉与原核细胞共有的基因, 就可以发现真核细胞独有的决定其特异性的基因

搜索基因的方式

根据已知的顺序人工判读或计算机分析寻找与基因有关的序列

原理:如果一段DNA顺序中含有编码基因,那么这段顺序的碱基序列就不会是随机排列的,一定存在某些可以辨别的特征。

方法:开放读框、同源查询、EST筛选全长cDNA

根据实验分析确认基因

原理:任何基因都可转录为RNA拷贝,这是实验确证基因的依据。真核生物中许多编码蛋白质的基因其转录的初级产物都有内含子,剪切加工后成为mRNA。根据mRNA的顺序可以找到外显子的位置以及整个基因的组成

ESTs与基因预测

由于EST来源于cDNA,因此每一条EST均代表了的一个基因的部分序列。

使用合适的比对参数,大于90%的已经注释的基因都能在EST库中检测到。

ESTs可作为其它基因预测算法的补充。

ESTs可以发现基因不同的可变剪接,为蛋白质组学研究提供参考

ESTs具有特定的时空表达,依据来源可判断表达场所,有利于功能研究

实验分析确认基因(论述)

任何基因都可转录为RNA拷贝,这是实验确证基因的依据。真核生物中许多编码蛋白质的基因其转录的初级产物都有内含子,剪切加工后成为mRNA。 根据mRNA的顺序可以找到外显子的位置以及整个基因的组成。

分子杂交可确定DNA片段是否含表达顺序

在进行分子杂交实验时,从样品中纯化的RNA经电泳分离,然后转移到杂交膜上。将待测DNA样品标记后与RNA杂交(Northern blotting), 如果RNA中含有DNA的转录产物,会给出明显的信号。

对那些Northern杂交不易检测到的基因还可用另一种途径验证。 一些亲缘关系相近的物种,其基因的编码区相似性较高,而非编码区的同源性很低。 如果某一物种的DNA顺序与来自另一亲缘种的DNA片段杂交产生阳性信号,该区段可能含有一个或多个基因,这种方法称为动物园杂交。

DNA顺序中基因位置的确定

Northern分析和动物园杂交可判断某一DNA区段是否含有基因,但不能给出基因在DNA顺序中的确切位置。

EST和cDNA的测序可以解决这一问题。cDNA是mRNA 的反转录拷贝,与基因的编码区对应,并含有非转译的5’引导顺序以及3’ 结尾顺序。将cDNA 与基因组的DNA比较,不仅可以发现漏注的基因,还可确定基因所在的区域并找到外显子和内含子的边界

化学降解法原理

在选定的核苷酸碱基中引入化学基团使DNA分子在被修饰的核苷酸位置降解。

4种核苷酸A,C,G和T均可分别修饰,分别降解,形成只差一个核苷酸的降解DNA群体。

起始DNA样品为双链DNA,测序前要将其转变为单链。

每个单链的同一方向末端都结合了放射性同位素标记,经电泳分林后可显示DNA条带的位置。

每组反应只针对特定碱基,共有四组反应,可分别显示G(硫酸二甲酯),A+G(哌啶甲酸),C(肼)和C+T(1.5M NaCl肼)的终止位置。

链终止法原理

制备相同的单链模板DNA,将其与一小段称为引物的寡聚核苷酸退火,形成双链后起始新链合成。反应由DNA多聚酶催化,底物是4种脱氧核苷酸。在链终止反应中加入了少量的双脱氧核苷酸( dd NTP ),由于DNA多聚酶不能区分dNTPs和ddNTPs,ddNTP可掺入新生的单链中。ddNTP的核糖基3-碳原子上连接的是氢原子而不是羟基,因而不能与下一个核苷酸聚合延伸,合成的新链在此终止。

链终止法对DNA多聚酶的要求

1)高酶活性 指多聚酶在终止合成前多聚核苷酸分子可延伸的有效长度。如果测序所用的多聚酶与模板结合能力强,在终止核苷酸掺入新链之前不会脱离模板,即不会提前终止反应。

2)无5’—3’外切核酸酶活性 大多数DNA多聚酶都有外切核酸酶活性,5’®3’核酸酶活性可将新合成DNA链的5’末端除去核苷酸从而改变链的长度,给顺序的阅读造成困难与误差。

3)无3'—5'外切核酸酶活性 可使DNA多聚酶校正 3 ' 端错配的核苷酸。

链终止法测序要求单链作为模板,制备单链DNA的方法有

1)质粒载体克隆单链DNA

2)以M13载体克隆单链DNA

3)以噬粒(phagemid)克隆DNA

4)PCR产生单链DNA

噬粒(phagemid)克隆DNA

一种改造过的质粒克隆载体,含有2个复制起始点:1、质粒自身的复制起始点2、来自M13或其他单链DNA噬菌体基因组的复制起始点

荧光标记测序的优点

1)免除了同位素标记必需同时进行四组反应的麻烦,简化为由一个泳道同时判读四种碱基;

2)自动化荧光测序系统极大地提高了测序的效率,为基因组大规模测序提供了可能。

3)避免肉眼分辨减少了差错,阅读信号与计算机相连后可直接对数据进行电脑处理,加快了基因组测序的进程。

序列间隙

概念:测序时遗漏的序列,本身仍保留在尚未挑选到的克隆中。

填补方法:测序时遗漏的顺序,通过相邻已知顺序作为探针筛选已有的基因组文库,通过挑选阳性克隆解决遗漏的间隙。---PCR扩增

物理间隙

概念:指构建文库时被丢失的DNA序列,在克隆群体中永久的消失。

填补方法:利用其它载体或宿主菌重新构建一个基因组文库。然后以间隙两侧的顺序为探针从新的文库中筛选阳性克隆;或制成相应的PCR引物两两配组从新的文库中筛选阳性克隆。

物理间隙产生的原因: ⑴ 由于特殊的碱基组成,如高度重复序列,缺少合适的酶切位点,难以获得大分子克隆⑵ 高度重复序列的克隆载体很不稳定,在扩增中容易丢失⑶ 某些基因的表达产物对宿主菌具有毒性,可将宿主菌杀死,随之克隆DNA本身也消失

随机测序与序列组装

直接鸟枪法的顺序组装是直接从已测序的小片段中寻找彼此重叠的测序克隆,然后依次向两侧邻接的序列延伸。

不需预先了解任何基因组的情况,即使缺少遗传图或物理图也可完成整个基因组顺序的组装。流感嗜血杆菌、果蝇。

定位克隆

基因已经定位在染色体的连锁图上,但并不知道它们的具体产物,也不知道它们的表达场所

先找到与靶基因连锁的分子标记,然后构建基因组文库。通过与靶基因连锁的分子标记筛选阳性克隆;再根据克隆插入子两端的DNA顺序查找与之连接的克隆建立重叠群(contig),直到覆盖整个靶基因位点。

限定测序和序列组装

限定测序和序列组装与定位克隆类似,但前者的目标不在分离基因,而是将一段染色体区段的DNA顺序进行组装。 使用这一方法,先要建立基因组的物理图;再从物理图中选出完全覆盖了基因组的彼此最少重叠的克隆,对这些克隆进行测序后,便完成了整个基因组的测序。已经绘制了遗传图与物理图的微生物、线虫、拟南芥、水稻、人类基因组测序采用这一方法。

遗传图谱(genetic map):是以遗传距离表示基因组内基因座位相对位置的图谱。

遗传作图(Genetic mapping)采用遗传学分析方法将基因或其它DNA顺序标定在染色体上构建连锁图。

遗传图谱有什么作用?

人类基因组有30亿个碱基对,含有大量重复序列。要在这样大的序列中确定某一基因的位置,如同大海中捞针。

染色体标志:长臂、短臂、区、带、亚带等。但是每一条染色体亚带通常包含几百万个碱基。

因此基因定位需要更细致的划分和标记。就好像对一个街区中的每一条小巷,甚至每一个院落都给予编号一样。

遗传作图标记形态标记(morphological marker)细胞学标记(cytological marker)生化标记(biochemical marker)免疫标记(Immune marker)分子标记(molecular marker)

分子(DNA)标记优点:中性、共显性、多态性高、数量多、分布均匀、不受环境影响;多基因影响的同一性状遗传分析可以将一个数量性状分解为多个QTL(Quantitative traits loci),通过分析数量性状的基因位点,估算每个QTL的遗传效应及贡献率。

三代DNA标记

(1)是以Southern杂交技术为核心的分子标记,(如RFLP),这类分子标记被称为第代分子标记。

(2)是以PCR技术为核心的分子标记,(如STS、RAPD、AFLP、SSR)等,这类分子标记被称为第二代分子标记;

(3)单核苷酸多态性(SNP)标记被称为第三代分子标记 。它也是以以PCR技术为基础的分子标记技术。

物理图谱

物理图谱(physical map)指表示DNA序列上DNA标记之间实际距离的图。

物理作图(physical mapping)采用分子生物学技术直接将DNA分子标记、基因或克隆标定在基因组的实际位置。辐射杂种、限制性片段作图、荧光原位杂交(FISH)、序列标签位点(STS)、克隆作图等。

物理图的重要意义

利用物理图可获得预期有用的基因;物理图为测定全基因组DNA全序列提供了必要的“骨架”;基因组DNA全序列的测定,就能使人们最终可以在分子(核苷酸)认知水平上解开生命的遗传奥秘

为何要绘制物理图?遗传分析绘制的基因组图为何不能指导基因组计划的测序?

遗传图的分辨率有限:人类及大多数高等真核生物由于不可能获得大量的子代,只有少数的减数分裂事件可供研究,连锁分析的分辨力受到很大限制。人类遗传图其标记密度平均为599 kb,离每100 kb一个标记的要求仍差距甚远,后者是进入基因组全面测序的前提。这种高密度基因组图仅仅采用遗传作图技术是无法完成的,必须借助于其他非遗传分析的方法

遗传图的精确性较低(覆盖面较低):连锁分析中重组热点的存在使染色体某一区段的交换频率高于其他区段。特别是倒位区段,由于受到交换限制,无法绘制精细遗传图。

传图分子标记的排列有时会出现差错:遗传作图的依据主要是子代个体的基因型重组及其分离比,由于环境和抽样误差,可能存在非随机的群体组成,这种条件下,用不同的杂交组合会出现不同结果,相同分子标记在联锁图位置不同。

遗传图与物理图并不完全一致

1.基因座位之间的相对距离不同。遗传作图受重组频率的影响,热点重组区比其它区段图距更长

2.相对位置可能有点偏差,例如一对基因座位chal和glk1的相对位置在遗传图与物理图中正好相反

限制性作图的基本原理

最简单的方法是比较不同限制酶产生的DNA片段的大小:

首先用一种限制酶处理样品,电泳分离可见大小确定的DNA片段。然后用第二种限制酶处理获得第二组片段。最后用2种酶混合处理,获得第三组片段。收集所有上述资料进行对比组装,对2种酶切位点交替出现的区段,用加减法确定酶切位点的相对位置。

克隆载体应具备的条件

(1)有多种限制性内切酶切点,每种切口最好只有1个(2)有选择标记,例如抗药性标记,蓝白斑试验;

(3)有一定载体容量;(4)有相当的拷贝数,每个宿主菌可能容纳最多数。

YAC的弊端

(1)

在 YAC 载体的插入片段会出现缺失和基因重排(2)容易形成嵌合体 (3)YAC 染色体与宿主细胞的染色体大小相近,影响了 YAC 载体的广泛应用。

突出优点:酵母细胞比大肠杆菌对不稳定的、重复的和极端的 DNA 有更强的容忍性

你可能感兴趣的:(人工智能)