基因组学

基因组概论

基因组(Genome)指的是细胞内全套染色体及其所携带的全部基因,包括基因序列和基因间序列。
C值(C Value):在每一种生物中其单倍体基因组的DNA总量。
C值悖论(C Value Paradox):生物的C值并不与生物复杂程度(或进化上所处地位)相关。
G值悖论(G Value Paradox):基因组中全部基因的数目与物种的复杂程度同样没有明显的相关性。
病毒基因组:大小从几kb到几百kb不等;基因组的结构形式多样;通过多种方法在较小的基因组容量内提高携带遗传信息的效率,比如基因组内非编码序列所占比例极少,含有大量的重叠基因;基因组内存在操纵子结构。
原核细胞基因组特点:闭合的环状双链DNA分子,包括类核和质粒,但质粒是染色体外DNA,不是细菌存活所必需的;多数基因是单拷贝基因,两条DNA链都可以编码基因,非编码序列的比例很低,重叠基因比例显著减少;含有少量重复序列,也含有一些特殊的DNA结构元件;基因的组织顺序和染色体复制方向有关,存在大量操纵子结构。
线粒体基因组特点:裸露的环形DNA分子;主要编码少量rRNA、tRNA和部分呼吸链组分蛋白质;其大小和生物的复杂程度无关;线粒体DNA是多拷贝的,在胞质分裂的过程中不同的线粒体DNA随机分配给子细胞。
叶绿体基因组特点:闭合环状DNA,有多个拷贝,且拷贝数可变;基因组大小多数为几百kb大小;编码的基因数较多,包括tRNA基因、rRNA基因、RNA聚合酶基因、核糖体蛋白编码基因、光合作用相关蛋白组分的编码基因,且含有大量内含子序列;含有两端数十kb大小的反向重复区(IR区),将环状DNA分子分隔成大单拷贝区(LSC区)和小单拷贝区(SSC区)。
遗传冗余(Genetic Redundancy)是真核基因组区别于原核基因组的显著特征。

人类基因组
1.人类基因组概况

23对染色体,3.2Gb序列;GC含量偏低,仅占38%,且不同染色体的不同区段上GC含量也不相同;共20687个蛋白质编码基因,平均含有9个外显子,长度27kb,但不同基因间的差异极大;基因在染色体上不均匀分布;少见重叠基因和多顺反子转录单位;除去编码基因,非编码序列占人类基因组的98.5%,远远高于其他任何一种生物。


人类基因组的成分
2.基因及基因相关序列

蛋白质编码基因分类:酶10.28%,核酸酶7.5%,信号传导12.2%,转录因子6.0%,信号分子1.2%,受体分子5.3%,选择性调节分子3.2%。
基因座(Locus):基因在染色体上所处的位置,每个特定的基因在染色体上都有其特定的座位。
基因簇(Gene Cluster):一些基因序列和功能高度一致的基因分布在染色体的相同位置,紧密连锁,构成基因簇。
基因家族(Gene Family):人类基因组中的一些基因,它们的全部或部分序列高度同源,能够编码保守的蛋白质结构域或者氨基酸基序,这些基因构成了一个基因家族。
基因超家族(Gene Superfamily):一些基因之间的序列同源性低,基因产物没有保守的蛋白质功能域或者氨基酸基序,但是功能相关,且具有相同的特征结构,这类基因的进化亲缘关系较远,构成基因超家族。
假基因(Pseudogene):又称拟基因,与基因组中有功能的基因具有相似的序列,但失去蛋白质编码功能或不能正常转录表达的DNA序列。
常规假基因(Classical/Convential Pseudogene):在基因组进化过程中功能基因复制后发生突变产生的失活产物。
加工假基因(Processed Pseudogene):功能基因的mRNA转录产物反转录为cDNA后再次插入基因组,形成一个新的基因拷贝,又称为反转座假基因(Retropseudogene)

3.非编码RNA

非编码RNA(non-Coding RNA,ncRNA):不具有蛋白质编码功能的RNA。ncRNA的编码基因有的位于蛋白质编码基因的内部(如内含子),有的位于蛋白质编码基因的相关序列(如假基因),还有的位于基因间的非编码序列。
包括:rRNA、tRNA、snRNA(内含子剪接)、snoRNA(rRNA加工)、miRNA(转录后调控)、siRNA(转录后调控)、piRNA(转座调控,精子发生)、lncRNA(转录及翻译后调控、表观遗传修饰)

4.基因外DNA

约占75%,其中绝大部分为重复序列。
分类:低度重复序列(2-10个拷贝)、中度重复序列(10-105个拷贝)、高度重复序列(106个拷贝)。
串联重复序列:核心重复序列头尾相连串联在染色体上,包括:大卫星DNA、卫星DNA、小卫星DNA、微卫星DNA
散在重复序列:主要是转座元件,包括:以RNA为中介的转座序列和DNA转座子化石。
以RNA为中介的转座序列包括短散在核序列(Short Interspersed Nuclear Element,SINE)长散在核序列(Long Interspersed Nuclear Element,LINE)具有长末端重复序列的LTR元件(Retrovirus-like Element),又称反转录病毒类似元件
大片段基因组倍增(Segmental Duplis,SDs),又称低拷贝重复(Low-copy Repeats),指的是一段1-200kb的基因组大片段从基因组中某个特定位置转移到另一个或多个位置形成多个拷贝的现象。SDs的不同拷贝之间的序列相似度高,易造成染色体的同源重组。

基因组作图与测序
人类基因组测序策略

以上内容参考中国大学MOOC网站复旦大学遗传学。

你可能感兴趣的:(基因组学)