本文部分图片来源网络或学术论文,文字部分来源网络与学术论文,仅供学习使用。
目录
【果壳笔记】生物信息学——陈润生老师部分
1、什么是生物信息学?具体的任务是什么?生物信息学为什么重要?
2、利用数据库资源如何发现新基因,它有哪些途径,其算法本质是什么?
3、利用核酸或蛋白质序列数据进行生物进化研究有哪些计算步骤?在这一领域当前存在的重要困难是什么?有何解决途径?
4、什么是SNP?为什么SNP的研究是重要的?SNР研究有哪些优点举出2~3个SNP相关的网站。
5、系统生物学的定义?生物学、系统生物学对生命科学概念上的发展?系统生物学对生物功能实现的理解有何本质变化?系统生物学的研究思路是什么?
6、什么是非编码序列,非编码RNA,非编码基因?以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本,举2~3个非编码核酸的生物学功能
7、请以人类基因组为例,非编码区所占的比例按在基因组中的位置/组成/功能区分,非编码序列有哪些组分它们所占比例如何?按序列编码特征区分,非编码序列有哪些组分它们所占比例如何?
8、精准医学的重大意义是什么?实现精准医学的重要基础是什么?
生物信息学的定义:生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析、解释的所有方面。生物信息学是基因DNA序列分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质,同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
具体任务:生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,它是自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。
为什么重要?(自由回答):生物信息学的重要性是毋庸置疑的,随着人类和其他生物的基因组逐渐破译和各种测序技术的发展,目前积累了大量生物信息。生物信息学将在“后基因组”的时代,发挥极其重要的作用,这有助于全部读懂人类基因组的全部信息,有助于揭示基因组物质结构的复杂性,有助于生命起源和生物进化问题的最终解决,有助于识别与鉴定人类特定疾病的相关基因,有助于药物设计理论和方法的改进和提高等等工作,因此,生物信息分析具有很大的重要性。
答:利用数据库发现新基因的两种途径及其本质如下:
(1)利用基因组DNA序列数据库预测新的基因。其本质是通过识别DNA序列进行预测。
如基于信号的方法,识别DNA序列中的功能位点:包括剪接位点、起始密码子和终止密码子、分支点、转录的启动子和终止子、多聚腺苷化位点、核糖体结合位点、拓扑异构酶II结合位点、拓扑异构酶I切割位点、以及各种转录因子结合位点。
或基于组分的方法,使用统计学方法和序列比对方法进行基因家族、特殊序列见比较,如复杂性分析、神经网络、隐马尔科夫方法 (HMM) 等方法。
(2)利用EST数据库(dbEST)发现新基因和新SNPs。其本质是通过对基因片段的拼接和组装产生一个完整的基因序列,与现有的EST数据库中序列进行比较进而发现新基因。当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。EST数据也可用来帮助研究基因的可变剪接和发现非编码RNA。
答:计算步骤主要有以下四步:
(1)序列相似性比较。将待研究序列与DNA或蛋白质序列库进行比较,确定该序列的生物属性,即找出与此序列相似的已知序列。需要使用两两序列比较算法,常用程序包有BLAST、FASTA等。
(2)序列同源性分析。将待研究序列加入到一组与之同源但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。需使用多序列比较算法,常用的程序包有CLUSTAL等。
(3)构建系统进化树。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。目前已有多种软件包,常用PYLIP、MEGA等。
(4)稳定性检验。为了检验建好的进化树的可靠性,需进行统计可靠性检验,通常构建过程要随机的进行成百上千次,只有以大概率(>70%)出现的分支点才是可靠的。使用Bootstrap算法,相应的软件已包括在构建系统进化树所用软件包当中。
目前遇到的问题:基因会发生横向迁移(LGT)的现象,即进化不同的不同物种间存在遗传信息基因的传递,横向迁移基因造成分析的干扰。
解决办法:
(1)从数据库中将认为可能是横向迁移的基因序列去除。
(2)用全基因组水平上的比较和分析,发展新的算法,如CISA算法。
定义:SNP是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性:它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。
重要性:(从意义、特点、重要性、优点几方面回答)
因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。(PPT上的)
SNP的特点:1.位点丰富;2.具有代表性;3.遗传稳定性;4.易于进行自动化,规模化分析,缩短了研究时间。
SNP研究意义:通过大批量、高通量的SNP的发现与鉴定,人类SNP—Haplotype遗传图谱的构建,在连锁不平衡基础上的关联分析等,有望为人类致命基因的寻找和疾病的防治提供快速和有效的途径,一系列发现和检测SNP的方法,构建图谱的策略,及连锁不平衡和关联分析等技术,正在动植物研究领域中受到广泛的关注,毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。
优点:
(1)SNP在基因组中分布相当广泛,大量存在的SNP位点使人们有机会发现与各种疾病相关的基因组突变,包括肿瘤相关的基因组突变。
(2) 从实验操作来看,通过SNP发现疾病相关基因突变比通过家系发现更加容易。
(3)有些不直接导致疾病基因表达的SNP,但由于与某些疾病基因相邻,成为重要标记,这样的标记有助于发现疾病基因。
(4) SNP在基础研究中非常重要,如人类对Y染色体SNP分析使得在人类进化、人类种群的演化和迁徙领域取得一系列重要成果。
SNP相关的一些网站:
系统生物学的定义:系统生物学就是从各个层次的所有资料和数据,包括基因组测序数据,功能基因组数据,蛋白质三维结构信息以及相互作用的数据等,以及这些整合数据为基础建立数学模型,再以这些模型模拟仿真研究生命活动的演化方向和状态,以及受到外界对系统的影响和受到干扰后的状态。系统生物学是在系统的层面上研究生命活动,研究一个生物系统中所有组成成分的构成,以及特定条件下组分间互作关系。
学术概念上的发展主要有:
传统生物学是从基因组到基因再到蛋白的过程,直线型的关系。相信结构完成了功能。系统生物学认为任何生命活动过程都并非是一个蛋白或基因能实现的,任何的生命活动同时很多基因表达来实现,每个基因表达出了很多结构相互作用,而每个基因间形成很大的网络,是这个网络表达了功能,一个基因表达一个分子,很多基因表达很多分子,分子间相互作用。
1)研究思路的变化:传统的分子生物学研究步骤一般为: DNA序列→蛋白结构→蛋白功能(一维),而系统生物学是在二维的角度研究生命科学,即:相互作用→网络→功能,是由一组基因产生并相互作用共同实现的。
2)看待生命活动本质的变化:系统生物学认为生命活动是由一组基因及其相互作用来实现其过程的,这种相互作用形成了一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用,因此在考虑结构的过程中考虑其结构间的相互作用,一组一组地研究。而传统的分子生物学考虑的只有结构,是一个一个地去研究。
系统生物学对生物功能实现的理解发生本质性变化:
系统生物学不仅考虑单个分子而且考虑其间相互作用,把整个生命活动作为一个相互作用的网络来研究其功能,基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能。通过系统地整合生物过程不同阶段的分散数据,如基因组,转录组,蛋白组,代谢组,可以对复杂的生物过程,如折叠、信号传导途径、代谢途径更好地模拟,研究生物过程的动态变化。它不仅全息的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。
系统生物学与分子生物学的不同:
分子生物学:序列→结构→功能,只考虑单个个体,单个gene,单个蛋白质。分子生物学的研究采用典型的还原论方法,研究对象主要是分子水平上的,即生物系统中的大分子、信号分子的结构、生化性质以及功能,基因表达过程中的调控,以及DNA重组。
系统生物学:相互作用→网络→功能,除考虑单个个体,单个gene,还考虑个体与个体之间的相互作用,把整个生命活动作为一个网络来考查它们的相互作用。
系统生物学研究是从各个层次的相互作用到网络,再到功能。系统生物学不仅考虑单个分子,而且考虑其间相互作用,认为生命活动由大量相互作用的结构单元组成,这些结构单元形成网络。基因组只是网络中的一部分,只有通过相互作用的网络才能体现功能。不仅全总的了解复杂的生命系统中的所有成分以及他们之间的动态联系,还可以预测如果这个系统一旦受到了刺激和外界干扰,系统未来的行为是什么。
分子生物学与系统生物学的联系
系统生物学虽然在研究对象上与分子生物学不同,但他们之间并不是完全不相关的,系统生物学的研究离不开分子生物学研究所给出的大量资料和数据,正是依赖这些,系统生物学才有了建模的基础。
同时分子生物学的研究结果只有通过系统生物学进行整合才能从理论上对系统的宏观性质达到定性定量的理解,反过来,系统生物学的研究成果也可以用来指导分子生物学的实验设计。因此二者之间其实是相互补充的,只有结合起来,才能充分认识生命现象。
系统生物学的研究思路(研究流程):
非编码序列定义:是基因组中不编码蛋白质和多肽的序列。基因组中不归属于基因调控元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列,即不编码蛋白质同时也无明确生物学功能的序列。
非编码RNA定义:是指来自基因组的非编码的转录元件,即基因组中非编码序列的转录产物/转录本。
非编码基因定义:指那些具有明确生物学功能的非编码RNA 在基因组上非编码序列上的位置,即功能性的非编码 RNA对应基因组上的位置称为非编码基因。
人类基因组中97~98%的序列是非编码序列,有70%~80%存在转录本。
非编码RNA的生物学功能:
(1)SINEs (短散在核重复序列):广布于真核生物, 是基因组中的可移动成分,长度一般为80-500bp,通过“拷贝-粘贴”的方式进 行转座。将重复序列插入基因会影响基因的转录。SINEs和其他重复序列可以作为邻近基因的组织特异性增强子或沉默子。
(2)X-inactivation(X染色体失活):是哺乳动物的一种剂量补偿机制,用于平衡雄性和雌性细胞之间的X-连锁基因剂量。雌性体细胞中一条X染色体的转录沉默,抑制转录是通过一个2kb 的非编码RNA(Xist RNA)实现的,Xist RNA装配在失活X染色体的外侧,引起结构改变导致失活。
(3)Small RNA and RNAi短干扰RNA和RNA干扰:是由RNA(siRNA、microRNA)导致的转录后基因沉默现象,如由双链小RNA引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的转座子沉默。
按照在基因组中的位置(组成)来分,各个组分占基因组的份额:
按照在基因组中的功能区分,各个组分占基因组的份额:
按照序列特征区分,各个组分占基因组的份额:
精准医学的意义:
实现精准医学的重要基础:
1、获取分子水平上的数据信息,使用大数据分析技术挖掘组学数据,精准医学是大数据与组学的交汇。组学数据包括基因组,转录组,蛋白质组,代谢组。大数据包括人群和队列
2、建立分子水平上的知识与宏观疾病表型的联系。即基因型和表型的关联,搭建分子水平信息和疾病间的桥梁,在搭建桥梁时,生物信息学,生物网络,系统生物学的知识是其核心知识。
3、在此基础上,融合临床检验,影像学等指标,使得医学做得更加精准。