学习bioinformatics需掌握的background
生物信息-DNA(ATCG)、RNA(AUCG)、蛋白质(ABCD…)
核酸生物信息
编码序列(外显子)、非编码序列(调控序列和某些内含子)
重复序列、垃圾序列(冗余信息)
**定义:**采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。
A brief history of bioinformatics 原文
DOI号:10.1093/bib/bby063
1950–1970: The origins
1970–1980: Paradigm shift from protein to DNA analysis
1980–1990: Parallel advances in biology and computer science
1990–2000: Genomics, structural bioinformatics and the information superhighway
2000–2010: High-throughput bioinformatics
2010–Today: Present and future perspectives
1.开发新的统计学方法和算法
2.生物学数据库的建立、管理、使用。
3.生物学数据的分析、解释和预测。
1.基因组序列的测定
2.基因组的注释
3.发现并确定新基因
4.基因表达、调控研究
5.分子进化研究
6.生物大分子结构模拟与药物设计
7.疾病的治疗和预防
模式生物:支原体、大肠杆菌、人、立克次体、枯草芽孢杆菌、古细菌、小鼠、幽门螺杆菌、拟南芥(生理周期只有六周)、果蝇、疟原虫、螺旋菌、线虫、大鼠
plasmids质粒 viruses病毒 bacteria细菌 fungi真菌 plants植物 algae藻类 insects昆虫 mollusks软体动物 bony fish硬骨鱼 amphibians两栖动物 reptiles爬行动物 birds鸟 mammals哺乳动物
核酸序列数据库:GenBank(米)、EMBL(欧)、DDBJ(日)
与基因组有关的数据库:dbEST(GenBank的子数据库)、OMIM(在线人类孟德尔遗传)
蛋白质序列数据库:Swiss-Port、PIR、TrEMBL
蛋白质结构数据库:PDB、MMDB、SCOP、DSSP
储存形式:以字符串文本形式
储存格式(storage format):除序列或结构的基本信息外,还包括对相关信息的注释和分析。
格式类型:
序列信息格式:FASTA、GenBank、EMBL格式
结构信息格式:PDB
下载拟南芥Genome数据的界面
lcl|CM032900.1_cds_KAG7652642.1_1 [protein=NAC domain superfamily] [protein_id=KAG7652642.1] [location=join(2819…2972,3055…3335,3559…3678,3779…4168,4247…4399,4512…4703)] [gbkey=CDS]
拟南芥的cds文件
通过作者名查询、通过登录号查询、查找蛋白质序列、查找EST序列、查找structure、Genome Project、Unigene(非冗余)
1.简单检索,直接搜
2.复杂检索,Advanced Search
3.期刊搜索
成对序列比对和多重序列比对
序列比对是序列分析(结构、功能、进化关系)的基础
相关概念:相关性similarity、同源性Homology(直系同源和旁系同源)
成对序列比对(多重比对的基础) | 多重序列比对 |
---|---|
全局比对global Alignment(空位gap多一些) | |
局部比对local Alignment(空位gap少一些) | |
结果有完全匹配complete match和部分匹配partial match |
BLAST是基于序列相似性的数据库搜索程序
Basic Local Alignment Search Tool局部相似性基本查询工具
对一条或多条序列(任何形式上的)在一个或多个核酸/蛋白序列库中进行比对
Score | E-value |
---|---|
一般匹配片段越长,相似性越高,Score分数越高 | 氨基酸/碱基随机排列得到上述score值得概率大小,越小表示越匹配,E=0表示完全匹配。 |
进化学的分子途径:普适性、可比较性、基因组编码信息的丰富
分子系统与进化研究的目的
系统发育——从分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系
分子进化——大分子功能与结构的分析,同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析、功能预测。
进化速率分析:例如HIV的高突变性,哪些位点易突变
系统发生(phylogeny):生物形成或进化的历史
系统发生树(phylogenetics tree):描述物种间进化关系的一种表现形式
有根树Rooted | 无根树Unrooted |
---|---|
反映时间顺序 | 反映距离 |
分子钟(molecular clock):在一定条件下,替换速率保持恒定。用来估计物种分化时间。
选择建树序列
选蛋白/核酸、选哪个基因序列可靠、选哪些物种可靠
核酸变得快,信息量不足的就用核酸,远缘/突变快的用蛋白,线粒体RNA、核糖体RNA、TRNA不存在选择问题
系统建树中的干扰因素:水平基因转移Horizontal gene transfer(重组、转座)、趋同进化(Convergent evolution)
多重序列比对
累进式多重序列比对clustal、HMM
选择合适算法构建系统树
距离矩阵法(Distance Matrix)两两比对的基础上,计算两个序列的差异数量,从距离最短的开始
UPGMA法 | NJ法 |
---|---|
相互距离最短为标准 | 以产生的树枝总长最短为标准 |
有根 | 无根(可以指定外群确定根,本质上无根) |
现较少采用 | 现多采用 |
最大简约法(maximal parsimony)
MP法对所有可能的拓扑结构进行计算,选取所需替换数目最小的那个作为最优树,结果往往不唯一,最后显示的是所谓一致树
最大似然法(maximal likelihood)
一些碱基/氨基酸替代的数学模型
以某个替代模型为基础分析序列数据,对所获得的的拓扑结构赋予一个似然率,最终选择似然率最高的树,模型适当的情况下往往最符合进化事实。但是比较耗时。
贝叶斯推断法
系统树优选和评估
自展重复抽样、“折刀法”重复抽样、贝叶斯模拟、统计差异检验
构树软件:PHYLIP、PAUP、Tree of Life、MEGA、MOLPHY、PAML、PUZZLE、TreeView、phylogeny