生物信息学Bioinformatics学习笔记(一)

文章目录

  • 生物信息学
    • 第一章 绪论
      • History(根据19年的一份综述)
      • 生物信息学的研究内容
      • 生物信息学的应用领域
    • 第二章 模式生物和生物信息学数据库资源
      • 第一节 模式生物测序
      • 第二节 三大核酸数据库
      • 第三节 蛋白质数据库
    • 第三章 生物信息学数据库查询
      • 第一节 生物信息数据库的储存
      • 第二节 GenBank中序列的获取
      • 第三节 数据库文献的检索
    • 第四章 序列分析
      • 第一节 序列比对的内容Sequence Alignment
      • 第二节 BLAST应用示例
    • 第五章 进化与系统发生分析
      • 第一节 生物进化的分子基础
      • 第二节 基本概念
      • 第三节 系统发生树的构建

生物信息学

第一章 绪论

学习bioinformatics需掌握的background

  1. 分子生物学/基因工程
  2. 统计学/模型/算法
  3. Lunix/R/Python

生物信息-DNA(ATCG)、RNA(AUCG)、蛋白质(ABCD…)

核酸生物信息

​ 编码序列(外显子)、非编码序列(调控序列和某些内含子)

​ 重复序列、垃圾序列(冗余信息)

**定义:**采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。

History(根据19年的一份综述)

生物信息学Bioinformatics学习笔记(一)_第1张图片

A brief history of bioinformatics 原文

DOI号:10.1093/bib/bby063

1950–1970: The origins

1970–1980: Paradigm shift from protein to DNA analysis

1980–1990: Parallel advances in biology and computer science

1990–2000: Genomics, structural bioinformatics and the information superhighway

2000–2010: High-throughput bioinformatics

2010–Today: Present and future perspectives

生物信息学的研究内容

1.开发新的统计学方法和算法

2.生物学数据库的建立、管理、使用。

3.生物学数据的分析、解释和预测。

生物信息学的应用领域

1.基因组序列的测定

2.基因组的注释

3.发现并确定新基因

4.基因表达、调控研究

5.分子进化研究

6.生物大分子结构模拟与药物设计

7.疾病的治疗和预防

第二章 模式生物和生物信息学数据库资源

第一节 模式生物测序

模式生物:支原体、大肠杆菌、人、立克次体、枯草芽孢杆菌、古细菌、小鼠、幽门螺杆菌、拟南芥(生理周期只有六周)、果蝇、疟原虫、螺旋菌、线虫、大鼠

生物信息学Bioinformatics学习笔记(一)_第2张图片

plasmids质粒 viruses病毒 bacteria细菌 fungi真菌 plants植物 algae藻类 insects昆虫 mollusks软体动物 bony fish硬骨鱼 amphibians两栖动物 reptiles爬行动物 birds鸟 mammals哺乳动物

第二节 三大核酸数据库

核酸序列数据库:GenBank(米)、EMBL(欧)、DDBJ(日)

与基因组有关的数据库:dbEST(GenBank的子数据库)、OMIM(在线人类孟德尔遗传)

第三节 蛋白质数据库

蛋白质序列数据库:Swiss-Port、PIR、TrEMBL

蛋白质结构数据库:PDB、MMDB、SCOP、DSSP

第三章 生物信息学数据库查询

第一节 生物信息数据库的储存

储存形式:以字符串文本形式

储存格式(storage format):除序列或结构的基本信息外,还包括对相关信息的注释和分析。

格式类型:

​ 序列信息格式:FASTA、GenBank、EMBL格式

​ 结构信息格式:PDB

下载拟南芥Genome数据的界面

生物信息学Bioinformatics学习笔记(一)_第3张图片

lcl|CM032900.1_cds_KAG7652642.1_1 [protein=NAC domain superfamily] [protein_id=KAG7652642.1] [location=join(2819…2972,3055…3335,3559…3678,3779…4168,4247…4399,4512…4703)] [gbkey=CDS]


拟南芥的cds文件

生物信息学Bioinformatics学习笔记(一)_第4张图片

第二节 GenBank中序列的获取

通过作者名查询、通过登录号查询、查找蛋白质序列、查找EST序列、查找structure、Genome Project、Unigene(非冗余)

第三节 数据库文献的检索

1.简单检索,直接搜

2.复杂检索,Advanced Search

3.期刊搜索

第四章 序列分析

第一节 序列比对的内容Sequence Alignment

​ 成对序列比对和多重序列比对

序列比对是序列分析(结构、功能、进化关系)的基础

相关概念:相关性similarity、同源性Homology(直系同源和旁系同源)

成对序列比对(多重比对的基础) 多重序列比对
全局比对global Alignment(空位gap多一些)
局部比对local Alignment(空位gap少一些)
结果有完全匹配complete match和部分匹配partial match

生物信息学Bioinformatics学习笔记(一)_第5张图片

第二节 BLAST应用示例

BLAST是基于序列相似性的数据库搜索程序

Basic Local Alignment Search Tool局部相似性基本查询工具

对一条或多条序列(任何形式上的)在一个或多个核酸/蛋白序列库中进行比对

Score E-value
一般匹配片段越长,相似性越高,Score分数越高 氨基酸/碱基随机排列得到上述score值得概率大小,越小表示越匹配,E=0表示完全匹配。

第五章 进化与系统发生分析

第一节 生物进化的分子基础

进化学的分子途径:普适性、可比较性、基因组编码信息的丰富

分子系统与进化研究的目的

系统发育——从分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系

分子进化——大分子功能与结构的分析,同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析、功能预测。

进化速率分析:例如HIV的高突变性,哪些位点易突变

第二节 基本概念

系统发生(phylogeny):生物形成或进化的历史

系统发生树(phylogenetics tree):描述物种间进化关系的一种表现形式

生物信息学Bioinformatics学习笔记(一)_第6张图片

有根树Rooted 无根树Unrooted
反映时间顺序 反映距离

生物信息学Bioinformatics学习笔记(一)_第7张图片

分子钟(molecular clock):在一定条件下,替换速率保持恒定。用来估计物种分化时间。

第三节 系统发生树的构建

  1. 选择建树序列

    选蛋白/核酸、选哪个基因序列可靠、选哪些物种可靠

    核酸变得快,信息量不足的就用核酸,远缘/突变快的用蛋白,线粒体RNA、核糖体RNA、TRNA不存在选择问题

    系统建树中的干扰因素:水平基因转移Horizontal gene transfer(重组、转座)、趋同进化(Convergent evolution)

  2. 多重序列比对

    累进式多重序列比对clustal、HMM

  3. 选择合适算法构建系统树

    距离矩阵法(Distance Matrix)两两比对的基础上,计算两个序列的差异数量,从距离最短的开始

    UPGMA法 NJ法
    相互距离最短为标准 以产生的树枝总长最短为标准
    有根 无根(可以指定外群确定根,本质上无根)
    现较少采用 现多采用

    最大简约法(maximal parsimony)

    MP法对所有可能的拓扑结构进行计算,选取所需替换数目最小的那个作为最优树,结果往往不唯一,最后显示的是所谓一致树

    最大似然法(maximal likelihood)

    一些碱基/氨基酸替代的数学模型

    以某个替代模型为基础分析序列数据,对所获得的的拓扑结构赋予一个似然率,最终选择似然率最高的树,模型适当的情况下往往最符合进化事实。但是比较耗时。

    生物信息学Bioinformatics学习笔记(一)_第8张图片

    贝叶斯推断法

  4. 系统树优选和评估

    自展重复抽样、“折刀法”重复抽样、贝叶斯模拟、统计差异检验

构树软件:PHYLIP、PAUP、Tree of Life、MEGA、MOLPHY、PAML、PUZZLE、TreeView、phylogeny

你可能感兴趣的:(生物信息学,日常学习,其他,学习)