生物信息学初学——山大公开课笔记

2019年8月20日,南京闷热

课程内容

生物数据库;序列比较;分子进化系统发生;蛋白质结构预测与分析;基因组学与蛋白组学;序列算法;统计基础;数据挖掘;编程基础与网页制作

生物信息学研究对象

核酸
测序及应用;基因序列注释;基因预测;核酸序列比对;核酸数据库;比较基因组学;宏基因组学;基因进化;RNA结构预测;等
蛋白质
蛋白质数据库;蛋白质序列比对;二/三级结构预测;相互作用分析;分子动力学模拟;分子对接;蛋白质组学;等
其他
代谢网络模拟;数据挖掘分析;序列算法开发;计算进化生物学;生物多样性研究;等

课程提纲

生物数据库 序列比较 分子进化系统发生 蛋白质结构预测与分析 基因组学和蛋白组学 序列算法 统计基础 数据挖掘 编程基础及网页制作

第一节:生物数据库

Nucleic Acids Research中有NAR Database Summary Paper Category List 2015年底累计收录数据库1685个,世界上大约超过2000个,但不一定都是活的。
分类

  1. 核酸数据库:
    一级数据库:直接测序获得的,或衍射获得的结构数据库(NCBI GenBank;EMBL ENA;Ensenbl;DDBJ;等)
    二级数据库:由一级数据库加工分析后(WormBase;FlyBase;UniGene)
  2. 蛋白质数据库:
    一级数据库:蛋白质序列/结构数据库(Swissprot;TrEMBL;PDB;PIR)
    二级数据库:CATH;STRING;SCOP;PRINTS;Pfam;proSite
  3. 专用数据库:ZINC;KFLGG;PubMed;OMIM

第二节:文献数据库PubMed(生物医学文献,来源于MEDLINE、生命科学领域学术杂志及在线专业书籍)

Pubmed ID:
Date——DP;Title——TI;Page——PG;Abstract——AB;Laboratory address——AD;Authors——AU
搜索:dUTPase [TI\AB] Beijing [AD]
Advance
使用“”使词语作为整体;使用AND,OR,NOT,e.g.: dUTPase[TI] AND bacteria[TI] NOT Smith[AU]

第三节:一级核酸数据库

国际核酸序列数据库(INSDC)三大核酸数据库:几乎拥有相同的数据
NCBI GenBank:美国国家生物技术信息中心(NCBI)隶属于美国国立卫生研究院(NIH)
NCBI中的Nucleotide即为GenBank数据库;
GenBank中包含的一个序列的具体信息如下:
一、原核基因
(1)LOCUS: 基因座名、核酸序列长度、分子类别、拓扑类型、更新日期
(2)DEFINITION: 简短定义
(3)ACCESSION: 检索号(在数据库中是唯一且不变的,ACCESSION与LOCUS不一定相同)可理解为LOCUS是一个同学的真实姓名,ACCESSION是学号,同一个学生在不同学校中有不同的学号,而学生姓名是唯一的。
(4)VERSION: “检索号.版本号”,在数据库中,若某条序列的数据发生改变,即使是单碱基的改变,它的版本号都将增加,而检索号保持不变。
(5)KEYWORDS: 用于关键词搜索
(6)SOURCE: 基因序列所属物种的俗名
(7)REFERENCE: 基因序列来源的科学文献
(8)COMMENT: 自由撰写的内容
(9)FEATURES: 描述核酸序列中各个已确定的片段区域,包含很多子条目,如来源(source),启动子(promoter)等
CDS(Coding Segment):
/protein_id: 该蛋白质序列在各种蛋白数据库中对应的检索号。
/translation=“MKK…”(是计算机使用翻译密码本根据核酸序列翻译出的蛋白质序列,不是实验真实获得)
(10)ORIGIN: 核酸序列,以“//”作为整条记录的结束符
二、真核基因
一个完整的基因是被分成若干片段,分别储存在数据库中的,
SEGMENT 2 of 4 (一共需要四个片段,一个片段对应一条数据库记录,才能拼凑出一个完整的基因。当前这条记录是所有四个片段里的第二个,一个片段里可能包含不止一个外显子。)
FEATURES
gene 指出拼出完整基因所需的所有四个片段的检索号,以及具体位置。
mRNA 指出所有外显子在四个片段中的具体位置,串联起来就是成熟mRNA

ENA:欧洲核苷酸序列数据集(ENA)有欧洲分子生物学研究室(EMBL)维护
查看人的基因组:

  1. 人的基因组有33亿碱基分布在23个染色体上。
  2. 已获得人的全基因组序列
  3. 添加注释,做一个详细的FEATURES表
    Ensemble:欧洲生物信息学研究所(EBI)和英国桑格研究院(Sanger Institute)合作开发。收录了各种动物基因组,特别是与人类亲缘关系近的动物(脊椎动物)。这些基因组的注释都是通过配套开发的软件自动添加的。
    Human基因组数据是2013年重测序获得的
    生物信息学初学——山大公开课笔记_第1张图片
    生物信息学初学——山大公开课笔记_第2张图片
    点击view karyotype查看染色体
    生物信息学初学——山大公开课笔记_第3张图片
    JCVI微生物宏基因组数据库 http://www.jcvi.org/
    美国基因组研究所(TIGR)致力于微生物基因组的研究,也有部分植物基因组项目。它是J.Craig Venter Institute的一部分,自1995年成立之初,至今已拥有超过700个基因组。TIGR是NCBI基因组资源的有力补充,不仅拥有已完成测序的基因组,还有测序中的基因组信息。
    Comprehensive Microbial Resource(CMR): 开放的微生物基因组信息库(几年前下线了)
    HMP(Human Microbiome Project, HMP):由美国国立卫生研究所(NIH)建立的人类微生物组学计划,包括人类鼻腔、口腔、皮肤、胃肠道和泌尿生殖道的宏基因组样本数据和分析流程。
    NIH的HMP由四个测序中心共同完成。

DDBJ:日本DNA数据库,有日本国立遗传学研究所维护(NIG)

第四节:二级核酸数据库

NCBI下属的三个数据库:
RefSeq数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录组序列和蛋白质序列。
dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签(EST)
Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录。

ncRNAdb: 提供非编码RNA的序列和功能信息。包含来源于99种细菌,古细菌和真核生物的3万多条序列 http://biobases.ibch.poznan.pl/ncRNA/
miBase: 已发表的microRNA序列和注释。可分析microRNA在基因组中的定位和挖掘microRNA序列间的关系。
http://www.mirbase.org/

你可能感兴趣的:(生信基础)