Biostar handbook学习笔记四

目前学习到的关于生物数据及数据库的基本知识有:

常用数据格式:
fasta, fastq, gff, GenBank

常用序列数据库:
美国国立生物技术信息中心(NCBI)
欧洲生物信息学中心(EBI)
DDBJ

常用基因功能数据库:
基因本体数据库(Gene Ontology)
京东基因与基因组百科全书(KEGG)
Interpro蛋白功能数据库

常用基因组数据库:
UCSC基因组浏览器
Ensembl 基因组注释数据库

Fasta格式:

描述行
“>” 分隔符
一般50-100个字符每行
没有标准的扩展名

Fastq格式:

与fasta格式类似
一条序列一般占用四行
序列和质量值各占一行

GenBank格式:

重要参数 含义
LOCUS 序列名称
ACCESSION 序列编号
KEYWORDS 与序列相关的关键字
SOURCE 序列来源的物种名
ORGANISM 序列来源的物种学名和分类学位置
COMMENT 相关序列的注释信息
FEATURES 序列特征表的起始
ORIGIN 序列

数据的获取

通过学习黄勇平老师的文章,掌握了EDirect和Aspera两个小工具。

Aspera工具的安装与使用:
$ wget http://d3gcli72yxqn2z.cloudfront.net/connect/bin/aspera-connect-3.5.1.92523-linux-64.tar.gz
$ tar zxf aspera-connect-3.5.1.92523-linux-64.tar.gz
$ sh aspera-connect-3.5.1.92523-linux-64.sh
$ echo 'PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bashrc
$ source ~/.bashrc

在安装miniconda,创建了如bioinfo虚拟环境后,并且安装biostar课程软件后,即自带了EDirect软件。

常用的综合数据库

INSD:国际核酸序列数据库(International Nucleotide Sequence Databank)。由日本的DDBJ、欧洲的EMBL和美国的GenBank三家各自建立和共同维护。

EMBL库:欧洲分子生物学实验室的DNA和RNA序列库。
http://www.ebi.ac.uk/embl.html

GenBank:美国国家生物技术信息中心(NCBI)所维护的供公众自由读取的、带注释的DNA序列的总数据库。http://www.ncbi.nlm.nih.gov/Web/Genbank/

DNA Databank of Japan (DDBJ),日本核酸数据库。
http://www.ddbj.nig.ac.jp/

GSDB是由美国国家基因组资源中心(NCGR)维护的DNA序列关系数据库(Genome Sequence DataBase)。http://www.ncgr.org/gsdb/

TIGR DATAbase,是世界上最大的cDNA数据库,还有大量的EST序列和人类基因索引(HGI)。http://www.tigr.org/tdb/hcd/overview.html

你可能感兴趣的:(Biostar handbook学习笔记四)