几大基因组学数据库介绍

人类基因组计划:Human Genome Project, HGP。 (1999-2006)

其宗旨在于测定组成人类染色体(指单倍体)中所包含的六十亿对组成的核苷酸序列,从而繪製人类基因组圖譜,並且辨識其载有的基因及其序列,达到破译人类遗传信息的最终目的。


ENCODE计划: DNA元件百科全书 (Encyclopedia of DNA Elements, ENCODE)。
(2003-)

由美国国家人类基因组研究所(NHGRI)在2003年9月发起的一项公共联合研究项目, 旨在找出人类基因组中所有功能组件。研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异。证明所谓“垃圾DNA”都是十分有用的基因成分,担任着基因调控重任。证明人体内没有一个DNA片段是无用的。


Gencode计划: 是ENCODE计划的一部分。是ENCODE的衍生品,由英国剑桥的wellcome Trust Sanger研究所负责整理与维护。
数据库文章:The GENCODE v7 catalog of human long noncoding RNAs, 链接是 http://genome.cshlp.org/content/22/9/1775.full, 我们大老板在这个作者里面。
FTP地址:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/ 可以下载该数据库的所有资料。
下载GENCODE最新版是v24,在linux系统里面用:

wget -c -r -np -k -L -A "*metadata*" ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/

可以把所有metadata数据下载到当前的文件夹下了。
检查里面的记录数:

cd /ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24
ls *gz |while read id;do (echo -n $id;echo -n "    ";zcat $id |wc -l ) ;done

以下是输出的结果:

gencode.v24.metadata.Annotation_remark.gz    40879
gencode.v24.metadata.EntrezGene.gz    170466
gencode.v24.metadata.Exon_supporting_feature.gz    19193542
gencode.v24.metadata.Gene_source.gz    66206
gencode.v24.metadata.HGNC.gz    182831
gencode.v24.metadata.PDB.gz    94547
gencode.v24.metadata.PolyA_feature.gz    84652
gencode.v24.metadata.Pubmed_id.gz    209094
gencode.v24.metadata.RefSeq.gz    75365
gencode.v24.metadata.Selenocysteine.gz    119
gencode.v24.metadata.SwissProt.gz    45067
gencode.v24.metadata.Transcript_source.gz    217202
gencode.v24.metadata.Transcript_supporting_feature.gz    87375
gencode.v24.metadata.TrEMBL.gz    61924

可以与官网的统计信息相对应: http://www.gencodegenes.org/stats.html

几大基因组学数据库介绍_第1张图片
Screen Shot 2017-09-07 at 11.38.20.png

还可以下载所有的gtf文件:

wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/

参考:http://www.bio-info-trainee.com/1781.html


HCA计划:人类细胞图谱计划 (2016年10月开始)

旨在To create comprehensive reference maps of all human cells—the fundamental units of life—as a basis for both understanding human health and diagnosing, monitoring, and treating disease.


FANTOM计划:哺乳动物基因组功能注释计划,主要应用CAGE测序。现在已经到第六个阶段了。由日本理化学研究所DGT部门负责。


Roadmap: 表观遗传组图谱。美国NIH负责


千人基因组计划:1000 Genomes Project。启动于2008年1月,是一项国际研究工作,目标是迄今建立最详尽的人类遗传变异目录。科学家们计划在随后三年内,利用新开发的、更快、更便宜的技术,测定来自不同族群的数量至少一千名的匿名参与者的基因组序列

你可能感兴趣的:(几大基因组学数据库介绍)