1000 Genome Project

欢迎关注"生信修炼手册"!

1000 Genome Project 的目标是发现在人群中频率大于1%的变异位点,对来自不同人群的大量样本进行测序,识别到了许多的变异位点,为人类遗传变异的研究提供了一个综合的资源。

整个项目划分为四个阶段,试点阶段和三个主要阶段,主要阶段中只有第一阶段和第三阶段产生了数据,每个阶段数据的详细情况如下图所示

1000 Genome Project_第1张图片

整个项目从2008年开始到2013年结束,最终的版本为2013年5月2日发布的数据, 包含了来自26个人群,共2504个样本的SNP分型结果。1000G的数据是免费公开的,可以通过ftp下载得到,网址如下

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/

26个不同的群体,用3个字母的缩写表示,具体情况如下

Code Des Detail
CHB Han Chinese Han Chinese in Beijing, China
JPT Japanese Japanese in Tokyo, Japan
CHS Southern Han Chinese Han Chinese South
CDX Dai Chinese Chinese Dai in Xishuangbanna, China
KHV Kinh Vietnamese Kinh in Ho Chi Minh City, Vietnam
CHD Denver Chinese Chinese in Denver, Colorado (pilot 3 only)
CEU CEPH Utah residents (CEPH) with Northern and Western European ancestry
TSI Tuscan Toscani in Italia
GBR British British in England and Scotland
FIN Finnish Finnish in Finland
IBS Spanish Iberian populations in Spain
YRI Yoruba Yoruba in Ibadan, Nigeria
LWK Luhya Luhya in Webuye, Kenya
GWD Gambian Gambian in Western Division, The Gambia
MSL Mende Mende in Sierra Leone
ESN Esan Esan in Nigeria
ASW African-American SW African Ancestry in Southwest US
ACB African-Caribbean African Caribbean in Barbados
MXL Mexican-American Mexican Ancestry in Los Angeles, California
PUR Puerto Rican Puerto Rican in Puerto Rico
CLM Colombian Colombian in Medellin, Colombia
PEL Peruvian Peruvian in Lima, Peru
GIH Gujarati Gujarati Indian in Houston, TX
PJL Punjabi Punjabi in Lahore, Pakistan
BEB Bengali Bengali in Bangladesh
STU Sri Lankan Sri Lankan Tamil in the UK
ITU Indian Indian Telugu in the UK

对于这26个群体,归属于5个不同的super  population


Population Code Description
EAS East Asian
SAS South Asian
AFR African
EUR European
AMR American

除了通过FTP直接下载以外,还可以通过以下两种方式下载:

1. Aspera

由于1000G的数据量比较大,通常通过Aspera 进行下载,命令如下

ascp -i bin/aspera/etc/asperaweb_id_dsa.openssh -Tr -Q -l 100M -P33001 -L- [email protected]:vol1/ftp/release/20100804/ALL.2of4intersection.20100804.genotypes.vcf.gz ./

2. Globus

Globus 是一个软件,通过这个软件可以方便的管理和分发数据,官网如下:

https://www.globus.org/

首先需要注册一个账号,然后要下载软件才可以使用,和百度网盘的使用体验类似。

通常情况下使用Aspera就可以了。

1000G和hapmap都是对不同人群大量样本测试,然后鉴定变异位点。和hapmap相比,1000G无论是样本数量,还是变异位点的数量,都更具优势,所以使用1000G的科研工作者更多。随着hapmap官网的关闭,1000G完全取代了hapmap。

1000G中发现的SNP位点信息都提交到了dbSNP数据库,SV结构变异位点信息都提交到了DGVA数据库。

扫描关注微信号,更多精彩内容等着你!

1000 Genome Project_第2张图片


你可能感兴趣的:(1000 Genome Project)