SRA数据库简介

简介

SRA是NIH的高通量测序数据的主要档案,是国际核苷酸序列数据库协作(INSDC)的一部分,包括NCBI序列阅读档案(SRA),欧洲生物信息学研究所(EBI)和DNA数据库。 日本(DDBJ)。 提交给三个组织中任何一个的数据在它们之间共享。

特点

存档来自各种高通量测序平台的原始测序数据和比对信息,比如Illumina。

二代测序流程

image.png

数据

SRA接受来自各种测序项目的数据,包括涉及人类受试者或其宏基因组的临床重要研究,其可能包含人类序列。

根据SRA数据产生的特点,将SRA数据分为四类:

  • Studies-- 研究课题

  • Experiments-- 实验设计

  • Runs-- 测序结果集

  • Samples-- 样品信息

SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.

  • Studies是就实验目标而言的,一个study 可能包含多个Experiment。

  • Experiments包含了Sample、DNA source、测序平台、数据处理等信息。

  • 一个Experiment可能包含一个或多个runs。

  • Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分:

  • ERP或SRP表示Studies;

  • SRS 表示 Samples;

  • SRX 表示 Experiments;

  • SRR 表示 Runs;


如何寻找并了解SRP

1.在文章中寻找GSE号(以GSE111229为例)

2.打开GEO数据库,输入GSE号

image.png

3.可通过Linux下载

4.打开NCBI,搜索SRP号

image.png

5.得研究基本信息

image.png

参考来源:生信技能树

友情链接:

课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)

欢迎关注公众号:青岛生信菜鸟团

你可能感兴趣的:(SRA数据库简介)