Treehouse-一个10000+肿瘤sample的数据库

小标题: 还是只知道TCGA,那你已经out了!
作者:白介素2
说到肿瘤研究当然大家都会自然而然的想到大名鼎鼎的TCGA数据库,除此以外,其实还有其它的大规模数据集,比如本文要介绍的Treehouse,据白介素2同学观察,目前很少见到该数据的挖掘使用?难道还是


image.png

Treehouse儿童肿瘤研究是UCSC基因组学研究所的研究机构的一个研究目标,希望通过这些大规模的数据集来确定哪些药物可以更精准的用于儿童肿瘤。现在已收集好来自11,000多个样本的RNA-seq的基因表达数据以及包括年龄,性别和疾病类型的临床数据,样本收集包括合作单位,以及公共数据库(TCGA和TARGET),TARGET也是一个儿童肿瘤数据库。提供的可视化工具如下:


image.png

三个可视化工具包括Tumormap, ClusterBrowser,Xena,具体如何使用这里不做赘述,有机会下次进行详解。然后可供下载的文件数据包括部分临床信息,log2标准化的TPM表达数据,以及Counts数据。
image.png

可以看到数据还在更新过程中,有好几个版本了。2018年就更新了几个版本。
image.png

这些数据的处理流程是用RSEM软件将测序得到的BAM和fastq文件预处理为基因表达数据的,Pipeline已提供了详细的描述。


image.png

然后就是类似于TCGA讲了一些数据库的使用规范包括如果使用这些数据应该致谢,以及倡议大家如果有数据的话共享出去。
image.png

数据集的大体情况就是这样,10000+的规模数据集。白介素2同学顺便看了下这样一个项目究竟是发了多少文章。
image.png

欣赏一下2018年的发表的文章吧。[图片上传失败...(image-3d707d-1552875667508)]

以下附上网站链接:

https://treehousegenomics.soe.ucsc.edu/public-data/#datasets

题外话

讲一讲题外话,这次的题外话回复下小伙伴的提问。如著名的那句“评论总是比正文好看呀”,看看上一期的评论都是啥

本文已投稿至小张聊科研微信平台,欢迎大家关注!

你可能感兴趣的:(Treehouse-一个10000+肿瘤sample的数据库)