单细胞数据分析||Bioinformatics analysis of single-cell RNA-seq data

单细胞数据的一个特点是数据量比较大,这里的数据就是表达谱,一个样本的表达谱就有成千上万的细胞以及每个细胞的UMI,所以这是一张大表。但是大表并不代表大数据,他两个不是一对一的直接关系,这个表其实结构还是蛮简单的:cell-gene表,并没有其他类型的数据。但是要做的好肯定不能仅限于一个矩阵,还要结合其他数据,同事关于单细胞数据的分析软件以及平台也在不断涌现,比如本文就出现sc-RNA-seq + VR 的例子。

这是一次分享的PPT,来自2018 Winter School in Mathematical & Computational Biology, University of Queensland, 3 July 2017 。介绍了sc-RNA-seq数据的一般特点:稀疏性以及技术噪音(Technical noise (dropouts)),一个大数据分析平台:Big Data framework ,CIDR以及starmap 分析软件。

分析平台以及软件新倒是挺新的,但是给我留下印象最深的是数据稀疏性的原因总结。

许多分析都是基于这张大表,能同时处理两张以上的大表就很了不起可以考虑发文章了。

一直觉得Spark才是做大数据的,整天拿个R脚本跑来跑去不算,哈哈哈。

最终还是没有逃掉一个矩阵。

关于技术噪音dropout的论述在这了!


如何处理dropouts呢,很多人是直接忽视这个吧。

黑科技在这里,VR看数据,突破宇宙13维的界限。

https://www.youtube.com/watch?v=_LLidDFQH8A


ppt原单位作者保留所有权益,侵删。

你可能感兴趣的:(单细胞数据分析||Bioinformatics analysis of single-cell RNA-seq data)