这篇文章的目的是为了帮助理解Seurat在单细胞转录组分析中可以做哪些事,并且对整体的数据分析流程有一个整体的认识。并不包含代码。
转载请注明出处
1.单细胞测序分析的整体流程是怎样的
以10x genomics为例
单细胞转录组分析流程
barcodes.tsv.gz : 包含barcodes信息
features.tsv.gz : 包含的是基因的信息
matrix.mtx.gz : 对于每一个barcodes而言,对每一个细胞表达的信息
但是Cell Ranger的质控并不严格,所以仍需要一步数据质控,去过滤低质量细胞和低丰度基因。
2.Seurat能做什么
首先,在这个流程图中Seurat能进行分析的部分有“数据质控→基因表达标准化→降维聚类→marker基因鉴定/细胞类型鉴定/细胞亚群分析”
(拟时序分析需要用到另一个R包,Monocle)
其次,Seurat自带绘图函数Dimplot,可以对结果进行可视化。如果对Dimplot的效果不满意,也可以将降维信息提取出来之后使用ggplot2作图,这里有一个使用示例 利用 ggplot2 绘制 Seurat 对象中的 tSNE 或 UMAP 图
3.Seurat之数据质控
需要数据质控的原因:在10x捕获细胞的原理中,理论上一个油包水微滴中只有一个细胞,但在实际测序中,一个微滴中可能没有细胞,也可能有2个甚至多个细胞。这就导致了某些微滴中测序基本为空,或者基因检测数量非常高,因此需要通过数据质控将这部分异常的数据过滤掉。
另外还有一种情况,对于凋亡状态细胞或受到损伤的细胞而言,其细胞内的线粒体基因比例会非常高,所以对于线粒体基因比例非常高的细胞也是低质量的细胞,对于这部分细胞也是要过滤掉的。
一般过滤标准:
每个细胞的基因数限制一般选用200个基因为下限值;2000-2500个基因为上限值;
线粒体基因的比例则可根据具体数据,看线粒体基因比例主要集中的范围而定,越低越好,如5%。
4.Seurat之降维聚类分析
线性降维:PCA
非线性降维:tSNE、UMAP
PCA侧重于从大量基因表达信息提取出对整个基因表达量影响最大的效应(即主成分),所以PCA分析就是将数据中大量基因表达信息浓缩到少数几个代表样本中主要效应的变量中,侧重于抓取数据中隐藏的主要效应,从而在这个主要效应的维度中去直观的展现出样本之间的差异(距离越远,差异越大)。更适合于常规转录组中,展示样本之间的表达情况。
而对于单细胞测序分析,目的是区分出不同细胞亚群,而能够区分细胞亚群的效应往往不是大量基因的差异,而是一些微小效应,也就是少量的标记基因的差异,这时PCA就不再适用,而tSNE则是将原本在原始数据集中比较相似的细胞,在降维之后的数据集中仍能保持相似性,并且能够聚集在一起。
PCA是想办法把不相似的数据区分开,在二维坐标图上展示的时候,不相似的点之间间隔比较远;
tSNE则是除了把不相似的点尽量分开的同时,尽量让相似性质的点距离近一些。
图中的每一个点都是一个细胞
单细胞测序数据一般处理流程:
先使用线性降维做一个预处理,然后再进行非线性聚类分析。
5.Seurat之Marker基因鉴定
Marker基因的筛选标准:该基因在指定细胞群的绝大多数细胞中有较高的表达,而在其余细胞类群中只有少部分表达,且该基因在此细胞群相对于其他细胞群中显著上调表达。
Seurat可以进行两个细胞群或者多个细胞群之间的差异基因的分析。
6.Seurat之细胞类型鉴定
鉴定出每一个细胞群的marker基因之后,就可以选定每个细胞群的代表性marker基因来绘制热图。
这里左侧的基因就是选定的marker基因,最上方的彩条代表着细胞的分群,
热图的主体部分是每一个细胞表达对应的marker基因的表达量。
通过热图可以直观展示和判定每个分群的细胞类型。
在判定了每个分群对应的细胞类型之后,可以把细胞类型的信息加入到tSNE图中的展示中。
7.Seurat之某个基因的表达的展示
A.featureplot图
B.小提琴图
C.山脉图
峰高代表细胞数,不同颜色表示不同类群,横轴代表表达水平(其实与小提琴图类似,就是竖过来的小提琴图)。