Seurat 基础知识

(一)Seurat的数据结构

版本:3.1.5

直接输入Seurat object的名称,我们可以得到类似如下内容:

An object of class Seurat 13425 features across 39233 samples within 1 assay 

Active assay: RNA (13425 features, 3000 variable features) 3 dimensional reductions calculated: pca, umap, tsne

这个告诉我们当前对象主体是13425(基因数)*39233(细胞数)的矩阵,有一个叫RNA的assay,在这个assay中,我们选择了3000个基因作为variable features(一般用来计算PCA),计算了三种降维:PCA, UMAP, t-SNE。

Assay

The Assay object is the basic unit of Seurat; each Assay stores raw, normalized, and scaled data as well as cluster information, variable features, and any other assay-specific metadata. Assays should contain single cell expression data such as RNA-seq, protein, or imputed expression data.

默认情况下,我们的seurat对象中是一个叫RNA的Assay。在我们处理数据的过程中,做整合(integration),或者做变换(SCTransform),或者做去除污染(SoupX),或者是融合velocity的数据等,我们可能会生成新的相关的Assay,用于存放这些处理之后的矩阵。在之后的处理中,我们可以根据情况使用指定Assay下的数据。不指定Assay使用数据的时候, Seurat给我们调用的是Default Assay下的内容。可以通过对象名@active.assay查看当前Default Assay,通过DefaultAssay函数更改当前Default Assay。Assay数据中,counts为raw,data为normalized,scale为scaled。

调用Assay中的数据的方式为,以调取一个名为PBMC的Seurat对象中Assay integrate中的nomalized数据为例:

PBMC@assays$RNA@data

meta.data

元数据,对每个细胞的描述。一般计算的nFeature_RNA等信息就以metafeature的形式存在Seurat对象的metadata中。计算的分类信息一般以RNA_snn_res.x(x指使用的resolution)存放在metadata中。

调取metadata中metafeature值的方式有多种,以调取一个名为PBMC的对象中stim这个metafeature为例:

方法1:PBMC[["stim"]]

方法2:PBMC$stim

reductions

降维之后的每个细胞的坐标信息。

以调取一个名为PBMC的对象中PCA embedding (也就是坐标)信息为例:

PBMC@[email protected]

rownames(object) 获取的是全部基因

colnames(object)获取的是全部细胞id

VariableFeatures(object)获取当前object的Variable feature

levels(object)获取当前object的分类信息 

(二)Seurat中包含的函数

Seurat 提供了非常丰富的函数来协助单细胞数据分析,我想先把这些函数主要分为下面几种:

其一是用于提取数据的函数

    包括subset, WhichCell, VariableFeatures, Cells

其二是用于处理数据的函数

    包括NormalizeData, RunPCA, RunUMAP

其三是用来展示数据的函数

    包括DotPlot, DoHeatmap, DimPlot, UMAPPlot, DimPlot, FeaturePlot

1 用于提取数据的函数

对Seurat对象结构有所了解之后,我们其实可以直接在Seurat对象中提取数据。可能为了方便,Seurat也提供了一些函数来帮助我们提取一些我们想要的数据。

这里用一些例子来做实际说明

1.1 提取细胞ID

获取整个object的细胞ID:Cells(object),colnames(object)

按照idents获取部分细胞ID:WhichCells(object, idents = c(1, 2))

按照基因表达获取部分细胞ID:WhichCells(object, expression = gene1 > 1), WhichCells(object, expression = gene1 > 1, slot = "counts")

1.2 提取包含部分细胞的对象

按照细胞ID提取:subset(x = object, cells = cells)

按照idents提取:subset(x = object, idents = c(1, 2))

按照meta.data中设置过的stim信息提取:subset(x = object, stim == "Ctrl")

按照某一个resolution下的分群提取:subset(x = object, RNA_snn_res.2 == 2)

当然还可以根据某个基因的表达量来提取:subset(x = object, gene1 > 1),subset(x = object, gene1 > 1, slot = "counts")

1.3 提取降维之后的坐标信息

Embeddings(object = object[["pca"]])

Embeddings(object = object[["umap"]])

2 用于处理数据的函数

Seurat作为单细胞数据处理的R包,用于处理数据的函数非常的丰富。这里做一些简单的介绍和总结。

2.1 标准化

一般用的是:NormalizeData()

可以选择的另一种:SCTransform(),SCTransform也不是简单的标准化数据,这个函数会生成data, scale.data, VariableFeature, 然后存在一个叫SCT的assay里

2.2 降维

提供了包括RunPCA, RunUMAP, RunTSNE,在每种降维算法里还可以选择不同的方法

2.3 聚类

FindClusters()

2.4 差异分析

分析特定某些idents的差异:FindMarkers(object = object, ident.1 = 1, ident.2 = 2), FindMarkers(object = object, ident.1 = c(1, 2), ident.2 = c(3, 4))

分析每个ident和其他idents的差异:FindAllMarkers(object = object)

2.5 细胞周期

CellCycleScoring(object = object, s.features = s.genes, g2m.features = g2m.genes)

2.6 基因集和的表达

Seurat给了两种选择去考虑一个基因集的整体表达情况。

计算基因模块分值(Calculate module scores for feature expression programs in single cells):AddModuleScore(object = object, features = genes,  name = "Module_Score")

合计基因集表达(Aggregate expression of multiple features into a single feature):MetaFeature(object = , features = genes, meta.name = "Aggregate_Feature")

3. 用来展示数据的函数

数据的展示对于数据分析来说尤为重要,Seurat提供了多种类型的展示方式,在结果展示方面给我们提供了很多选择。而且由于Seurat很多展示方法的基础是ggplot,所以除了Seurat函数固定的那些参数以外,我们还可以有很多个性化的操作。

3.1 展示降维信息

DimPlot(object = object, reduction = reduction.name, group.by = groups, label = T)

其中,展示特定降维方法:UMAPPlot, TSNEPlot

3.2 基于降维结果展示数据表达

FeaturePlot(object = object, features = c("gene1", "gene2", "gene3", "gene4")),也可以是meta.data里的值

3.3 Violin Plot

VlnPlot(object = merged, features = c("nFeature_RNA", "nCount_RNA", "gene1", "gene2"), ncol = 2, pt.size = 0.1)

VlnPlot(object = merged, features = c("gene1", "gene2", "gene3", "gene4"), ncol = 2, pt.size = 0.1, slot = "counts")

3.4 DotPlot 

DotPlot(object = object, features = genes)

3.5 DoHeatmap

DoHeatmap(object = object, features = genes)

由于不同cluster细胞数目不同,建议抽样之后再画

DoHeatmap(object = object, features = genes, cells = downsampledCells)

3.6 Scatter Plot

两个feature的Scatter: FeatureScatter(object = object, feature1 = feature1, feature2 = feature2)

两个细胞所有feature的Scatter:CellScatter(object = object, cell1 = cell1, cell2 = cell2) 



reference:https://www.bilibili.com/read/cv7142541?spm_id_from=333.999.0.0

seurat基础知识

你可能感兴趣的:(Seurat 基础知识)