（一）Seurat的数据结构

版本：3.1.5

直接输入Seurat object的名称，我们可以得到类似如下内容：

An object of class Seurat 13425 features across 39233 samples within 1 assay

Active assay: RNA (13425 features, 3000 variable features) 3 dimensional reductions calculated: pca, umap, tsne

这个告诉我们当前对象主体是13425（基因数）*39233（细胞数）的矩阵，有一个叫RNA的assay，在这个assay中，我们选择了3000个基因作为variable features（一般用来计算PCA），计算了三种降维：PCA, UMAP, t-SNE。

Assay

The Assay object is the basic unit of Seurat; each Assay stores raw, normalized, and scaled data as well as cluster information, variable features, and any other assay-specific metadata. Assays should contain single cell expression data such as RNA-seq, protein, or imputed expression data.

默认情况下，我们的seurat对象中是一个叫RNA的Assay。在我们处理数据的过程中，做整合（integration），或者做变换（SCTransform），或者做去除污染（SoupX），或者是融合velocity的数据等，我们可能会生成新的相关的Assay，用于存放这些处理之后的矩阵。在之后的处理中，我们可以根据情况使用指定Assay下的数据。不指定Assay使用数据的时候， Seurat给我们调用的是Default Assay下的内容。可以通过对象名@active.assay查看当前Default Assay，通过DefaultAssay函数更改当前Default Assay。Assay数据中，counts为raw，data为normalized，scale为scaled。

调用Assay中的数据的方式为，以调取一个名为PBMC的Seurat对象中Assay integrate中的nomalized数据为例：

PBMC@assays$RNA@data

meta.data

元数据，对每个细胞的描述。一般计算的nFeature_RNA等信息就以metafeature的形式存在Seurat对象的metadata中。计算的分类信息一般以RNA_snn_res.x（x指使用的resolution）存放在metadata中。

调取metadata中metafeature值的方式有多种，以调取一个名为PBMC的对象中stim这个metafeature为例：

方法1：PBMC[["stim"]]

方法2：PBMC$stim

reductions

降维之后的每个细胞的坐标信息。

以调取一个名为PBMC的对象中PCA embedding (也就是坐标)信息为例：

PBMC@[email protected]

rownames(object) 获取的是全部基因

colnames(object)获取的是全部细胞id

VariableFeatures(object)获取当前object的Variable feature

levels(object)获取当前object的分类信息

（二）Seurat中包含的函数

Seurat 提供了非常丰富的函数来协助单细胞数据分析，我想先把这些函数主要分为下面几种：

其一是用于提取数据的函数

包括subset, WhichCell, VariableFeatures, Cells

其二是用于处理数据的函数

包括NormalizeData, RunPCA, RunUMAP

其三是用来展示数据的函数

包括DotPlot, DoHeatmap, DimPlot, UMAPPlot, DimPlot, FeaturePlot

1 用于提取数据的函数

对Seurat对象结构有所了解之后，我们其实可以直接在Seurat对象中提取数据。可能为了方便，Seurat也提供了一些函数来帮助我们提取一些我们想要的数据。

这里用一些例子来做实际说明

1.1 提取细胞ID

获取整个object的细胞ID：Cells(object)，colnames(object)

按照idents获取部分细胞ID：WhichCells(object, idents = c(1, 2))

按照基因表达获取部分细胞ID：WhichCells(object, expression = gene1 > 1), WhichCells(object, expression = gene1 > 1, slot = "counts")

1.2 提取包含部分细胞的对象

按照细胞ID提取：subset(x = object, cells = cells)

按照idents提取：subset(x = object, idents = c(1, 2))

按照meta.data中设置过的stim信息提取：subset(x = object, stim == "Ctrl")

按照某一个resolution下的分群提取：subset(x = object, RNA_snn_res.2 == 2)

当然还可以根据某个基因的表达量来提取：subset(x = object, gene1 > 1)，subset(x = object, gene1 > 1， slot = "counts")

1.3 提取降维之后的坐标信息

Embeddings(object = object[["pca"]])

Embeddings(object = object[["umap"]])

2 用于处理数据的函数

Seurat作为单细胞数据处理的R包，用于处理数据的函数非常的丰富。这里做一些简单的介绍和总结。

2.1 标准化

一般用的是：NormalizeData()

可以选择的另一种：SCTransform()，SCTransform也不是简单的标准化数据，这个函数会生成data, scale.data, VariableFeature, 然后存在一个叫SCT的assay里

2.2 降维

提供了包括RunPCA, RunUMAP, RunTSNE，在每种降维算法里还可以选择不同的方法

2.3 聚类

FindClusters()

2.4 差异分析

分析特定某些idents的差异：FindMarkers(object = object, ident.1 = 1, ident.2 = 2), FindMarkers(object = object, ident.1 = c(1, 2), ident.2 = c(3, 4))

分析每个ident和其他idents的差异：FindAllMarkers(object = object)

2.5 细胞周期

CellCycleScoring(object = object, s.features = s.genes, g2m.features = g2m.genes)

2.6 基因集和的表达

Seurat给了两种选择去考虑一个基因集的整体表达情况。

计算基因模块分值（Calculate module scores for feature expression programs in single cells）：AddModuleScore(object = object, features = genes, name = "Module_Score")

合计基因集表达（Aggregate expression of multiple features into a single feature）：MetaFeature(object = , features = genes, meta.name = "Aggregate_Feature")

3. 用来展示数据的函数

数据的展示对于数据分析来说尤为重要，Seurat提供了多种类型的展示方式，在结果展示方面给我们提供了很多选择。而且由于Seurat很多展示方法的基础是ggplot，所以除了Seurat函数固定的那些参数以外，我们还可以有很多个性化的操作。

3.1 展示降维信息

DimPlot(object = object, reduction = reduction.name, group.by = groups, label = T)

其中，展示特定降维方法：UMAPPlot, TSNEPlot

3.2 基于降维结果展示数据表达

FeaturePlot(object = object, features = c("gene1", "gene2", "gene3", "gene4"))，也可以是meta.data里的值

3.3 Violin Plot

VlnPlot(object = merged, features = c("nFeature_RNA", "nCount_RNA", "gene1", "gene2"), ncol = 2, pt.size = 0.1)

VlnPlot(object = merged, features = c("gene1", "gene2", "gene3", "gene4"), ncol = 2, pt.size = 0.1, slot = "counts")

3.4 DotPlot

DotPlot(object = object, features = genes)

3.5 DoHeatmap

DoHeatmap(object = object, features = genes)

由于不同cluster细胞数目不同，建议抽样之后再画

DoHeatmap(object = object, features = genes, cells = downsampledCells)

3.6 Scatter Plot

两个feature的Scatter: FeatureScatter(object = object, feature1 = feature1, feature2 = feature2)

两个细胞所有feature的Scatter：CellScatter(object = object, cell1 = cell1, cell2 = cell2)

reference：https://www.bilibili.com/read/cv7142541?spm_id_from=333.999.0.0

seurat基础知识

Seurat 基础知识

（一）Seurat的数据结构

（二）Seurat中包含的函数

你可能感兴趣的:(Seurat 基础知识)