【单细胞】Scanpy进行高可变基因的筛选

1 功能

取出高可变基因,默认使用log的数据,当使用flavor=seurat_v3的时候,采用count data。

flavor参数可以选择是使用Seurat,Cell ranger还是seurat v3的算法。

Seurat and Cellranger中,使用的是dispersion-based方法,获得归一化的方差。先对基因按照表达量平均值进行分bin,然后计算落在每个bin的基因的离散度(dispersion)的均值和SD,最终获得归一化的dispersion。对于每个表达量的bin,选择不同的高可变表达基因。

而Seurat3的算法,计算每个基因的方差进行归一化。首先对数据在规范化标准偏差下(a regularized standard deviation)进行标准化(使用z标准化),之后计算每个基因的归一化的方差,并且进行排序,获得高可变基因。

2 参数

  • adata:输入的数据,每行是一个细胞,每列是一个特征
  • layer:使用的是哪一个layer
  • n_top_genes:如果是使用seurate_v3的方法,那么需要指定该参数。
  • min_mean:默认0.0125 ;max_mean:默认是3 ;min_disp: 默认0.5, max_disp: 默认是inf。如果指定了n_top_genes , 这个和其他所有mean和disp参数都会无效,因此设置了 flavor=‘seurat_v3’ 该参数无用。
  • span:默认是0.3;当flavor=seurat_v3的时候,用loess模型来估计variance的数据的比例。
  • n_bins : 默认是20,对表达量分bin的数目,对每个bin里的数据进行归一化,如果只有一个基因落到bin里,那么该bin的dispersion会设为1。
  • flavor: {‘seurat’, ‘cell_ranger’, ‘seurat_v3’} (default: ‘seurat’)
  • subset:默认是false,只是返回高可变基因,否则就原位替换
  • inplace:默认是True,在var中进行存储矩阵
  • batch_key:没看懂

3 参考文献

[1]使用scanpy进行高可变基因的筛选

你可能感兴趣的:(生物信息,python,人工智能,开发语言)