使用Palantir进行单细胞发育轨迹推断分析

Palantir是一种对单细胞测序数据进行分化发育轨迹推断的算法,于2019年发表在Nature Biotechnology上。Palantir将细胞分化模拟为一个随机的过程,其中干细胞通过一系列步骤最终分化为终末分化的细胞。Palantir能有效地捕获细胞分化状态的连续性和细胞命运决定的随机性。

安装所依赖的python包

Palantir是基于python3开发的,可以直接通过pip进行安装

pip install PhenoGraph
pip install rpy2pip install palantir

下载示例数据集

在palantir包的data文件夹下存放了一个示例数据集,以下分析流程使用这个数据集进行分析。

wget -c https://github.com/dpeerlab/Palantir/raw/master/data/marrow_sample_scseq_counts.csv.gz

加载示例数据集

Palantir可以从csv文件,mtx文件,10x count文件和HDF文件读取scRNA-seq数据。csv文件应为count的cell X gene的表达矩阵。

# 加载所需的python包
import palantir
# Plotting and miscellaneous imports
import os
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline
# 加载示例数据集
palantir_dir = os.path.expanduser('~/dongwei/palantir/data/')
counts = palantir.io.from_csv(palantir_dir + 'marrow_sample_scseq_counts.csv.gz')
counts
image

对于其他格式的文件,可以使用palantir.io.from_mtxpalantir.io.from_10xpalantir.io.from_10x_HDF5等函数进行读取。

原始数据进行质控

Palantir可以对原始数据进行质控,使用palantir.preprocess.filter_counts_data函数用于删除低分子计数的细胞和具有低检测率的基因。

# 查看原始数据的特征
fig, ax = palantir.plot.plot_molecules_per_cell_and_gene(counts)
# 过滤细胞和基因
filtered_counts = palantir.preprocess.filter_counts_data(counts, cell_min_molecules=1000, genes_min_cells=10)
image

数据的归一化和标准化

Palantir将每个细胞的计数除以检测到的总分子作为归一化的指标,还可以对数据进行log值的转换。

norm_df = palantir.preprocess.normalize_counts(counts)
norm_df = palantir.preprocess.log_transform(norm_df)

数据的PCA降维

# PCA reduction
pca_projections, _ = palantir.utils.run_pca(norm_df)
# Run diffusion maps
dm_res = palantir.utils.run_diffusion_maps(pca_projections, n_components=5)
ms_data = palantir.utils.determine_multiscale_space(dm_res)

Palantir可以使用MAGIC算法对单细胞的表达数据进行imputation处理

# MAGIC imputation
imp_df = palantir.utils.run_magic_imputation(norm_df, dm_res)

tSNE降维可视化

# tSNE visualization
tsne = palantir.utils.run_tsne(ms_data)
fig, ax = palantir.plot.plot_tsne(tsne)
image
fig, ax = palantir.plot.plot_tsne_by_cell_sizes(counts, tsne)
image

绘制特征基因的表达谱

使用plot_gene_expression函数,可以在tSNE图上显示一些特征基因的表达谱。

palantir.plot.plot_gene_expression(imp_df, tsne, ['CD34', 'MPO', 'GATA1', 'IRF8'])
image

对降维后的数据进行聚类分群

Palantir使用Phenograph对数据进行聚类,并进行可视化

# 数据聚类
clusters = palantir.utils.determine_cell_clusters(pca_projections)
image
# 聚类结果可视化
palantir.plot.plot_cell_clusters(tsne, clusters )
image

运行Palantir进行分化发育轨迹推断

可以指定一个近似的最早的起始细胞来运行Palantir。Palantir可以自动确定终末分化状态的细胞,也可以使用termine_states参数指定它们。

# 运行Palantir
start_cell = 'Run5_164698952452459'
pr_res = palantir.core.run_palantir(ms_data, start_cell, num_waypoints=500)

Palantir运行完后生成的结果包含以下数据:
Pseudotime: Pseudo time ordering of each cell
Terminal state probabilities: Matrix of cells X terminal states. Each entry represents the probability of the corresponding cell reaching the respective terminal state
Entropy: A quantiative measure of the differentiation potential of each cell computed as the entropy of the multinomial terminal state probabilities

# 查看自动生成的终末分化的细胞
pr_res.branch_probs.columns
image
# 根据已有的生物学知识对终末分化的细胞进行重命名
mapping = pd.Series(index=['DC', 'Mono', 'Ery'])
mapping['DC'] = tsne.loc[pr_res.branch_probs.columns, 'x'].idxmax()
mapping['Ery'] = tsne.loc[pr_res.branch_probs.columns, 'y'].idxmin()
mapping['Mono'] = pr_res.branch_probs.columns.difference(mapping.values)[0]
mapping = pd.Series(mapping.index, index=mapping)
pr_res.branch_probs.columns = mapping[pr_res.branch_probs.columns]
pr_res.branch_probs = pr_res.branch_probs.loc[:, ['Ery', 'Mono', 'DC']]

可视化Palantir的结果

使用plot.plot_palantir_results函数对palantir运行的结果进行可视化

palantir.plot.plot_palantir_results(pr_res, tsne)
image

查看一些细胞在不同终末分化细胞中的分布比例

cells = ['Run5_164698952452459', 'Run5_170327461775790', 'Run4_121896095574750', ]
palantir.plot.plot_terminal_state_probs(pr_res, cells) 
image

高亮一些细胞查看他们的分布

palantir.plot.highlight_cells_on_tsne(tsne, cells)
image

基因表达趋势分析

Palantir使用Generalized Additive Models(GAMs)模型计算基因在不同分化细胞中的表达趋势

# 选择特征基因
genes = ['CD34', 'MPO', 'GATA1', 'IRF8']
# 计算基因的表达趋势
gene_trends = palantir.presults.compute_gene_trends( pr_res, imp_df.loc[:, genes])
image

基因表达趋势的可视化

palantir.plot.plot_gene_trends(gene_trends)
image

绘制基因表达趋势热图

palantir.plot.plot_gene_trend_heatmaps(gene_trends)
image

查看相关函数的使用说明

对于一些函数的参数和使用方法,可以通过help()函数查看其相关使用说明,如:

help(palantir.core.run_palantir)
image
image

你可能感兴趣的:(使用Palantir进行单细胞发育轨迹推断分析)