懒人版肿瘤细胞系鉴定神器:CCLA

你是否遇到过癌症细胞系污染或者误用的情况呢?今天介绍一款简单易用的,基于基因表达数据的癌症细胞系鉴定工具CCLA(http://bioinfo.life.hust.edu.cn/web/CCLA/)

发表于杂志:Briefings in Bioinformatics IF:8.99

背景介绍

癌症细胞系(Cancer cell line,CCL)是癌症研究中最常用的实验材料。然而由于长期培养和传代,CCL容易被污染,甚至误用,导致错误的发现,浪费时间、精力和资源。目前CCL鉴定的方法主要是送样到专门的细胞鉴定中心,通过短串联重复序列(Short Tandem Repeats,STR)和单核苷酸多态性(Single nucleotide polymorphism,SNP)等DNA多态性信息鉴定。如果有该CCL的RNA-seq表达矩阵的话,可以简便的使用今天介绍的CCLA在线工具快速和免费的鉴定细胞系。

CCLA方法介绍

CCLA的模型构建工作流程如下图所示,简而言之,CCLA整合了已有CCL基因表达谱和机器学习算法以鉴定CCL的类型。主要步骤如下:(1)从权威细胞系数据库(Cancer cell Line encyclopedia,CCLE和Genomics of drug sensitivity in cancer,GDSC等)整理CCLs的基因表达谱,从文献挖掘和软件数据库搜索获得CCL的特征基因;(2)使用细胞系特征基因的单样本基因集富集分析(ssGSEA)分数作为特征代替原始CCL的基因表达谱;(3)使用t-SNE(t-distributed Stochastic Neighbour Embedding)方法对参考细胞系进行大类划分;(4)基于特征基因集的ssGSEA得分,采用随机森林(Random Forests,RF)算法对待预测样本进行预分类;(5)进一步比较样本与所在类别中每个参考CCL之间的整体相似度和距离,判断该CCL的归属。

CCLA准确性评估

CCLA对待鉴定细胞系将给出前5个最可能的细胞系。在另外700多个来自多种情况下(未处理和药物处理,不同传代等)的细胞系表达数据集中评估CCLA性能,发现CCLA鉴定结果中的排最第一的(top 1)结果准确性是92%(测序数据)和96%(芯片数据),排前3(top 3)的结果准确性是95%(测序数据)和100%(芯片数据)。

CCLA使用介绍

在CCLA网页(http://bioinfo.life.hust.edu.cn/web/CCLA/)上,根据以下两个步骤就可以获得结果:

(1)用户上传芯片或者RNA-seq的基因表达数据矩阵(支持单个和多个样本的基因表达矩阵),或者直接输入NCBI GEO的GSM号,RNA-Seq数据支持FPKM,RPKM和TPM格式,芯片数据支持RMA和MAS5标准化的数据;

(2)选择与所鉴定细胞系接近的细胞系类型作为参考细胞系,当无法确定细胞系类型的时候,直接选择默认选项即可;

结果解读:

(1)下表列出了网站所给出的例子中十个被鉴定的细胞系的鉴定结果:

Sample_name:样本名称;Cell_line:样本所属的细胞系;Tissue:细胞系所属的组织类型;Source of matched cell line:所属细胞来源;No. of signature gene in sample: 对应的样本中的特征基因的数目;No. of signature gene in reference cell line: 样本所属的细胞系的特征基因的数目。样本中特征基因的数目与所属细胞系的特征基因的数目越接近,结果越可靠。

(2)如下图所示,Top 5 reference CCLs的表格中展示了与被选定的样本最接近的前五个细胞系类型:

(3)如下图所示,Signature gene stat的表格中展示了被选定的样本与样本所属细胞系的特征基因的数目(柱状图)和比例(饼图),被选定样本的特征基因的数目与所属细胞系的特征基因的数目越接近,结果越可靠:

(4)如下图所示,Gene signature and expression distribution中Figure 1和Figure 2分别展示了被选定的样本与所属细胞系的特征基因的ssGSEA打分和基因表达趋势。ssGSEA打分越接近,基因表达趋势越相似,鉴定结果越准确。

总结:

CCLA是唯一一款在线的癌症细胞系鉴定工具(http://bioinfo.life.hust.edu.cn/web/CCLA/),且准确性非常高,你值得拥有!

Qiong Zhang, Mei Luo, Chun-Jie Liu,An-Yuan Guo#, CCLA: an accurate method and web server for cancer cell line authentication using gene expression profiles,Briefings in Bioinformatics. bbaa093 Online

生信人专注做生信

你可能感兴趣的:(懒人版肿瘤细胞系鉴定神器:CCLA)