现在最火的组学技术是什么,无疑便是单细胞测序了。通过单细胞测序,科研人员可以获得比原来更为精细的细胞图谱。但是单细胞测序诸多限制条件,也是不能让大家很好地利用这项技术解决自己的科学问题。
除了较高的费用外,极其严格的前期样本制备也使得许多研究人员望而却步。
那么有没有更好的办法来解决这一问题呢?答案是肯定的!
从事免疫相关工作的研究人员,目前只需常规普通的转录组测序数据,就能拿到该样本中各类免疫细胞如DC细胞、NK细胞、CD4+ T细胞等所占比例。
例如肿瘤微环境主要由肿瘤细胞、成纤维细胞、免疫细胞、各种信号分子和细胞外基质及特殊的理化特征等共同组成,肿瘤微环境显著影响着肿瘤的诊断、生存结局和临床治疗敏感性。其中免疫浸润也是近几年肿瘤研究的一个重要方向。
所以我们要清楚一个概念那就是肿瘤组织中并不是100%的细胞是肿瘤细胞,不同肿瘤组织的微环境都有着各自的特点。
那么简单肿瘤组织中存在着那么多不同类型的细胞,但是传统的转录组混池测序方法(也叫Bulk RNA-seq)是将组织整体的RNA表达水平进行检测,我们并不能有效区分究竟哪些细胞表达了哪些基因。
别怕!有一种算法叫反卷积分析,英文名叫Deconvolution。如上图所示,以CIBERSORT这种算法为例,生信开发人员可以先通过预设一个优秀的数据训练集(训练集主要包含了每种不同免疫细胞的基因表达特征),然后通过反卷积算法推算出这个整体样本中究竟有哪些免疫细胞。
目前已公开发表的在线数据库中,包括TIMER、CIBERSORT、ImmuneCellAI、ABIS、EPIC等,通过机器学习和反卷积算法对样本中各类免疫细胞的免疫浸润情况进行分析。
今天我们着重来介绍下其中一款作为优秀的在线数据库CIBERSORT。这款由斯坦福大学开发的在线数据库,2015年就发表了在了Nature Methods上,目前引用次数接近800次。
目前CIBERSORT没有本地版本只能在网页端运行。如果网速不行的小伙伴强烈建议使用VPN或手段。
CIBERSORT之所以优秀是因为在诸多免疫浸润数据库中,它基于线性支持向量回归(linear support vector regression)的原理进行反卷积分析,所提供的免疫细胞类别较为全面,有将近22种不同的免疫细胞,而且操作及其简单粗暴。当然这边CIBERSORT的作者又在2019年,根据前面的CIBERSORT基础上开发了CIBERSORTx,功能更为强大,我们后期会为大家介绍。
现在还是先让我们一步步带领大家如果在CIBERSORT上进行操作。提示:如果没有CIBERSORT邮箱,可以到这里查看Cibersort共享账号:Cibersort共享账号。
1 第一步,准备需要分析的文件 这里指的是表达谱矩阵文件,英文叫gene profling或matrix。 在Excel上显示格式如上图所示,第一行是表头,除了A1的Gene_name外,第一行B1到G1为样本名,这里以Sample_1做示例。 接下来除了第一列为基因名(也叫gene symbol)外,其余都是基因在该样本中的表达量。 保存格式推荐使用txt。 其中xlsx格式保存问题不大。 但是txt格式的保存操作中,每列必须是table键相隔,不能是空格。 具体操作方法是—— ① 在excel全选内容后直接复制到一个空的txt文档中 ② 直接在excel上点击另存为文本文件(制表符分隔)(*.txt),千万不能点击Unicode文本(*.txt) 错误格式1:用芯片探针ID号替换了gene name 上面2张图我们可以看到第一列或者说是A列,数字开头以at结尾以及用ENSG开头的显然不是基因名(gene symbol),目前数据库还没智能到直接识别芯片探针号或数据库ID号功能。这边给大家科普下,通常第一种数字+at结尾的是昂飞公司的Affymetrix的mRNA表达谱芯片上探针ID号,一个探针代表一个基因。而ENSG开头指的是著名的欧洲生物信息学中心Ensembl数据库Human基因对应的ID号,比如这边的ENSG00000037280对应的基因是FLT4,但是在线数据库能识别FLT4,这类属于gene symbol也叫gene name。同样的道理,FLT4这个基因对应昂飞芯片中探针ID号就变成了209946_at,但是你不能让数据库直接去识别209946_at。 错误格式2:表内有多余信息 表达谱矩阵文件里,只能有基因名对应在各个样本的表达量,不能有多余的其他信息,如基因的KEGG注释,两组相比的p值等 错误格式3:表达量为原始的counts,未经过归一化处理 所使用的数据,强烈建议使用归一化后的数据,而最最原始的counts等,是不能直接用于后期分析的。 什么叫原始数据呢? 举个例子,样本1测了12G的数据,样本2测了2G的数据,基因A在样本1和样本2中的counts数全部是2000,但是显然基因A在两个样本中的表达量是不相等的,通过fpkm或TPM等归一化方式处理才能算作是表达量,即fpkm值才能算作是基因的表达量。 通过fpkm归一化处理后,基因A在样本1中表达量25,而基因A在样本2的表达量有170。 同样芯片也存在扫描后得到的raw value也叫原始值,这种是不推荐直接使用的。 2 第二步,登录CIBERSORT网(https://cibersort.stanford.edu/)和注册 上图就是CIBERSORT官网的首页,首先我们可以先点击register注册一个新的账号。这里需要注意的是,所注册的邮箱必须是edu结尾的,非edu结尾的邮箱一般情况是不允许注册的,或者只能申请商业化付费使用。由于注册邮箱的步骤大同小异,这边就不多做介绍了,下面我们直接进入下一步的分析步骤。 3 第三步,上传需要分析的文件 我们在网页上侧的Menu一栏里,下拉后会出现一排操作界面。 我们可以点击Upload Files,进行上传文件的操作 点击Upload files后我们进入了上传文件的操作界面,我们可以看到,CIBERSORT还是非常大方地给了我们约500MB的存储空间,理论上只要上传的文件总数量不超过500MB都是可以的。 而且CIBERSORT居然支持txt和xlsx两种格式,可以说这点考虑很周全。 但是我们还是 强烈建议使用制表符分隔的txt文档 会更好一些。根据我们多次实操经验来看,xlsx格式的文件会存在报错现象。 由于在前面我们已经上传了xlsx格式的文件,这边我们正式操作一个txt文档帮助了解下上传过程。 根据上图显示,点击绿色的Add files按钮,选中文件后就会出现这个界面。 Title不解释,自己可以任意命名。 File Type我们选择Mixture即可。 由于你提供的文件里,所有基因对应有多个样本,所以Mixture最合适,其他暂时不考虑。 这边稍微讲一下其他几个属性。 Signature Genes指的是 接下来点击蓝色的Start upload按钮后,出现了正在上传的界面,包括上传进度和上传网速等都会一一显示。 最后上传完毕后,你会看到同一个文件的两种不同格式txt和xlsx都显示出来了,当然点击Delete即可删除文件。 为了后面更好地演示大样本分析情况,我们这边又上传了一个有16组样本的测试数据。 4 第四步,进入免疫浸润分析参数设置 刚才我们只是上传了文件,CIBERSORT数据库并不是你上传完了文件即可直接进行分析的。 跟市面上其他分析网站不同的是,你只要上传的文件,理论上不删除可以一直重新分析,各种参数这种分析条件可以轮着来。 众所周知,许多数据库现在上传完的文件是立刻分析的,关闭网页你上传的文件就消失了,体验非常不好。 而CIBERSORT与那些妖艳jian货完全不同。 如上图所示,当我们重新回到CIBERSORT最初的界面,点击蓝色按钮Run CIBERSORT,就可以进入我们的分析前参数设置界面。 在进入上图的参数设置界面后,一共有7个地方我们需要注意。 我们会针对被CIBERSORT网站称之为Basic CIBERSORT Options的七个设置条件一一做详细解释。 绝对值指的是每种免疫细胞的绝对比例,例如整体免疫细胞所占比例为3%,那么22个主流的免疫细胞最后的绝对比值只有不到0.1%也是有可能的,但是相对模式最后比值相加很容易得到总和为1的结果。 不勾选的话,CIBERSORT默认只跑相对模式,所以这边我们并没有勾上。 关于第二个选项,Signature gene file,不多做解释,直接选择22种数据库中已集成的免疫细胞类型即可。 除非你很擅长做数据分析,也有很好的背景跟参考文件,否则就乖乖地选择LM22(22 immune cell type)即可。 第三个Mixture选项,我们由于前面已经上传了三个文件,这边选择16个样本的16_samples。 需要注意的是,这个界面无法直接上传你想要分析的数据,必须专门前往Upload界面才可以。 第四个Permutation,指的是分析上排列次数,我们选择默认的100。 理论上数字越大,最后运算的结果更准确。 第五个选项同样也在Permutation下方,Disable开头的一串英文,指的是本次运算数据是否不需要归一化处理。 由于我们上传的文件里,每个基因在各个样本中表达量已经进行了归一化处理,所以这边我们打算打√。 假如你的原始文件真的是counts,不会进行归一化处理,那么在分析的时候可以不把这个选项勾上。 接下来到了第六个选项Custom Signature Genes的时候,我们发现有一个Phenotype classes选项。 这边官方Manual文档给出的解释是,里面的样本如果有分组的话,实际上可以对属于同一组的样本进行归类,1属于同一组,2不属于同一组,0是忽略。 如果你无法进行分组可以无视该选项。 下图就是我们这次所设置的分组信息,一共五组分别是Normal、CIN1、CIN2、CIN3、Cancer。 还是在第六项中,我们会找到一个Advanced Options。 这里面的参数如果你不会特别明白最好不要轻易修改,直接按照网页上默认参数运行就行了。 最后第七个选项Example datasets,这边就不截图了。 当你还没有数据的时候,可以使用数据库中已经内置的一个示例数据,先用来分析下作为演示。 组后点击最下方的蓝色Run按钮就进入了分析界面 5 第五步,分析界面展示 当点击Run按钮后,进入了分析界面。 注意,这边网页是可以直接关闭的,到时候分析完毕的结果会单独发送Jobs Results一栏。 如果不关闭,会时刻显示分析的百分比进度条。 6 第六步,查看分析结果 如果刚才分析的进度条界面已关闭,没有关系。 一般不超过10分钟的时间就能分析完毕。 我们来到主页,通过Menu菜单下拉的Jobs Results一栏,点击进入,就能下载到我们先前所有的分析结果了。 上图显示的就是进入Jobs Results一栏后,所展示的全部分析结果。 有html格式,有pdf格式,还有txt格式等。 点击下载就可以查看分析结果了。 但是无论这些结果呈现形式如何,其实最核心的数据来源依旧是22种不同免疫细胞在该样本中所占比例的一个数值。 很多图都是根据这个数字来进行绘制的。 如上图所示,每个样本的每个细胞所占比例,数字一清二楚。 这个图就是官网上pdf和html显示形式,根据所占比例的数值,分成了不同颜色等级。 我们还可以利用联川生物云平台当中的柱形图,来实现堆叠图的展示。 结果如上图所示。 7 总结 CIBERSORT这个在线数据库是目前所有反卷积免疫浸润分析网站中,功能最为强大操作最为友好的数据库之一。 免疫细胞种类齐全,另外数据库每个账号提供的500MB的空间,满足了绝大部分医生的需求。 但是申请邮箱必须为edu理论上也限制了CIBERSORT的扩散程度。 当然这个数据库高峰期访问的时候极其不稳定,经常存在无法打开的情况,必须使用VPN才能进行正常操作。 目前来看,早晨6点-9点是数据库速度较快的时间段,操作比较流畅。 而数据库另一个缺点是,无法使用R Shiny部署到本地的服务器上,必须使用在线服务。 小编猜测可能这个课题组文章还没发够吧。 据说CIBERSORT以及升级版CIBERSORTx已经发了一篇Nature Methods和Nature Biotechnology了,引用率都相当高。