跳出套路的生信分析

第1篇

原文:High-dimensional single-cell analysis predicts response to anti-PD-1 immunotherapy
单细胞测序分析的一篇。曾经讲过这篇文献。

第2篇

原文:Quantitative evidence for early metastatic seeding in colorectal cancer
解读:80%的转移性肠癌在不到芝麻粒大的时候,就转移到肝或大脑了
这篇文章是组会文献汇报过的一篇

第3篇:

原文:
解读:这篇Cell子刊文章能不能参照着做?能!

第4篇:

原文:Molecular Characterization and Clinical Relevance of Metabolic Expression Subtypes in Human Cancers
这是黄Lab某次组会讲的文献。和代谢有关。

第5篇

原文:Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation
解读:机器学习的方法来识别与致癌去分化相关的干性特征
关于干性分析的,值得一读。
见识几个模型或工具
1-OCLR:训练样本为单分类样本,发表于2016年。
2-Moonlight分析:A tool for biological interpretation and driver genes discovery; Identify oncogenes and tumor suppressor genes from omics data,发表于2018年。
3-fgsea:fast GSEA分析。
4-ELMER:Inferring Regulatory Element Landscapes and Transcription Factor Networks Using Cancer Methylomes。
5-TCGAbiolinks :TCGA 数据下载、可视化等。
6-Synapse :可以存储和下载数据。
7-Cmap(药物方向的筛选);Cmap-tools(可视化)

关于富集分析
GSEA富集分析的思维不应该局限。
1-干性signature与既往的干性基因集,如何做富集分析?最笨的方法是,根据干性signature,将样本划分成高表达和低表达两组,然后求各个基因的FC,然后常规GSEA。那么是否可以直接用signature的权重,替代FC进入GSEA分析呢?这里打个问号。
2-模型M与特征A的相关性证明看(注:特征A未参与模型M的构建)?常规思路是对二者进行相关性分析cor,或者将其中一个根据高低得分分成两组后检验另一个得分是否有差异。这篇文献提供了另一个思路:特征A在模型M中的富集分析。

To evaluate the association of our stemness indices to known molecular sub-classfication, mutation events and/or clinical features (such as age, survival, treatment, etc.), we performed a statistical enrichment analysis by harnessing the fgsea R/Bioconductor package (Sergushichev 2016). By sorting TCGA samples by each stemness index within each tumor type, we were able to find associations with all available molecular, and clinical features. Briefly, for each tumor type we ranked the TCGA samples according to their stemness index (from -low to -high stemness index) and tested if any particular molecular/clinical feature was associated with either -low or -high stemness index in a non-random behavior. We performed 10,000 permutations for each parameter analyzed to calculate our enrichment score. We then normalized the enrichment scores to mean enrichment of random samples of the same size (NES - normalized enrichment score).

以文中的NSD1-HNSC为例,在mDNAsi中的富集结果如下:

image.png

image.png

图片源于文献提供的网站:PanCanStem_Web
github.io/PanCanStem_Web
对于富集分析显著的,也可以再进行常规方法检验(连续变量用相关性检验、分类变量则分组检验)
当然,富集分析除了上述方法,还有个方法就是,用Logistic回归,M得分为因变量,A为自变量,看Odds Ratio。这篇文献这也有提到这种富集分析方法(这也可以称为富集分析哦),图2D即是。

关于免疫细胞成分的绝对值估计
CiberSort得到的只是相对值,绝对值的估计需要ESTIMATE包辅助计算。这个当然是常规的了(写在这提醒下自己)。
免疫细胞的活性估计,包括NK、CD4+Tcell、CD8+Tcell、巨噬细胞等的激活比例。这篇文章也提到了这个分析!源于这篇Cell研究:Systemic immunity is required for effective cancer immunotherapy

这篇文献的结果,可以解读的地方有不少。大致挑几个点解读一下
1-图2A验证了mRNAsi的靠谱性,在以往报道的干性基因集中显著富集;同时发现了与mRNAsi相关的hallmark。图2BC验证了mRNAsi与报道的biomarker之间的相关性,并且认为MYC等biomarker是重要的驱动致癌去分化的基因。图2D展示了与 EREG-mRNAsi或EREG-mDNAsi相关的转录因子及结合位点组合,其中SOX2-OCT4最有价值。
2-在一些癌种中,可以用分型或者某些特征区分分化特点,图3展示对此进行了验证。比如乳腺癌中,basal或IDC型的分化较差且预后较差,其mRNAsi也相应得分高。与此同时,还找了一些其他特征分子,评估与mRNAsi的相关性(未知的分子就是探索,已知与干性相关的分子则可用来验证)。泛癌分析,一般都会把各种探索发现进行展示,挖掘到的新发现有可能对之后的研究有指导意义,验证到的结论可以加强模型的说服力。各个癌种的具体细节此处不作重点解读。
3-对干性未知的情况进行了探索,预测某些癌种亚型干性情况,从而预测其疗效和预后。探索性的嘛,发现啥写啥。
4-一般认为,转移性癌的干性越强,作者对此进行了验证。同时也发现,某些癌种中转移瘤出现了分化成熟。
5-干性与免疫。分析了干性与PDL1及白细胞分数的关系,发现有一部分癌种中成正相关,有一部分癌种中负相关,进一步预测这些癌种中疗效情况。另外,结合CiberSort的细胞成分,可以分析干性与CD4+细胞(及其激活型)的关系,从而预测疗效。这些预测,也有的用了现有治疗证据进行了验证说明。
这篇文献还有很多值得咀嚼的细节哦。

第7篇

原文:Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response
伍师姐给我发的文献,读一读!
1-交互作用检验寻找失能signature。不同于往常的DEG筛选方法,这种方法可以筛选到与目标变量相关的具有协同或拮抗作用的biomarker(或者从生物学背景来看,是单方面协同或拮抗)。建立的signature如何计算样本得分?文献中采用的是score=cor(W,X). 这个做法有点神奇,大致能接受(想一想好像是可以),但是没有看到严谨的数学证明啊。作者用既往基因集进行了验证,促进T细胞失能的基因和抑制失能的基因作为两组,本模型构建的失能score在两组间有差异,并且这个模型是能够较好预测这两类基因的(促进和抑制失能的基因)。注:失能signature的权重,是5个癌种的平均权重(数据分析发现平均值的预测效果最佳)。
2-除了失能得分,还有排斥得分。作者又根据三种造成浸润困难的细胞,构建和验证了排斥得分。
3-综合失能得分和排斥得分:CTL浸润高的使用失能得分来评估,CTL浸润低的使用排斥得分来评估。综合得到的TIDE模型的预测能力很棒。此外,作者通过筛选关键的差异基因也构建模型,称之为TIDE-selected模型。注:原模型是基因整个转录组构建的。发现TIDE-selected模型预测效果也不错。

这篇文献还有很多值得咀嚼的细节哦。

你可能感兴趣的:(跳出套路的生信分析)