生信人的GEO-2

整合多个GSE数据集挖掘肿瘤重要基因

都是关于肺癌的数据挖掘文章,而且是整合多个GSE数据集

组织病理上通常将肺癌分为

  • 非小细胞肺癌(non-small-cell lung cancer,NSCLC)

  • 小细胞肺癌(small cell lung cancer,SCLC

其中SCLC约占全部肺癌的15%~20%,SCLC的发病与吸烟密切相关,生物学特征为分化程度低、恶性程度高、倍增时间快、侵袭性强、预后差,中位生存期才7个月左右。

其中NSCLC又可以区分为LUSC和LUAD

文献领读

第一篇文献是:Front. Genet., 12 October 2018 | https://doi.org/10.3389/fgene.2018.00469

  • 纳入4个数据集: (GSE18842, GSE19804, GSE43458, and GSE62113)

  • 使用limma包寻找显著的differentially expressed genes (DEGs)

  • 使用RobustRankAggreg (RRA)整合多个数据集的差异分析结果

  • GO和KEGG数据库注释差异分析结果

  • 使用STRING数据库搜索差异基因集的PPI网络

  • 使用Cytoscape, and Molecular Complex Detection (MCODE)寻找PPI网络的hub基因:OP2A, CCNB1, CCNA2, UBE2C, KIF20A, and IL-6

  • 使用 Gene Expression Profiling Interactive Analysis (GEPIA) 网页工具检验hub基因是否具有泛癌效应

  • 使用网络数据进行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存预测能力

第二篇文献是:Mol Med Rep. 2018 May; 17(5): 6379–6386.

  • 纳入4个数据集 : GSE21933, GSE33532, GSE44077 and GSE74706

    • 21 tumor samples and 21 normal samples for GSE21933

    • 80 tumor samples and 20 normal samples for GSE33532

    • 65 tumor samples and 65 normal samples for GSE44077

    • 18 tumor samples and 18 normal samples for GSE74706

  • 各个数据集分别做差异分析挑选显著的(DEGs) ,阈值都是 (adjust P-value <0.05 and |log2fold-change (FC)|>1)

  • 对4个数据集的差异分析结果找重合部分,韦恩图展现

  • GO和KEGG数据库注释差异分析结果

  • 使用STRING数据库搜索差异基因集的PPI网络

  • 使用DEGs with a degree score ≥19 阈值判定hub基因:CCNB1, CCNA2, CEP55, PBK and HMMR

  • 使用网络数据进行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存预测能力

第三篇文献是:Published: 26 October 2018

  • 纳入7个数据集是:GSE8569, GSE21933, GSE33479, GSE33532, GSE40275, GSE62113, GSE74706

  • 对GSE数据集,统一使用limma包,阈值为(|Log2FC| > 2, adjusted p-value < 0.05) 来选择显著差异表达基因

  • 把所有7个数据集样本合并使用SVA包的combat函数去除批次效应重新使用limma包选择显著差异表达基因

  • 对TCGA数据库的502 tumors and 49 adjacent non-tumor选择差异基因

  • 整合GEO和TCGA数据库得到 129 genes (91 up-regulated and 38 down-regulated)

  • 与前两个文章同样的下游分析得到hub基因,这次有点多,14个 :CCNB2, PLK1, KIF2C, CENPA, CENPF, BUB1, BUB1B, BIRC5, CENPE, ZWINT, AURKB, CHEK1, EXO1, RAD51, and RFC4

  • 对TCGA数据库的LUSC使用GDCRNAtools选择: a total of 124 DElncRNAs (|Log2FC| > 2, FDR < 0.05) and 74 DEmiRNAs (|Log2FC| > 2, FDR < 0.05) ,构建ceRNA network

  • 使用 Cytoscape 展示ceRNA network ,共 25 lncRNAs, 14 miRNAs and 14 mRNAs

你可能感兴趣的:(生信人的GEO-2)