TCGA_08

写在前面:本文为微信公众号:生信星球数据挖掘线上班的随堂笔记,感谢小洁老师的付出!

GEO

- 1.热图:数值是数值型矩阵/数据框
- 2.箱线图:输入数据是一个数值型向量(数据)和一个有重复值的字符串向量(分组)
  • 差异分析:
  • p值:越小差异越显著
  • P值越小,-log10(P value)越大,差异越显著
  • logFC:实验组/对照组表达量差异倍数的log值。

    logFC>0,基因表达量上调
    logFC<0,基因表达量下调

  • 上下调基因需要结合P值
  • 上调基因需要结合两个标准——p和logFC,比如:logFC>1,P<0.01
- 3. 火山图——横坐标logFC,纵坐标-log10(P Value)
- 4. 主成分分析——利用降维思想聚类(综合指标)——PCA

GEO分析——利用基因表达量数据的差异分析和富集分析来解释生物学现象。

有差异的样本》差异基因》代谢通路/功能注释》解释差异的原理

GEO网页
  • platform:用户测序平台(GPL)
  • sample:样本数据(GSM)
  • series:一个完整的研究,包括对研究/数据的描述及总结分析。(GSE)
基因表达芯片
  • 通过探针表达量反应基因表达量
  • 表达矩阵:行名为探针名,列名为样本编号(需要样本信息)
分析思路

查找GSE编号→下载数据(表达矩阵/临床信息-分组信息)→检查数据(分组之间是否有差异,参考PCA)→limma差异分析及可视化(P值/logFC→火山图热图)→富集分析KEGG/GO

DAVID不行,要用clusterprofeller

下载数据
  • 数据格式:GSExxxxx_series_matrix.txt.gz

检查数据完整性

  • GEOquery::getGEO#::表示显式的指令
  1. 将数据下载到工作目录
  2. 以对象的形式读入R
LIMMA包
  1. 本质上只是R包和函数
  2. 准备好需要输入的数据,写对参数
  3. 帮助文档
  • limma包用于芯片差异分析
  • 转录组要用专门的包包:limma(voom)、edgeR、Deseq2

芯片注释:探针与基因的对应关系

  • 注释来源:GEO中GPL页面的表格(soft文件)
  • Biocductor的注释包
  • 官网下载
  • 自主注释
  • 一个探针对应多个探针(非特异性探针)→直接删除
  • 多个探针对应同一个基因:去重复行deg[!duplicated(deg$symbol),]

你可能感兴趣的:(TCGA_08)