写在前面:本文为微信公众号:生信星球的数据挖掘线上班的随堂笔记,感谢小洁老师的付出!
GEO
- 1.热图:数值是数值型矩阵/数据框
- 2.箱线图:输入数据是一个数值型向量(数据)和一个有重复值的字符串向量(分组)
- 差异分析:
- p值:越小差异越显著
- P值越小,-log10(P value)越大,差异越显著
- logFC:实验组/对照组表达量差异倍数的log值。
logFC>0,基因表达量上调
logFC<0,基因表达量下调 - 上下调基因需要结合P值
- 上调基因需要结合两个标准——p和logFC,比如:logFC>1,P<0.01
- 3. 火山图——横坐标logFC,纵坐标-log10(P Value)
- 4. 主成分分析——利用降维思想聚类(综合指标)——PCA
GEO分析——利用基因表达量数据的差异分析和富集分析来解释生物学现象。
有差异的样本》差异基因》代谢通路/功能注释》解释差异的原理
GEO网页
- platform:用户测序平台(GPL)
- sample:样本数据(GSM)
- series:一个完整的研究,包括对研究/数据的描述及总结分析。(GSE)
基因表达芯片
- 通过探针表达量反应基因表达量
- 表达矩阵:行名为探针名,列名为样本编号(需要样本信息)
分析思路
查找GSE编号→下载数据(表达矩阵/临床信息-分组信息)→检查数据(分组之间是否有差异,参考PCA)→limma差异分析及可视化(P值/logFC→火山图热图)→富集分析KEGG/GO
DAVID不行,要用clusterprofeller
下载数据
- 数据格式:GSExxxxx_series_matrix.txt.gz
检查数据完整性
- GEOquery::getGEO#::表示显式的指令
- 将数据下载到工作目录
- 以对象的形式读入R
LIMMA包
- 本质上只是R包和函数
- 准备好需要输入的数据,写对参数
- 帮助文档
- limma包用于芯片差异分析
- 转录组要用专门的包包:limma(voom)、edgeR、Deseq2
芯片注释:探针与基因的对应关系
- 注释来源:GEO中GPL页面的表格(soft文件)
- Biocductor的注释包
- 官网下载
- 自主注释
- 一个探针对应多个探针(非特异性探针)→直接删除
- 多个探针对应同一个基因:去重复行
deg[!duplicated(deg$symbol),]