DAY8 生信技能树-数据挖掘第三期学习笔记

Ruizheng 的学习笔记

感谢 生信技能树 小洁老师

长脚本管理方式

  1. 分成多个脚本,每个脚本最后保存Rdata,下一个脚本开头清空再加载。
  2. if(F){...}, 则{}里的脚本被跳过,if(T){...},则{}里的脚本被执行,凡是带有{}的代码,均可以被折叠

GEO来了

图表介绍

1. 热图:
  • 输入数据是数值型矩阵/数据框
  • 颜色的深浅表示数值的大小
  • scale
    相关性热图
    差异基因热图
2. 散点图 / 箱线图:
DAY8 生信技能树-数据挖掘第三期学习笔记_第1张图片
箱线图

单个基因在两组之间的表达量差异

3. 火山图
  • 多基因差异分析,展示 logFCP.Value
  • logFC:处理 / 对照表达量差异倍数的 log 值
  • 通常说的上调、下调基因是指表达量显著上升 / 下降的基因,结合P值。
  • P值越小,越有统计学差异,-log10(P.Value)越大
    火山图加标签
4. PCA图
  • 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
  • 根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。

GEO背景知识+分析思路介绍

实验设计
实验目的:通过基因表达量数据的差异分析和富集分析来解释生物学现象
  • 病变组织vs健康组织
  • 药物处理vs对照组
  • 开花前vs开花后
  • 动物/动物不同发育期
  • 高产/低产品种
三个缩写
  • GSM:用户提交给GEO的样本数据。
  • GSE:一个完整的研究,并提供了整个研究的描述,包括对数据的描述,总结分析。
  • GPL:用户测序使用的芯片/平台

基因表达芯片:探针的表达量反应基因的表达量

DAY8 生信技能树-数据挖掘第三期学习笔记_第2张图片
表达矩阵

分析思路
  1. 看文章找GSE编号,到GEO数据库搜索
  2. 下载数据:包括表达矩阵和临床信息
  3. 检查数据:分组之间是否有差异,PCA、热图(例如方差最大的前1000)
  4. limma差异分析及可视化:P值,logFC,火山图,热图
  5. 富集分析KEGG
R语言实现
下载用函数实现:GEOquery::getGEO
  1. 将数据下载到本地
  2. 以对象的形式读入R(eSet)

注意检查数据的完整性

  • 从eSet中提取表达矩阵exp
  • 从eSet中提取临床信息pd(数据框)
  • 从eSet中提取gpl编号

limma包用于芯片差异分析

  • 本质上只是R包和函数
  • 准备好需要输入的数据、写对参数
  • 帮助文档

你可能感兴趣的:(DAY8 生信技能树-数据挖掘第三期学习笔记)