2022-09-30

生信学习还是在GEO数据库的认识中,比较基础小白。

(一)  图表认识

图表主要是以下几种:热图、散点图、火山图、箱线图、PCA

对FC(Foldchange)的概念有了新的理解:基因(探针)对应的表达量都是取过log2的,所以:对照组表达量的log平均值为log(y),而处理组表达量的log平均值为log(x),那么公司给的那些分析后的数据log2(FC)=log2(x/y)=log(x)-log(y)。

总之,重点知道真实的差异倍数应该为

有时候对P值会取log10,-log10(P value)越大,则差异越显著。

(二) GEO相关知识及分析思路

目的肯定是做差异分析和富集分析,差异基因——代谢通路/功能注释——解释差异原理

重要知识点:GSM(样本):GSE(系列/研究);GPL(芯片/平台)

分析思路:

1. GSE编号(文献)

2. 下载数据(表达矩阵、临床信息)

下载;对象形式读入R(eSet);提取

3.  检查数据(分组间是否有差异,PCA、热图)

4.   Limma差异分析及可视化(根据P、logFC;火山图、热图)

芯片注释:探针和基因的对应关系。可以依据(GPL页面表格;biocoductor注释包;官网下载或自主注释)

5.  富集分析KEGG、GO

输入数据:差异基因的entrezid

所有基因的entrezid

id转换:bitr( )

新知识:GeneRatio:该通路的差异基因数/能够对应到数据库中的差异基因数

               BgRatio:该通路总共多少基因/数据库中所有通路总共多少基因


蛋白质组学(视频学习)

蛋白质组学后续分析

?如何从差异蛋白中选择候选通路

1.结合表型挑选方向

2.选择明星通路

3.根据文献报道(兴趣点)进行推测

?如何选择候选蛋白或直接锚定蛋白

1.根据差异倍数

2.明星蛋白或酶类

3.根据文献进行推测

4.修饰位点数量/某位点修饰水平变化的水平/修饰位点所在结构域

你可能感兴趣的:(2022-09-30)