分析记录 | 差异分析和KEGG GO

物种Verticillium dahliae Kleb

1.deseq2差异分析

  1. 只有count数据。按照count数据建立col data表格。
  2. 因为col data表格只有condition分组。修改代码。
  3. pheatmap的标注更改,同样因为没有lane分组数据。
    分析记录 | 差异分析和KEGG GO_第1张图片
    DraggedImage.png
  4. 为啥要normalize?参数normalized=TRUE
    分析记录 | 差异分析和KEGG GO_第2张图片
    DraggedImage-1.png

2.DAVID GO分析

2.1 GO分析

  1. DAVID,导入gene list。若为gene symbol,选择 official gene symbol。分析后界面如下:
    分析记录 | 差异分析和KEGG GO_第3张图片
    DraggedImage-2.png

    选择需要的结果下载。
    疑问:GOTERM-BP-DIRECT,1,2,3,4,5的意义。这次选择了direct下载,看起来,包含的数据是最多的。
  2. 得到的结果文件GO-CC
    分析记录 | 差异分析和KEGG GO_第4张图片
    DraggedImage-3.png

    疑问:Count,List-total,Pop-hits,Pop-total的意义
    理解:
    1.Count:即List-hits,也就是我们提交gene list中进入CC分类的某Term的数量。(Direct表可能按阈值过滤了一些不靠谱的,因此表中count总数小于list-total)
    2.List-total:提交gene list中进入CC分类的所有term的总数量
    3.Pop-hits:目前已被注释进入CC分类某Term的gene 数量
    4.Pop-total:目前已被注释进入CC分类的总gene数量
    疑问:作图的gene ratio如何得到
    理解:Count除List-total
  3. term转换:将term按波浪号分开,只取后半部分
    DraggedImage-4.png
    DraggedImage-5.png

    用到了sapply和匿名函数。
    难题:直接得到的并不是向量,经过双方框后,变成matrix,然后取第二行
  4. 基因比率:count除list total。count的总和并不等于list total,可能是有一部分进入GO——CC分类的基因被过滤掉。
  5. 调整generatio计算。
  6. ggplot调整x,y轴名称(gene ratio和term) 分组涉及onco列名。注意是否一致。

3.KEGG

  1. 网站,找到物种,点击字母缩写,Brite hierarchy,KEGG Orthology (KO),download htext下载。
  2. 问题:导入的geneid后一直报错no gene can be mapped。首先需要是gene symbol。导入的dataframe需要转化成charactor 向量
    DraggedImage-6.png
  3. 用其他kegg分析结果作图
    问题1.读入表格,stringasfactor F (不然看起来是字符实际是factor,在转数值as numeric时候,数字会按照factor的顺序变成12345)
    问题2.ggplot中的reorder(更改x或y轴标签的排列顺序)
屏幕快照 2017-11-01 上午9.16.09.png

4.clusterprofile 建库 GO分析

  1. 参照Y叔公众号link。详细可见6Orgdb-GO.R
    分析记录 | 差异分析和KEGG GO_第5张图片
    DraggedImage-7.png

    OrgDb这里写maize
  2. MF只出来两条,分面画图会变宽。
    facet_grid(onco ~ ., scales = "free", space = "free")
    space free

参考

  1. 微信:DAVID进行GO分析链接 已记入onenote-biosoft
  2. DAVID官网analysis tool help 链接
  3. deseq2 链接
  4. clusterprofiler link

你可能感兴趣的:(分析记录 | 差异分析和KEGG GO)