「学转录组入门生信」四周实战总结

在四周之前,我写了一篇推送一个月能通过转录组入门生信吗?,于是开启了我的‘四周通过实战入门转录组’计划。现在四周结束了,我对这个计划进行一个阶段性的总结。

答疑解惑

首先要感谢在过去的四周里,30多位加入了我们的付费答疑群的小伙伴。因为他们的支持,让我和我的另一个小伙伴能够坚持下去,当然我们也尽心尽力地回答了他们提出的疑问。举几个例子,

「学转录组入门生信」四周实战总结_第1张图片
例1
「学转录组入门生信」四周实战总结_第2张图片
例2
「学转录组入门生信」四周实战总结_第3张图片
例3

学习计划

在四周时间里,我们制定了每一周的学习计划,这里也分享给有需要,愿意自己花时间去检索遇到问题的小伙伴。

第一周的目标是配置环境,学习路径如下

1. 导读视频(可不看): 「学转录组入门生信」我们为什么需要用到Linux环境_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
2.1 Windows 配置WSL: 「转录组入门生信」在Windows10上配置一个Linux环境_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
2.2 MacOS配置环境: 「学转录组入门生信」Mac用户应该如何正确配置生信分析环境_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
3. 学习基础的Linux命令
4. 学习Vim: 「生信基础课」学习Linux下vim进行文本编辑_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
5. 使用miniconda配置环境: 「学转录组入门生信」如何用conda安装分析需要的软件_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
6. 使用wget/curl/prefetch下载数据: 「学转录组入门生信」如何在Linux的终端里下载生物信息学数据_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

学有余力:
1. 整理conda安装的软件的软件说明书
2. 明确不同版本基因组序列的差别
3. 理解基因组序列和注释文件之间的关系
4. 了解Linux的管道符号"|"和管道命令

第二周的目标是基于二代测序获得表达量矩阵,学习路径如下
1. 总结常见数据格式: https://www.bilibili.com/video/av59481324
2. FastQ数据质量控制: https://www.bilibili.com/video/av59513720
3. 获取/建立索引: https://www.bilibili.com/video/av59769386
4. 数据比对: https://www.bilibili.com/video/av59772790
5. 基因/转录本定量: https://www.bilibili.com/video/av60006241
6. multiqc整合上游分析质控信息: https://www.bilibili.com/video/av60006455

最终目标是拿到4个样本的表达量矩阵

学有余力:
1. 整理和转录组质控相关文献
2. 了解不同转录组测序技术(miRNA-seq, lncRNA-seq)的FastQC展示结果

第三周根据表达矩阵获取差异基因分为两个阶段

第一阶段:R语言入门

本周我们需要学习如何安装R语言以及如何入门,随后我们需要学习R语言的基础命令和数据类型,接着我们学习如何安装R包,查阅帮助文档;同时我们需要学习如何使用R project管理我们的项目,整合我们的数据,最后在DEseq2包的帮助下,我们使用上周学习获得的表达矩阵计算得到差异基因:

  1. R语言简介及R&Rstudio安装
    • 什么是R,为什么要用R
    • R语言下载安装
    • IDE的作用,Rstudio初识
    • 在线资源,博客资源
  2. R语言基础
    • 熟悉Rstudio的操作界面
    • R语言的基本命令学习
    • 设置R的启动环境
    • CRAN镜像设置
    • 文件的读入和写出
  3. R语言入门
    • R语言的数据类型与数据结构
    • R包学习及安装
    • 后续需要用的包简介及安装
      • Tidyverse, Deseq2, ClusterProfile, biomaRt
    • 创建脚本与保存
    • R project的使用

第二阶段:R包使用及进阶学习

  1. 使用Deseq2包分析RNA-seq数据得到差异基因
    • 读入数据,创建phone type数据,构建dds对象
    • 得到分析结果,过滤差异基因
  2. 练习
    1. 试着使用R语言求一个数列中的最小值
    2. 构建一个随机矩阵,使用FPKM的计算公式理解FPKM

第四周根据差异基因进行富集分析及解读。本周的学习简单来说可以分为两个阶段:

第一阶段:一代富集分析——GO和KEGG

  1. 使用biomaRt包注释差异基因信息
    • FPKM的计算
    • 理解gene id
    • 转化ENSEMBL id到gene symbol及gene features
    • org.**.eg.db包的学习
  2. 使用ClusterProfile包对差异基因进行富集分析
    • ClusterProfile学习
    • Over Representation Analysis简介
    • ORA算法简介
  3. GO、KEGG分析及结果解读
    • 数据库解读
    • 构建orgdb
    • 富集结果解读
    • 作图及导出
  4. ggplot2包初识
    • ggplot2模仿clusterProfiler作图

第二阶段:二代富集分析——GSEA

  1. 输入文件的格式解读与构建
    • Expression dataset file (res, gct, pcl, or txt)
    • Phenotype labels file (cls)
    • Gene sets file (gmx or gmt)
    • Chip (array) annotation file (chip)
  2. GSEA参数的选择与基因集的构建
    • Molecular Signatures Database学习
    • GSEA下载和界面操作
    • 参数的选择(通俗解读)
  3. 常见报错原因解读
  4. 结果解读
    • NES
    • FDR value
  5. 生物学意义解析
    • 数据库的选择
    • 没有对应物种数据库时的选择

资料分享

这次课程,我们原计划是录制简单的操作视频(不带讲解),但是目前来看,一不小心就超出了预期,

上游处理:https://space.bilibili.com/249108235

上游分析

下游分析: https://space.bilibili.com/6447454/

「学转录组入门生信」四周实战总结_第4张图片
下游分析

对于课程用到的资料和数据,我上传了部分到百度云盘上,链接是 https://pan.baidu.com/s/1rg98EWrZXIRUHcfElTkhjg 密码:x0ek 。余下的部分是代码和一些PDF课件,我整理到加入付费答疑群赠送的知识星球,后续会慢慢更更新到百度盘。

如何参与

有两种方式,一种是跟着我们上面的视频和学习计划,遇到的问题都可以通过搜索引擎来解决,我就是这样子入门生信,但是在初期会比较痛苦,有些时候甚至都不知道自己想要问什么问题。

另一种是我们提供了一个收费答疑群,定价为299,解答实战过程中你会遇到的问题。

加群方式,扫描二维码加我好友,之后转账299,我拉你进学习群(上一期学员由于时间原因没时间跟着进度学习,希望重新开始新的四周,可以直接和我说下)。

「学转录组入门生信」四周实战总结_第5张图片
转录组答疑群

你可能感兴趣的:(「学转录组入门生信」四周实战总结)