RNA-seq小考核

按照我们带领10万人入门生物信息学的经验来看,RNA-seq基础数据分析无疑是最适合初学者的,我们划分好了8个部分:[link]https://mp.weixin.qq.com/s/UudD1ZhKaFPvwugUBL7z3A 而且也有完整的视频学习资料:

  • 代码参考: [link]https://www.jianshu.com/p/a84cd44bac67
  • 视频教程见: [link]https://www.bilibili.com/video/av28453557
    所以我们的RNA-seq小考核也是基于此!

Q1: 参考基因组及注释文件下载地址

列出人,小鼠,拟南芥的基因组序列,转录组cDNA序列,基因组注释gtf文件下载地址

Q2: 找到文章的测序数据

2018年12月的NC文章:Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing[link]https://www.nature.com/articles/s41467-018-07582-3使用成熟的单细胞转录组( Smart-seq2 )手段探索了癌相关的成纤维细胞 CAFs的功能和空间异质性。

Q3:下载测序数据

主要是理解GEO链接:GSE111229和原始测序数据:SRP133642两个链接

Q4: 任意挑选6个样本走标准的RNA-seq上游流程

即 sra → fastq→bam→counts
注意每个步骤的质控细节,注意每个步骤的文件格式转换背后的生物学意义。
代码参考在:code[link]https://github.com/jmzeng1314/scRNA_smart_seq2/blob/master/shell.txt

Q5: 理解RNA-seq上游流程得到的表达矩阵的多种形式

包括 每个基因比对到的reads数量的counts矩阵,以及去除了每个细胞测序数据量(文库大小)差异后的 rpm 矩阵,以及去除了基因长度效应的 rpkm矩阵,以及最近比较流行的tpm 矩阵

Q6: 任取6个样本表达矩阵随意分成2组走差异分析代码

代码参考:[link]https://github.com/jmzeng1314/GEO/tree/master/airway_RNAseq
需要汇总PCA,heatmap,火山图,MA图,CV图等等

Q7:挑选差异分析结果的统计学显著上调下调基因集

在R里面,对统计学显著上调下调基因集,进行GO/KEGG等数据库的超几何分布检验分析,原理参考:[link]https://mp.weixin.qq.com/s/M6CRe39xmQ_lSQqeM99kow

Q8: 直接对任取6个样本表达矩阵做GSVA分析

参考代码:[link]https://github.com/jmzeng1314/GEO

本文作者:生信技能树团队

你可能感兴趣的:(RNA-seq小考核)