可视化是一门很深的学问,详解:[link]https://mubu.com/doc/3L0wkgGUVg 这里仅仅是出题30个,引导大家进入该领域!
这里仅仅是针对一个数据集,就是r包airway并且通过assay函数拿到其表达矩阵。
关于 airway 代码如下,需要理解:
options(stringsAsFactors = F)
library(airway)
data(airway)
# 这里需要自行学习bioconductor里面的RangedSummarizedExperiment对象
airway
RNAseq_expr=assay(airway)
colnames(RNAseq_expr)
RNAseq_expr[1:4,1:4]
# RNAseq_expr 是一个数值型矩阵,属于连续性变量,可以探索众数、分位数和平均数 ,极差,方差和标准差等统计学指标
RNAseq_gl=colData(airway)[,3]
table(RNAseq_gl)
是 8个样本的RNA-seq数据的counts矩阵,这8个样本分成2组,每组是4个样本, 分别是 trt 和 untrt 组。
通过上面的代码,我们得到了对airway数据集的RNA-seq数据的counts矩阵,命名为 RNAseq_expr 下面会用得到。
基础绘图
Q1: 对RNAseq_expr的每一列绘制boxplot图
Q2: 对RNAseq_expr的每一列绘制density图
Q3: 对RNAseq_expr的每一列绘制条形图
Q4: 对RNAseq_expr的每一列取log2后重新绘制boxplot图,density图和条形图
Q5: 对Q4的3个图里面添加 trt 和 untrt 组颜色区分开来
Q6: 对RNAseq_expr的前两列画散点图并且计算线性回归方程
Q7: 对RNAseq_expr的所有列两两之间计算相关系数,并且热图可视化。
Q8: 取RNAseq_expr第一行表达量绘制折线图
Q9: 取RNAseq_expr表达量最高的10个基因的行绘制多行折线图
Q10: 一行行的运行 [link]https://github.com/jmzeng1314/5years/blob/master/learn-R/tasks/2-chunjuan-600.R 代码
GGPLOT绘图
Q1-9:使用ggplot代码重写上面基础绘图的Q1-9习题
Q10: 一行行的运行: [link]http://biotrainee.com/jmzeng/markdown/ggplot-in-R.html 代码
生物信息学绘图
需要参考 [link]https://github.com/jmzeng1314/GEO/blob/master/airway_RNAseq/DEG_rnsseq.R
Q1: 一行行的运行:[link]https://github.com/jmzeng1314/5years/blob/master/learn-R/tasks/top50ggplot.Rmd 代码
Q2: 对RNAseq_expr挑选MAD值最大的100个基因的表达矩阵绘制热图
Q3: 对RNAseq_expr进行主成分分析并且绘图
Q4: 对RNAseq_expr进行差异分析并且绘制火山图
Q5: 对RNAseq_expr进行差异分析并且绘制(平均值VS变化倍数)图
Q6: 绘制其中一个差异基因在两个分组的表达量boxplot并且添加统计学显著性指标
Q7: 通过org.Hs.eg.db包拿到RNAseq_expr所有基因的染色体信息,绘制染色体的基因数量条形图
Q8: 在上面染色体的基因数量条形图并列叠加差异基因数量条形图
Q9: 在oncolnc网页工具拿到GUL5基因在BRCA数据集的表达量及病人生存资料自行本地绘制生存分析图
Q10: 在xena网页工具拿到GUL5基因在BRCA数据集的表达量及病人的PAM50分类并且绘制分类的boxplot