差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案

 

最近看到读者留言说在差异表达分析导入矩阵是提醒row name重复,现在就这一问题解释原因和最简单的解决方案。

原因:探针和基因是多对一的关系,比如A和B都可能是指向基因AB。在一般的基因芯片的表达矩阵中,用探针表示的表达矩阵不存在行名重复问题。但是如果先注释成gene symbol,则可能不同行的探针注释成同一个gene symbol。这个时候如果还是用转换后的矩阵进行差异分析,在导入R的时候就会提醒row name充分,这是由于R的规则将行名视为唯一标识符,如果由两个行具有相同的名称,在使用行名取数据的时候,R就不知道需要的是哪一行。

解决方案:通常情况下将不同探针获得的gene symbol按照一定规则合并成一行即可。可以使平均数、中位数、最大值、最小值等,根据自己的需求决定。这个操作可以在R中完成,但是需要一定的编程基础。下面以求平均数为例演示如何使用Excel合并相同的行。

1. 这是一个带有重复行名的表达矩阵,只有一个样本。

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第1张图片

2.新建一个sheet并点击左上角的透视表

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第2张图片

3.出现对话框后回到sheet1选择范围

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第3张图片

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第4张图片

4.在sheet2中勾选需要的列

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第5张图片

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第6张图片

5.双击求和项(B1)在新的对话框中选择平均值,这样名称相同的行就会按照平均值对每个样本进行计算

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第7张图片

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第8张图片

6.需要说明的是,这种方法可能造成一些gene symbol被识别称日期。不过总的来讲对编程较弱的从业者仍是一种可用可靠的方法。

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案_第9张图片

7.将转换后的矩阵导入R就不会出现问题了。

 

GEO芯片数据差异表达分析时需要log2处理的原因

https://blog.csdn.net/tuanzide5233/article/details/88542805

GEO芯片数据差异表达分析时是否需要log2以及标准化的问题

https://blog.csdn.net/tuanzide5233/article/details/88542558

差异表达矩阵制作教程

https://blog.csdn.net/tuanzide5233/article/details/83659768

差异表达的热图绘制详见

https://blog.csdn.net/tuanzide5233/article/details/83659501

使用edgeR对RNAseq数据进行差异表达分析教程

https://blog.csdn.net/tuanzide5233/article/details/88785486

差异表达分析(DEG)时 row.names'里不能有重复的名字 的解决方案

https://blog.csdn.net/tuanzide5233/article/details/86568155

生存分析系列教程(一)使用生信人工具盒进行生存分析

https://blog.csdn.net/tuanzide5233/article/details/83685403

富集分析与蛋白质互作用网络(PPI)的可视化 Cystocape入门指南

https://blog.csdn.net/tuanzide5233/article/details/88048439

进阶版Venn plot:Upset plot入门实战代码详解——UpSetR包介绍

https://blog.csdn.net/tuanzide5233/article/details/83109527

使用R语言ggplot2包绘制pathway富集分析气泡图(Bubble图):数据结构及代码

https://blog.csdn.net/tuanzide5233/article/details/82141817

你可能感兴趣的:(R,生物信息学)