踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)

文章目录

  • GB_ACC转换成基因
    • 直接利用GEO分析
    • **GB_ACC的第二种方法(繁琐)**
  • 不允许有重复的'row.names'解决问题

GB_ACC转换成基因

直接利用GEO分析

在上个系列中,我们记住了 GB_ACC ,但制作热图,需要我们将其转换成基因名,如果你已经转换好了或者不需要制作热图,前参考后续系列。
方法1(推荐)

如下图示意,将GB_ACC转换成基因名。
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第1张图片
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第2张图片
上图选项框勾选后,就会出现对应的列在列表中,如下图勾选 GENE_SYMBOL后的效果。
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第3张图片
如此就可以实现GB_ACC与基因名的对应。

GB_ACC的第二种方法(繁琐)

我并不推荐这种方法,它十分的繁琐且对新手不友好,如果你是新手,请忽视掉它

在后面的文章中,如果特别指明(请忽视)说明是不重要无伤大雅的。

要复制的列:
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第4张图片
在复制选择的列之前,我们需要对它进行排序,这个非常重要
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第5张图片
再删除重复,如图
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第6张图片
之后打开David,
地址:https://david.ncifcrf.gov/
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第7张图片
由于我做的是人类基因,所以下图步骤3选择可能不同,请自己选择
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第8张图片
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第9张图片
之后我们可点击下载文件
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第10张图片
注意,有些GB_ACC是没有基因的,所以我们需要对下载的文件进行进一步排序。
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第11张图片
基因的排序(请忽视)
准备工具
Sublime Text,请自行下载

除如图所示外,其他全复制。
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第12张图片
先将文件贴到新的excel中,进行排序
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第13张图片

排序完成之后,再复制全部(ctrl + A全选,ctrl + C 复制)新建一个文本文档并用 sublime text打开,粘贴基因。
正则表达式

查询多个括号:
\(+[^\n]+\(
删除括号左右侧:
\)+[^\n]+\n
\n+[^\n]+\(

点击查询,找到查找和替换,然后逐个输入上方正则表达式(就是上面每行表达式,注意中文是注解行,就别输入了)替换成换行符(也就是写"\n",注意不带引号)。

一般来说括号内是基因,有的 基因说明 中,括号内不一定是基因,请在进行上面正则表达式操作之前,手动删除用括号括起来但里面又不是基因的文本(连带它的括号一起删了)

注意输入正则表达式顺序已排好,依次操作就好,别整错顺序了。
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第14张图片
上图注意按顺序点击。

踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第15张图片
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第16张图片
两个图示范了一个正则表达式的用法,请自行完成后续正则表达式的操作。
删除末尾多余文字
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第17张图片
删除开头多余文字
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第18张图片
之后全部复制贴回对应行即可,另存为csv文件,我们这里命名为GSE_HM
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第19张图片
总之,一定要注意排序,排序是都有的数据(这里是GB_ACC)

不允许有重复的’row.names’解决问题

在R studio中,我们发现输入以下代码可能报错:

df = read.csv("文件目录", header = T, row.names = 1)
不允许有重复的'row.names'解决问题

出错原因是数据格式不对,但这在网上很少解释清楚,常错的原因有以下几点:

	1.第一行有重复名
	2.CSV文件格式错误

原因1用Excel修改第一行重复名称即可。
我们介绍2如何解决,这里我们先用 sublime text (软件,自行下载)打开文件修改即可,(事实上,任何文本编辑器都可以)
我们需要分析的csv的数据格式如下:

	1. 每行末尾必须有英文符号的逗号
	2. 最后一行需要换行(即保留一行空白)
	3. 如果存在末行连续逗号,要删除,如图。
	4. 注意,开头没有空格

踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第20张图片
踩坑记录-GB_ACC转换基因-不允许有重复的‘row.names‘-R语言零基础基因/数据差异分析(三)_第21张图片
这样问题就基本解决了。

你可能感兴趣的:(R语言零基础基因/数据差异分析,r语言,数据分析,数据可视化)