奇奇怪怪的gene symbol

有一些基因的symbol很奇怪，真百思--不得姐呀！比如:

纯字母开头

C orf 系列基因，
HS.系列基因，
KRTAP系列基因，
LOC系列基因，
MIR系列基因，
LINC系列基因
它们往往一个系列，就有好几百个基因，

C12orf44; Chromosome 12 Open Reading Frame 44; 这个是C orf系列基因的意思
MIR系列基因应该是 miRNA相关的基因
LINC系列基因应该就是long intergenic non-protein coding RNA
OC系列基因，是非正式的，推定的，日后可能被更合适的名字替代

还有一些RNA基因，根本就没有symbol，比如：
CTA/B/C/D-系列的 - Aliases for ENSG00000271971
Gene- CTD-2006H14.2 5 - External Ids for ENSG00000271971
Gene - Ensembl: ENSG00000271971

还有，如果你看到HS.开头的基因，它是unigene的ID了，已经不再是symbol啦。

当然了，本来就有很多基因家族里面的成员的名字就很类似，也可以理解哈。

关于非编码蛋白的基因

如果有一个很接近的蛋白编码基因，lncRNA的名字应该以这个编码基因名字开始，然后制定以后后缀，这个后缀可以下方式分类：
● 反义（antisense,AS）,BACE1-AS;
● 内含子（intronic,IT）,例如，SPRY4-IT1;
● 重叠（overlapping,OT）,例如，OSX2-OT;
● 长链基因间lncRNA（Long intergenic lncRNAs，lincRNAs），以LINC为前缀，数字为后缀，例如LINC00485。

如果你是Excel表格操作，你还有可能遇到日期基因：

2017年8月，三位科学家在《Genome Biology》期刊上发表论文，称他们发现20%的遗传学论文包含了MS Excel软件导致的基因名转换错误。他们对论文进行的扫描显示，科学文献中的基因名错误十分普遍，在默认设置下MS Excel软件会将基因的名字转换成日期或浮点数。举例来说，基因名字SEPT2 (Septin 2) 和MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase] 会被分别转换成2-Sep和1-Mar；标识符2310009E1被转换成浮点数2.31E+13。

如何避免这种转换？

最简单的方法，新建Excel表，单元格全选，更改为文本格式，然后再导入数据。但这种方式不利于数字计算。

此外，Eric A. Welsh开发了一个小工具escape_excel以阻止这种转换，其原理十分简单，就是在原始数据前后加上引号。这项工作还在2017年发表到了Plos One上4,5。(不得不说，想发表文章，idea非常重要)

该工具提供在线版本，Windows系统下的Excel插件，Perl脚本和Galaxy访问接口，教程请参见作者Github6。

另外，在操作每一个文件前，请先留好备份，以免发生意外情况。

如果觉得以上方法都比较麻烦，那最好的操作就是用文本编辑软件查看喽！

-------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks for your attention !----------------------------------------------------------------------------------------------------------------

参考：
https://zhuanlan.zhihu.com/p/111382627
http://www.biotrainee.com/thread-908-1-1.html
https://www.jianshu.com/p/e9e078201b43

奇奇怪怪的gene symbol

纯字母开头

关于非编码蛋白的基因

如何避免这种转换？

你可能感兴趣的:(奇奇怪怪的gene symbol)