有一些基因的symbol很奇怪,真百思--不得姐呀!比如:
纯字母开头
C orf 系列基因,
HS.系列基因,
KRTAP系列基因,
LOC系列基因,
MIR系列基因,
LINC系列基因
它们往往一个系列,就有好几百个基因,
C12orf44; Chromosome 12 Open Reading Frame 44; 这个是C orf系列基因的意思
MIR系列基因应该是 miRNA相关的基因
LINC系列基因应该就是long intergenic non-protein coding RNA
OC系列基因,是非正式的,推定的,日后可能被更合适的名字替代
还有一些RNA基因,根本就没有symbol,比如:
CTA/B/C/D-系列的 - Aliases for ENSG00000271971
Gene- CTD-2006H14.2 5 - External Ids for ENSG00000271971
Gene - Ensembl: ENSG00000271971
还有,如果你看到HS.开头的基因,它是unigene的ID了,已经不再是symbol啦。
当然了,本来就有很多基因家族里面的成员的名字就很类似,也可以理解哈。
关于非编码蛋白的基因
如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:
● 反义 (antisense,AS),BACE1-AS;
● 内含子(intronic,IT),例如,SPRY4-IT1;
● 重叠 (overlapping,OT),例如,OSX2-OT;
● 长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485。
如果你是Excel表格操作,你还有可能遇到日期基因:
2017年8月,三位科学家在《Genome Biology》期刊上发表论文,称他们发现20%的遗传学论文包含了MS Excel软件导致的基因名转换错误。他们对论文进行的扫描显示,科学文献中的基因名错误十分普遍,在默认设置下MS Excel软件会将基因的名字转换成日期或浮点数。举例来说,基因名字SEPT2 (Septin 2) 和MARCH1 [Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase] 会被分别转换成2-Sep和1-Mar;标识符2310009E1被转换成浮点数2.31E+13。
如何避免这种转换?
最简单的方法,新建Excel表,单元格全选,更改为文本格式,然后再导入数据。但这种方式不利于数字计算。
此外,Eric A. Welsh开发了一个小工具escape_excel以阻止这种转换,其原理十分简单,就是在原始数据前后加上引号。这项工作还在2017年发表到了Plos One上4,5。(不得不说,想发表文章,idea非常重要)
该工具提供在线版本,Windows系统下的Excel插件,Perl脚本和Galaxy访问接口,教程请参见作者Github6。
另外,在操作每一个文件前,请先留好备份,以免发生意外情况。
如果觉得以上方法都比较麻烦,那最好的操作就是用文本编辑软件查看喽!
-------------------------------------------------------------------------------------------------------------------------------------------------------------I'm a line ! Thanks for your attention !----------------------------------------------------------------------------------------------------------------
参考:
https://zhuanlan.zhihu.com/p/111382627
http://www.biotrainee.com/thread-908-1-1.html
https://www.jianshu.com/p/e9e078201b43