生物信息学工具使用的经验之谈

 

 

荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验,改动较大,不喜误入。

 

本文讨论的主要问题:

1.确保你不会泄漏保密的数据

2.保证你自己可以重复你的工作

3.选择合适的数据

4.确保保存了重要的文件

 

我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Harry S.Truman(1884-1972)

 

有时候,我们在Internet上运行生物信息学程序时,会幻想这种情景:我们可以随意运行我们想要运行的程序,不需要更新或者维护数据库,如果服务器崩溃了,只要换一台服务器就行了。在网页上,事情简单到我们都不需要知道我们正在干什么,只要一路狂点鼠标,然后我们需要的结果就会出现在屏幕上。而在做这些事情的时候,我们还可以一边听歌一边看电影。

 

如果真的是这样,那就太好了。可是当我们真的开始使用生物信息学工具时,我们可要特别小心,不然世界末日可就真的来临了。要知道,在科学领域,最好的情景是:出现好的并且正确的结果。

 

接下来的一些建议,可以让你的工作更舒服一些。如果你真的很想产生可以信赖的结果。

 

一、记住,你的数据提交到网络上就永远是不安全的。

当你向服务器提交一条序列信息是,你就不再拥有这条序列了。在offline的时候,你可能会获得一些出错信息,但是在Internet上,你永远也别想,你的submission会是安全的。

我们也许回想,谁会闲的没事干扰我提交的数据,或者谁会吃饱了撑的拦截我的数据,不过还真是有那么一帮吃饱了没事干的人,就是想捣乱。所以,为了你的结果考虑,能在本地跑的程序,就别提交到别人的服务器上跑。

 

二、把服务器,数据库和你运行的程序的版本号都记录下来。

如果你在两个不同的服务器上,运行你的程序(比如ClustalW),并不意味着你把同样的事情干了两次。服务器的硬件配置,或者程序的版本号,都可能不同。所以,如果你在论文里面写“我在本地运行了ClustalW”,就太不专业了。别的研究人员可重复不了你的工作。

 

为了表现得专业一点,你最好随时记录你的服务器名称(这里指网络上的服务器),还有你程序的版本号。比如,ClustalW1.77和ClustalW1.81的运行结果就很可能不一样。你要是不知道ClustalW是啥...唉

 

如果你的程序(比如BLAST)用了一个数据库(比如Swiss-Prot),你要把数据库的名字和版本号都记录下来。

服务器一般都会变,更新升级是常有的事儿。据统计,平均6个月就会发生这种事情。

 

三、把数据的Identification Numbers或者ID,AC号都记录下来。

 

一般AC(Accession)号都不会变,但是ID(Identification)号在不同的数据库中会发生变化。

 

四、记录下来程序运行的参数

 

简单点说,就是你要把默认参数和你改动的参数都记录下来。上面都说了,版本号变化了,默认参数也可能变啊。

 

简单的记录方式就是截屏,如果不会请看下面一条。

 

五、要是在网络上运行出来的结果,马上就要保存。

 

这一条基本是废话,不过重点是你要考虑好你的结果是保存成文本文件,还是截个屏保存就完事儿。

不过我很诧异的是,原书仔细地说明了各种保存数据的方法,我这里把截屏步骤翻译过来,看来学生物的还真有计算机白痴。

1.按键盘上的PrntScrn键,或者“印屏幕”键。

2.把微软的画图工具打开,具体步骤是:开始->程序->附件->画图工具

3.按Ctrl+V,如果出现对话框就按“是”。

4.保存或者打印。

如果保存成jpg图像,那你的图像质量就被压缩了。

 

最后强调一下,结果最好保存成文本文件。

 

六、使用E-value

你做一次实验得到一个数据结果Result以及一个E-value(expectation values),那个E-value告诉你产生这个Result多大程度上是因为随机性造成的。原话是:

E-value tell you how many times a result as good as the one you're looking at could have been reached by chance alone.这句话之所以打出来,是因为以后出国面试也许用得到。 by chance alone是亮点。

 

E-value本身没有什么生物学意义,但是他一旦和生物学数据联系起来了,就有了生物学意义。

E-value越小越好。专业一点说就是,E值越小,结果越显著。

 

七、使用生物信息学工具之前,好好读一下说明文档。

最起码你自己弄出来的结果你自己要相信,可以和周围的人交流一下使用经验,一般同实验室的师兄师姐是最好的询问对象。个人觉得进一个实验室,要多问师兄师姐问题。

 

八、重要的结论性数据,要用不同的程序验证。

打个比方说,ClustalW的结果,用Phylip验证一下。

 

九、没发表的方法不要用。

不是说不让你尝试新的方法,但是如果一个方法没有发表,最好还是别用。如果方法的原理你不理解,也别用。

 

十、数据库不像红酒

额,这句话的意思就是,数据库放时间长了,就不好了。每次运行程序最好自己上网下载新的数据,而不要用别人下好的数据。可能别人下的数据版本已经很老了。

 

最后,要注意哪些免费的资源,如果你是为公司做事情。那些免费的资源有可能不免费。所以你要关注资源发布的协议。比如GPL协议神马的。如果不了解就google一下吧。

 

你可能感兴趣的:(工具,经验,bioinformatics)