荣耀归于上帝,版权归于bbsunchen。本文部分翻译自Bioinformatics.For.Dummies的第14章,加入作者经验,改动较大,不喜误入。
本文讨论的主要问题:
1.确保你不会泄漏保密的数据
2.保证你自己可以重复你的工作
3.选择合适的数据
4.确保保存了重要的文件
我从未给别人世界末日的感觉,我告诉他们真相,他们认为那就是世界末日。--Harry S.Truman(1884-1972)
有时候,我们在Internet上运行生物信息学程序时,会幻想这种情景:我们可以随意运行我们想要运行的程序,不需要更新或者维护数据库,如果服务器崩溃了,只要换一台服务器就行了。在网页上,事情简单到我们都不需要知道我们正在干什么,只要一路狂点鼠标,然后我们需要的结果就会出现在屏幕上。而在做这些事情的时候,我们还可以一边听歌一边看电影。
如果真的是这样,那就太好了。可是当我们真的开始使用生物信息学工具时,我们可要特别小心,不然世界末日可就真的来临了。要知道,在科学领域,最好的情景是:出现好的并且正确的结果。
接下来的一些建议,可以让你的工作更舒服一些。如果你真的很想产生可以信赖的结果。
一、记住,你的数据提交到网络上就永远是不安全的。
当你向服务器提交一条序列信息是,你就不再拥有这条序列了。在offline的时候,你可能会获得一些出错信息,但是在Internet上,你永远也别想,你的submission会是安全的。
我们也许回想,谁会闲的没事干扰我提交的数据,或者谁会吃饱了撑的拦截我的数据,不过还真是有那么一帮吃饱了没事干的人,就是想捣乱。所以,为了你的结果考虑,能在本地跑的程序,就别提交到别人的服务器上跑。
二、把服务器,数据库和你运行的程序的版本号都记录下来。
如果你在两个不同的服务器上,运行你的程序(比如ClustalW),并不意味着你把同样的事情干了两次。服务器的硬件配置,或者程序的版本号,都可能不同。所以,如果你在论文里面写“我在本地运行了ClustalW”,就太不专业了。别的研究人员可重复不了你的工作。
为了表现得专业一点,你最好随时记录你的服务器名称(这里指网络上的服务器),还有你程序的版本号。比如,ClustalW1.77和ClustalW1.81的运行结果就很可能不一样。你要是不知道ClustalW是啥...唉
如果你的程序(比如BLAST)用了一个数据库(比如Swiss-Prot),你要把数据库的名字和版本号都记录下来。
服务器一般都会变,更新升级是常有的事儿。据统计,平均6个月就会发生这种事情。
三、把数据的Identification Numbers或者ID,AC号都记录下来。
一般AC(Accession)号都不会变,但是ID(Identification)号在不同的数据库中会发生变化。
四、记录下来程序运行的参数
简单点说,就是你要把默认参数和你改动的参数都记录下来。上面都说了,版本号变化了,默认参数也可能变啊。
简单的记录方式就是截屏,如果不会请看下面一条。
五、要是在网络上运行出来的结果,马上就要保存。
这一条基本是废话,不过重点是你要考虑好你的结果是保存成文本文件,还是截个屏保存就完事儿。
不过我很诧异的是,原书仔细地说明了各种保存数据的方法,我这里把截屏步骤翻译过来,看来学生物的还真有计算机白痴。
1.按键盘上的PrntScrn键,或者“印屏幕”键。
2.把微软的画图工具打开,具体步骤是:开始->程序->附件->画图工具
3.按Ctrl+V,如果出现对话框就按“是”。
4.保存或者打印。
如果保存成jpg图像,那你的图像质量就被压缩了。
最后强调一下,结果最好保存成文本文件。
六、使用E-value
你做一次实验得到一个数据结果Result以及一个E-value(expectation values),那个E-value告诉你产生这个Result多大程度上是因为随机性造成的。原话是:
E-value tell you how many times a result as good as the one you're looking at could have been reached by chance alone.这句话之所以打出来,是因为以后出国面试也许用得到。 by chance alone是亮点。
E-value本身没有什么生物学意义,但是他一旦和生物学数据联系起来了,就有了生物学意义。
E-value越小越好。专业一点说就是,E值越小,结果越显著。
七、使用生物信息学工具之前,好好读一下说明文档。
最起码你自己弄出来的结果你自己要相信,可以和周围的人交流一下使用经验,一般同实验室的师兄师姐是最好的询问对象。个人觉得进一个实验室,要多问师兄师姐问题。
八、重要的结论性数据,要用不同的程序验证。
打个比方说,ClustalW的结果,用Phylip验证一下。
九、没发表的方法不要用。
不是说不让你尝试新的方法,但是如果一个方法没有发表,最好还是别用。如果方法的原理你不理解,也别用。
十、数据库不像红酒
额,这句话的意思就是,数据库放时间长了,就不好了。每次运行程序最好自己上网下载新的数据,而不要用别人下好的数据。可能别人下的数据版本已经很老了。
最后,要注意哪些免费的资源,如果你是为公司做事情。那些免费的资源有可能不免费。所以你要关注资源发布的协议。比如GPL协议神马的。如果不了解就google一下吧。