3.《Bioinformatics Data Skills》之可重复性与鲁棒性

创造有可重复与鲁棒性的数据分析习惯不仅关乎个人的科学素养,并且使得我们的科研道路更加轻松。

Fig. 1 The Turing Way project illustration by Scriberia. Zenodo. http://doi.org/10.5281/zenodo.3332807

可重复性(建议)

测序实验代价昂贵,难以进行重复,所以我们越来越多地依赖只进行计算机的重复性实验。然而生物信息数据分析的复杂性往往阻碍我们进行实验重复。为了进行可重复的数据分析实验,可以采用以下的措施:

  1. 分享数据与代码。现在很多杂志都要求或者提倡作者公开代码,尤其是代码作为实验的重要组成部分的情况。“Common errors are simple, simple errors are common”,公开代码就要求我们反复确认代码是否正确地生成了结果。
  2. 良好的记录习惯。糟糕的记录习惯使得实验重复难以进行。需要注意的是,除了数据与代码,数据与代码的版本同样非常重要,例如数据的版本与下载地址,不同的R版本下数据分析的结果可能会完全不同。额外描述数据的数据被称为“元数据”。良好的记录习惯也会提高实验的鲁棒性。

鲁棒性(建议)

生物信息数据分析不够鲁棒性的可能原因:

  1. 数据分析犯错误相比于湿实验来说可能会很不明显,并且生物信息数据分析的代码往往只会运行一次。相对比,游戏软件被开发出来后大量用户会对其进行测试以消除BUG。
  2. 我们对于大规模的基因组层面分析难以形成一个强烈的先验知识,比如说湿实验中一个基因表达丰度高于管家基因是很明显的异常现象,但是在基因组层面成千上万的数据量面前,我们很难形成一个先验知识来判定一个结果是好结果还是坏结果
  3. 生物信息学的软件可能只对某种情境有效,比如说软件通常只对人类有效而很少对模式生物有效,盲目使用很可能会造成错误。

生物信息学的一条金标准:

Never ever trust your tools (or data)

错误的数据只会带来错误的结果,需要保持一种谨慎的态度。当然也不要太过极端,我们在每一步处理数据后对结果进行必要的检查,拿到数据与软件后进行测试可以有效地减少不必要的错误。
或许错误是不可避免的,所以保持一颗可能会犯错的心态很重要。

你可能感兴趣的:(3.《Bioinformatics Data Skills》之可重复性与鲁棒性)