Biostar学习第一周笔记

如“为什么学习生物信息学”这篇笔记所言，“二十一世纪是生命科学的世纪”，随着基因测序技术以及多种组学（其中包括基因组、蛋白质组等）技术的不断发展，生物数据迅速增长，对于这些数据的解读却已进入瓶颈期。如何来对这些数据进行合理、有效的分析和解读，就是生物信息学要做的事情。

一名合格的生物信息学从业人员，首先要懂CS，然后还要懂生物学知识，还需要懂测序的原理。计算机相关的技能主要包括Linux基本操作（会高级操作更好），R语言必须掌握，Python是目前生信领域主流的编程语言。其他编程语言如C、C++、perl等，可以锦上添花，但是作为初学者，需要集中精力在最短的时间内最高效的学习，推荐首先从Linux、R和Python入手。我也是新手，我也是这么做的。对于生物学知识，尽管本人医学专业出身，但是有很多基础知识也需要补，建议把遗传学书好好翻翻，基因的各个功能分区、外显子、内含子、UTR、motif等等一系列专业名词，还需要了解怎么和测序数据进行对应。测序原理就相对简单咯，多看看Illumina、PacBio官方的教学视频，重点理解测序原理。

生信分析电脑硬件配置，自行百度解决吧，就不重复造轮子了。以下是一些可供参考的网址：

生信初学者如何优雅地组装一台属于自己的工作站

学习生物信息学，需要怎样配置的电脑？

软件配置，能用conda搞定的就用conda，conda不提供的，就参考官方教程安装咯。

为了保证结果的可重复性，可以从以下几个方面下功夫：1. 原始数据的注释、留存，这个是最基本的工作，加注释有助于以后对原始数据进行查找，要有MD5值记录，数据传输过程中也有可能出现丢包情况；2. 原始数据清洗过程的代码以及使用软件的版本，要详细记录，不同版本以及不同代码参数处理得到的clean data可能会有差异，而且这些差异会一级一级传递；3. 数据分析的pipeline，要详细记录，包括代码以及使用软件的版本，对于代码要进行注释，有助于自己和同事理解代码都做了什么工作，也可以在后期的debug中有帮助。记录、注释代码也是实现可重复性的一项重要内容。未经注释的代码，就像一团乱麻，虽然自己可以解开这团乱麻，还是需要浪费自己和同事宝贵的时间。

遇到问题，提炼成中英文关键词，然后谷歌必应加百度，一般来说，经过这一步，90%以上的问题都可以得到解决。如果有一些三个搜索引擎都搜不到答案的话，就需要找学习小组或去网上发帖求助了。

我也是生信菜鸟，进步空间很大，希望和大家共同学习，共同进步！

Biostar学习第一周笔记

你可能感兴趣的:(Biostar学习第一周笔记)