继续反思：如何才能入门生信？

继我前几天的文章彻夜反思：我为什么总是学不好生信？之后，我认为有必要去搞清楚，为啥我真的学不会生信，以及到底需要怎么样才能学会生信。于是乎，我认真观看了卖萌哥给我的推荐，信息如下：
平台：B站
up主：鲮鱼不会飞（孟浩巍老师）
题目：2020-02-08-生信入门的经验分享

为什么学起来这么困难？

缺乏对生信整个框架的认知

我对生信的理解就是，整理数据，然后画图。因此，一直是从数据整理下手，然后学别人的画图代码。当然也会跟着别人的项目pipeline走，但是出了既定的框架外，我就会非常的迷茫。一直以来，我在生信上所做的努力就是：
（1）学习基本的linux操作，掌握一套数据分析流程，比如RNA-seq；
（2）学习基本的测序知识，比如illumia的测序原理；
（3）重头戏：学习R语言基础，以及转录组数据分析流程。

我在完成上面学习之后，我发现一些很重要的问题：
（1）内心没有标准，对数据的质量没有把控，例如：我可能知道RNA-seq的QC结果最重要的是几个quality的项目，但是却不知道为什么。每次我拿到QC报告，总要问一下别人，我这个adapter的检测没有通过，影不影响后续的数据分析？一般得到的回复就是，咱们主要看看Q30等等，其他不是很重要。这背后真正的原因，其实是不清晰的，这就让我感觉很模糊，没有掌控感；
（2）我可能知道TPM比RPKM和FPKM好像现在用得更多，大约知道一些原因，但是我并不知道RPKM是FPKM的2倍，以及它的原因；
（3）我可能会重复R语言的代码，但是我还是不知道为什么要做某些数据转换，做与不做到底有啥区别？做到怎么样才是对自己的数据负责，得到合理的结果。
出现以上原因是因为，我对测序原理没有掌握好，对每一个步骤的测序数据的由来和作用并不清晰；其次是对于不同工具的理解仍然不够，统计学知识也严重不足。

学生信应该掌握什么？

首先需要认识到，生物信息学是要用计算机技术去解决大数据，并且结合生物学背景来筛选出有意义的数据。因此，生信要结合计算机+生物背景知识，同时还需要有统计学知识，在这里孟老师讲解得非常清晰：

image.png

（1）linux操作能力：在这里他仅仅提到了操作系统的能力，而我认为至少还要理解每一步骤的数据结构和意义，以及不同的数据能提供给我们的信息。你需要非常努力，才能看起来毫不费力。在这里他推荐了罗老师的30个linux基本操作命令（带有相应的习题）。
（2）编程能力：这是我一直都未曾掌握的东西，对于半自助应用的我来说，一开始给我的定位就是不需要掌握编程能力，只要学好linux还有R语言即可。可是会编程的人用linux和不会编程的人是完全不同的感觉，在这一点上虽然我不是很着急，但是必须要有所学习。这里提到的是Python，C，C++，Java等东西。
（3）统计能力：这是我也一直忽略的，我认为R语言本身就有一套流程，我是用工具的人，我不需要去理解工具是怎么制作的，然而事实上是，我还得明白工作是怎么运作的，以及工具是要如何选择。因此在后续方面要保持对基本统计学知识的掌握。
（4）生物能力：这里我就不谈了，作为一个生物学基本研究人员，这是必备的素养。

孟老师推荐的半自助学习生信流程

半自助的意思是，只是分析数据--而后画图。全自助是还要在算法等等方法做一系列的努力。

image.png

（1）linux学习：罗老师3个文件，1-2天；
（2）统计学学习：《医学统计学》漫长3个月，当然他在视频中还有其他的推荐以及对统计学必备知识框架；
（3）测序基础：illumia的视频（我看过不少），但仅仅是视频是不够的，这其中还有很多细节需要去夯实，大约1周时间；
（4）选择1篇文章，重复结果。

这里提出：上游几乎一样，下游则是对BAM文件的处理，并且他在知乎上有很多对于细节问题的解答，所以我打算过去看一波

image.png

结语：怎么说呢，我看生信入门相关视频不算多也不算少，在生信的门口徘徊至少也有1年的，当然不可以否认这一年的努力，而正是这一年的努力，让我能看得下这样的教学视频，并且可以得到一定的领悟。相信学习是一个缓慢爬坡的过程，总有迷惑的时候。我们尽量记录下自己作为小白的心情，希望能为后来的人提供一些帮助，少走一些弯路。

继续反思：如何才能入门生信？

为什么学起来这么困难？

学生信应该掌握什么？

孟老师推荐的半自助学习生信流程

你可能感兴趣的:(继续反思：如何才能入门生信？)