生信分析是个什么玩意儿?

生信小白:老板最近说,要搞搞高大上的全基因组测序,让我去做测序数据分析,可我都不懂哇...

生信猿:这不就是生物信息分析嘛,搭建集群,搭建流程,跑跑数据...

生信小白:听说你有一个朋友很厉害,可以让他教教我吗?

生信猿:你说的是西克孚肉吧,他可是生信方面的专家。我把他的名片给你了,你们好好交流吧。

生信分析是个什么玩意儿?_第1张图片

生信分析是个什么玩意儿?_第2张图片

生信小白:肉哥好,能跟我讲讲生信分析到底是个啥玩意儿吗?

西克孚肉:白白好,那我先跟你捋捋如何读取生命的密码吧。且听我慢慢道来...

Q:如何读取生命的密码?

西克孚肉:

DNA序列承载着控制生物性状的遗传信息,DNA是长链大分子,你以看看我身上穿的这件衣服,是一个小的DNA片段。DNA有四种碱基A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)。

生信分析是个什么玩意儿?_第3张图片

人类基因组有30亿个碱基对,可以理解为这是一本由30亿个ATCG字母构成的“书”。

生信分析是个什么玩意儿?_第4张图片

如何从这本书中翻译出生命的奥秘呢?目前主流的方法是使用二代测序来测整个人全基因组。按照经验,一个标准的人全基因组测序原始数据可以达到100GB。

二代测序技术是将DNA的长链分子随机打断,然后用化学方法一批批地将小片段DNA扩增和读取出来。

我们可以这样简单理解:

生信分析是个什么玩意儿?_第5张图片

测序相当于将生命之“书”投进碎纸机,变成了一条条碎纸片段(序列打断),每个片段一般只有几百个字母。由于碎纸片段实在细碎繁多,可能遗漏某些重要片段,所以通常会把碎纸片复印(聚合酶链式反应,PCR)多份,再进行扫描(基于荧光标记dNTP的光学检测),把这些碎纸片段的字母读取出来。

生信分析是个什么玩意儿?_第6张图片

拿到这些扫描后的片段数据(短序列),我们需要用计算机去处理(生物信息分析),尽可能拼回原来完整的书,并寻找书中独特的词(基因变异)。然后去查字典(变异数据库),看看究竟这些词表达什么意思(信息注释)。

典型的生物信息过程包括:首先去掉质量不高、破损严重的短序列数据(质量控制 Quality Control/Filtering),然后完成基因组比对/组装( Mapping/Assembly),进而寻找基因变异(Variant Calling)。

从大体量的数据中,找到基因突变信息,这就是生物信息分析的工作。

生信分析是个什么玩意儿?_第7张图片

生信小白:听你这么一说,我大致明白了生物信息分析是在做什么的了,但我应该如何上手呢?

西克孚肉:别急,一步步来嘛,干我们这行的,没点“家伙”怎么行?

 

Q:生信分析的工具有哪些?

西克孚肉:

生物信息的工具有很多,主要是:bwa,samtools,picard,GATK,bedtools,bcftools,vcftools,FastQC,MultiQC,VEP等等,GATK是目前被广泛使用和认可的分析软件 。

通常来讲,一个成年人的变异大概有两百多万个,但对于特定的疾病,可能只有几个或几百个有意义的,突变的寻找有如大海捞针。幸运的是,我们并不是漫无目的地寻找,我们可以借助一些公开的数据库,来过滤掉不相关的信息

生信分析是个什么玩意儿?_第8张图片

生信小白:肉哥你这讲解深入浅出,我觉得老板交代给我的任务已经完成了一大半...

生信分析是个什么玩意儿?_第9张图片

 

西克孚肉:不着急,这只是一个开始噢。我们将在这一系列的连载,来告诉你生信分析需要做些什么。

你可能感兴趣的:(生信分析是个什么玩意儿?)