面向组学大数据的生物信息学研究

面向组学大数据的生物信息学研究

作者:杨帅

 

一.本文讲了什么?

本文主要讲了如何在生物信息学中利用组合大数据,因为我们有着庞大组学数据却不能好好利用。

组学大数据:组学主要包括基因组学,蛋白组学,代谢组学,转录组学,脂类组学,免疫组学,糖组学和 RNA组学等。各组学就是研究他们各自以及它们之间的关系,例如基因组学这门学科就是研究这些基因以及这些基因间的关系。组学大数据就是这些组学在生物医学等领域中的研究应用所收集到的庞大数据。

云计算技术:云计算是一种利用互联网即可随时随地、按需便捷访问共享资源池的模型;通俗来讲,计算变成了一种可以购买的资源,我们购买云计算资源,把我们的数据上传计算,计算好结果后再下载下来分析结果即可。

多组学整合:多层组学整合分析是指对来自不同组学的数据源进行归一化处理、比较分析,建立不同组间数据的关系,综合多组学数据对生物过程从基因、转录、蛋白和代谢水平进行全面的深入的阐释,从而更好的对生物系统进行全面了解。

癌症驱动基因:与癌症发生发展相关的重要基因称为驱动基因,驱动基因决定了这个癌症的最主要的原因。当驱动基因突变后,就会把癌细胞“驱动”起来。

 

二.如何利用组合大数据?

作者提出了两个途径来利用组合大数据:

1.以云计算技术为平台,构建分析蛋白质大数据的平台。方法:基于MapReduce框架的数据库搜索算法。作者还开发了一个基于云计算技术的蛋白质大数据分析呈现平台CAPER3。

2.以生物学网络为基础整合多组学数据来进行癌症驱动基因的鉴定。方法:基于KEGG通路的驱动基因鉴定方法,研发了基于生物学网络的多组学数据分析体系Bionexr。

 

三.方法的优点

云计算技术给生物信息学大数据处理体系带来计算灵活性,充分利用了云计算的弹性计算能力。

 

四.方法的缺点

网络宽带是有限制的,增加计算资源并不一定能使性能有相应的提升,因此不清楚使用多少的计算资源才最合适。

 

 

 

 

 

 

你可能感兴趣的:(数据挖掘,机器学习,算法)