O'Reilly精品图书推荐:数据算法:Hadoop/Spark大数据处理技巧

书名:数据算法:Hadoop/Spark大数据处理技巧

作者:Mahmoud Parsian 著

译者:苏金国 杨健康 等译

国内出版社:中国电力出版社

出版时间:2016年10月

页数:696

书号:978-7-5123-9594-7

原版书书名:Data Algorithms

原版书出版商:O'Reilly Media




破解基因组的奥秘实在是奥妙无穷,它把知识、思维方法和科技能力紧密融合在一起,将带来变革性的发展。不过,这种变革还需要联合和协同,而协同总少不了深层次的协作。从科学家到软件工程师,从学术界到企业界,我们需要通力合作,朝着基因主导的未来稳步前进。

人们开发了大量数据算法来分析大规模基因测序研究生成的庞大信息,这些数据算法的建立正是这个变革的关键。遗传变异形态各异,可能相当复杂,也可能是全新的,这就要求以一种有效的方式将遗传变异与个人的外在表现联系起来,才能建立并适当地应用临床视点。我们需要提升能力,能够针对更大的规模、跨种群地完成这个工作,这一点至关重要。这本书中提供的方法就像一个指南针,可以指导我们在这条路上顺利前行。

MapReduce、Hadoop和Spark是帮助我们大规模使用基因测序以及存储、处理和分析基因组“大数据”的关键技术。Mahmoud的这本书采用一种简明而实用的方式介绍了这些内容。本书就像一盏灯,为数据科学家、软件工程师以及临床医生照亮了破解基因组奥秘的道路,在这本书的帮助下,人类健康将进入一个讲求精确、个性化和转化的新纪元。

——Jay Flatley

Illumina公司CEO



内容简介


如果你准备深入研究MapReduce框架来处理大数据集,这本书非常实用,通过提供丰富的算法和工具,它会循序渐进地带你探索MapReduce世界,用Apache Hadoop或Apache Spark构建分布式MapReduce应用时通常都需要用到这些算法和工具。每一章分别提供一个实例来解决一个大规模计算问题,如构建推荐系统。你会了解如何用代码实现适当的MapReduce解决方案,而且可以在你的项目中具体应用这些解决方案。

本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。

本书的主要内容包括:

  • 完成超大量交易的购物篮分析。

  • 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。

  • 使用超大基因组数据完成DNA和RNA测序。

  • 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。

  • 推荐算法和成对文档相似性。

  • 线性回归、Cox回归和皮尔逊(Pearson)相关分析。

  • 等位基因频率和DNA挖掘。

  • 社交网络分析(推荐系统、三角形计数和情感分析)。


作者介绍


Mahmoud Parsian

计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等书(均由Apress出版)。

640?wx_fmt=png


你可能感兴趣的:(O'Reilly精品图书推荐:数据算法:Hadoop/Spark大数据处理技巧)