Hadoop,大数据时代的利剑!——试读《Hadoop基础教程》

Hadoop,大数据时代的利剑!——试读《Hadoop基础教程》

 

由于本人做机器学习和数据挖掘方面的开发,很清楚Hadoop在业内至高无上的地位。在如今这个大数据时代,传统的数据处理系统已经很难满足现在爆炸式的计算需求,而Hadoop作为一个有力工具,便成了数据分析人员不可多得的得力助手。拿到试读章节后,便迫不及待的翻开学习。

 

试读部分包括本书的两个章节,第一章绪论,和第四章开发MapReduce程序。

 

绪论部分介绍了关于大数据、Hadoop和云计算的一些知识。大数据背景下,目前最大的挑战在于,如何从这些数据中提取最有价值的信息,足够大的数据集以及灵活的工具可以使之前无法想象的问题得到解答。但经典的数据处理系统的处理能力一直受限于单台计算机的极限运算能力。无论是向上扩展还是早期向外扩展的方法都存在诸多弊端,由系统并发带来的系统复杂性问题日益明显。

 

Hadoop技术成功地解决了令人头疼的将数据处理系统扩展为大数据处理系统的问题,它有如下特点:

  • 新一代的向外扩展
  • 不共享任何内容
  • 故障预期
  • 软件智能化,硬件傻瓜化
  • 移动处理程序,而非移动数据
  • 构建应用程序,而非基础架构

 作为一个顶级项目,Hadoop项目包含许多组件子项目,最主要的两个子项目分别为Hadoop分布式文件系统(HDFS)和MapReduce。

 

作者还介绍了什么是Amazon Web Services,以及弹性MapReduce服务怎样利用其他AWS服务实现云端Hadoop

 

试读章节中第四章介绍的是如何开发MapReduce程序,本章不仅介绍了具体的工具,也介绍了如何分析新数据集。

 

作者先介绍了如何开发MapReduce作业,重点讲述了可能经常会碰到的一些问题及其解决方法。详细讲解了了如何使用Hadoop Streaming脚本语言编写mapreduce任务,以及如何有效使用Streaming技术进行早期的作业原型设计和最初的数据分析。

 

第四章很明显的一个特点就是实例非常多,有很多“实践环节”,作者手把手的教大家如何使用MapReduce技术,每个实例都有详尽的代码,代码之后还有详细的“原理分析”,让读者知其然,更知其所以然,而且不同实例之间循序渐进,由浅入深,如行云流水一般,让人从前到后享受掌握MapReduce技术的整个过程。

 

虽然没有看到本书的其他部分,但从试读章节可以看出,作者写本书非常用心,非常理解读者心理和正确的学习过程,让技术学习的过程不再枯燥无味、充满坎坷,而是变得畅通无阻、一气呵成。如果每一本技术类书籍读起来都能像本书这样舒畅,IT界的发展一定会更加迅猛!

 

仅仅是试读章节就让我看的爱不释手,真希望有机会一览本书的庐山真面目,领略作者的匠心独运,更好的掌握Hadoop这把利剑!

 

 

 

 

 

 

 

你可能感兴趣的:(hadoop,大数据)