腾讯大佬三年大制作,大数据Hadoop和Spark的大集合

大数据

大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、SparkCore、Spark SQL、Spark Streaming等知识。为保证 最优学习效果,本书紧密结合实际应用,利用大量案例说明和实践,提炼含金量十足的开发经验。如果大家需要这本书可以给小编私信“资料”。

目录

本书特色

1.满足企业对人才的技能需求是本丛书的核心设计原则,为此课工场大数据开发教研团队,通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析,从而实现技术的准确定位,达到课程与企业需求的高契合度。

2.以任务驱动为讲解方式丛书中的技能点和知识点都由任务驱动,读者在学习知识时不仅可以知其然,而且可以知其所以然,帮助读者融会贯通、举一反三。

3.以实战项目来提升技术本丛书均设置项目实战环节,该环节综合运用书中的知识点,帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。

本书全面分析图

已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入

第一章,本章重点:Hadoop环境部署。本章目标:了解大数据和Hadoop是什么,掌握Hadoop的核心构成,了解Hadoop生态系统,掌握虚拟机、CentOS 和Hadoop的安装。

第二章,本章重点:使用HDFS存储大数据文件,HDFS基本概念及体系结构,HDFS shell操作HDFS文件,Java API操作HDFS文件。本章目标:掌握HDFS文件系统的访问方式,掌握HDFS的体系结构,掌握HDFS数据的读写流程,了解HDFS的序列化使用。

第三章,本章重点:MapReduce编程模型,使用MapReduce开发常用的功能。本章目标:了解MapReduce是什么,掌握MapReduce编程模型,掌握MapReduce中常见核心API的编程,掌握使用MapReduce开发常用的功能。

第四章,本章重点:HDFS NN HA的原理及搭建,YARN RM HA的原理及搭建。本章目标:了解YARN的架构,掌握HDFS NN HA的原理及搭建,了解HDFS Federation机制,掌握YARN RM HA的原理及搭建,了解HDFS和YARN的其他新特性。

第五章,本章重点:Hive中DDL和DML的使用,Hive中UDF函数的定义和使用,Hive常见调优。本章目标:了解Hive的产生背景及环境部署,掌握Hive中DDL和DML的使用,掌握Hive中函数(内置函数+UDF函数)的使用,认知Hive中常见的优化策略。

第六章,本章重点:数据迁移框架Sqoop在大数据中的使用,工作流调度框架Azkaban在大数据中的使用。本章目标:使用Sqoop导入MySQL到HDFS和Hive,使用Sqoop导出HDFS数据到MySQL,使用Azkaban调度MR/Hive作业。

第七章,本章重点:Scala的基本使用,Spark及生态栈核心组件,Spark源码及环境部署,使用Spark完成词频统计。本章目标:掌握Scala的基本使用,获取Spark源码并根据指定Hadoop版本编译,使用Spark完成词频统计。

第八章,本章重点:RDD是什么、如何创建,RDD的常用操作:转换、动作、缓存,Spark应用程序的开发。本章目标:掌握Spark应用程序的开发,掌握Spark的运行架构。

第九章,本章重点:使用DataFrame进行编程,Spark SQL操作外部数据源,Spark自定义UDF函数,Spark SQL常见调优策略。本章目标:掌握使用Spark SQL完成各种数据源的操作,掌握Spark UDF函数的开发。

第十章,本章重点:使用SparkStreaming处理Socket数据,使用SparkStreaming处理HDFS数据,使用SparkStreaming整合Flume使用,使用SparkStreaming整合Kafka使用。本章目标:掌握Spark Streaming核心概念,掌握Spark Streaming进行流处理应用的开发。

已经为大家精心准备了大数据的系统学习资料,从Linux-Hadoop-spark-......,需要的小伙伴可以点击进入

你可能感兴趣的:(腾讯大佬三年大制作,大数据Hadoop和Spark的大集合)