快速步入hadoop世界

概述:

1.了解HADOOP产生背景及HADOOP生态圈
2.体会HADOOP和大数据、云计算等概念之间的关系
3.了解HADOOP的相关应用案例
4.了解分布式系统的概念
首次接触大数据框架,总体是让学生建立起大数据和分布式的感性认识和宏观概念
1、理解hadoop是什么,它的应用场景什么,大体上怎么用
2、通过一个案例的演示说明,理解数据挖掘系统的基本流程和结构

第一节:HADOOP背景介绍

1.1 什么是HADOOP

Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件。Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:

  • Hadoop Common:支持其他Hadoop模块的常用工具。

  • Hadoop分布式文件系统(HDFS™):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。

  • Hadoop YARN:作业调度和集群资源管理的框架。

  • Hadoop MapReduce:一种用于并行处理大型数据集的基于YARN的系统。

上述每个模块有自己独立的功能,而模块之间又有相互的关联。

广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈

 

1.2 HADOOP产生背景

雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题--------“如何解决数十亿网页的存储和索引问题”。

  • 2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系统。

  • 2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。

  • 2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行分析运算。

  • 2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。

1.3 HADOOP在大数据、云计算中的位置和关系

​ 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。

​ 现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术”

​ 而HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身。

1.4 国内外HADOOP应用案例介绍

  • 大型网站Web服务器的日志分析:一个大型网站的Web服务器集群,每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。每隔5分钟将数据装载到内存中,高速计算网站的热点URL,并将这些信息反馈给前端缓存服务器,以提高缓存命中率。

  • 快速步入hadoop世界_第1张图片

  • 运营商流量经营分析:每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。

  • 快速步入hadoop世界_第2张图片

  • 城市交通卡口视频监控信息的实时分析:采用基于流式 Stream进行全省范围的交通卡口通过视频监控收录的信息进行实时分析、告警和统计(计算实时路况),对全省范围内未年检车辆或套牌车的分析延时在300毫秒左右,可以做出实时告警,所以开车的朋友最好要按时年检。

  • 快速步入hadoop世界_第3张图片

     

 

1.5 国内HADOOP的就业情况分析

快速步入hadoop世界_第4张图片

大数据方面的就业主要有三大方向:

  • 数据分析类大数据人才 对应岗位 大数据系统研发工程师

  • 系统研发类大数据人才 对应岗位 大数据应用开发工程师

  • 应用开发类大数据人才 对应岗位 大数据分析师

 

1.6 HADOOP生态圈以及各组成部分的简介

快速步入hadoop世界_第5张图片

重点组件:

  • HDFS:分布式文件系统

  • MAPREDUCE:分布式运算程序开发框架

  • HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具

  • HBASE:基于HADOOP的分布式海量数据库

  • ZOOKEEPER:分布式协调服务基础组件

  • Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库

  • Oozie:工作流调度框架

  • Sqoop:数据导入导出工具

  • Flume:日志数据采集框架

你可能感兴趣的:(文档,Hadoop)