大数据学习之路~Hadoop

目录

 

Hadoop学习之路(一)理论基础和逻辑思维

Hadoop学习之路(二)Hadoop发展背景

Hadoop学习之路(三)Hadoop-2.7.5在CentOS-6.7上的编译

Hadoop学习之路(四)Hadoop集群搭建和简单应用

Hadoop学习之路(五)Hadoop集群搭建模式和各模式问题

Hadoop学习之路(六)HDFS基础

Hadoop学习之路(七)Hadoop集群shell常用命令

Hadoop学习之路(八)在eclispe上搭建Hadoop开发环境

Hadoop学习之路(九)HDFS深入理解

Hadoop学习之路(十)HDFS API的使用

Hadoop学习之路(十一)HDFS的读写详解

Hadoop学习之路(十二)分布式集群中HDFS系统的各种角色

Hadoop学习之路(十三)MapReduce的初识

Hadoop学习之路(十四)MapReduce的核心运行机制

Hadoop学习之路(十五)MapReduce的多Job串联和全局计数器

Hadoop学习之路(十六)Hadoop命令hadoop fs -ls详解

Hadoop学习之路(十七)MapReduce框架Partitoner分区

Hadoop学习之路(十八)MapReduce框架Combiner分区

Hadoop学习之路(十九)MapReduce框架排序

Hadoop学习之路(二十)MapReduce求TopN

Hadoop学习之路(二十一)MapReduce实现Reduce Join(多个文件联合查询)

Hadoop学习之路(二十二)MapReduce的输入和输出

Hadoop学习之路(二十三)MapReduce中的shuffle详解

Hadoop学习之路(二十四)YARN的资源调度

Hadoop学习之路(二十五)MapReduce的API使用(二)

Hadoop学习之路(二十六)MapReduce的API使用(三)

Hadoop学习之路(二十七)MapReduce的API使用(四)


Hadoop学习之路(一)理论基础和逻辑思维

三个题目

  • 第一题
  • 第二题
  • 第三题

Hadoop学习之路(二)Hadoop发展背景

  • Hadoop产生的背景
  • Hadoop是啥
  • HADOOP在大数据、云计算中的位置和关系
  • Hadoop的技术应用
  • HADOOP生态圈以及各组成部分的简介
  • 获取数据的三种方式
  • 国内HADOOP的就业情况分析
    • 1、HADOOP就业整体情况
    • 2、 HADOOP就业职位要求

Hadoop学习之路(三)Hadoop-2.7.5在CentOS-6.7上的编译

  • 下载Hadoop源码
    • 1、登录官网
    • 2、确定你要安装的软件的版本
  • 阅读编译文档
  • 软件安装
    • JDK的安装
    • 安装依赖包
    • 安装Maven
    • 安装Findbugs
    • 安装ProtocolBuffer
    • 修改maven的配置文件,添加maven的下载源
    • 安装Ant
    • 安装Snappy
  • 开始编译hadoop

Hadoop学习之路(四)Hadoop集群搭建和简单应用

  • 概念了解
  • 集群服务器规划
  • 软件安装步骤概述
  • Hadoop安装
    • 1、规划
    • 2、上传解压缩
    • 3、修改配置文件
    • 4、把安装包分别分发给其他的节点
    • 5、配置Hadoop环境变量
    • 6、查看hadoop版本
    • 7、Hadoop初始化
    • 8、启动
    • 9、查看4台服务器的进程
    • 10、启动HDFS和YARN的web管理界面
  • Hadoop的简单使用
    • 创建文件夹
    • 查看创建的文件夹
    • 上传文件
    • 下载文件
    • 运行一个mapreduce的例子程序: wordcount

Hadoop学习之路(五)Hadoop集群搭建模式和各模式问题

  • 分布式集群的通用问题
  • 集群的搭建的集中通用模式
    • 1、单机模式
    • 2、伪分布式模式(搭建在了只有一个节点的集群中)
    • 3、分布式模式
    • 4、高可用模式
    • 5、联邦模式
  • 安装Hadoop集群中的一些通用问题
  • Linux环境变量加载的顺序

Hadoop学习之路(六)HDFS基础

  • HDFS前言
    • 设计思想
    • 在大数据系统中作用
    • 重点概念
  • HDFS的概念和特性
    • 概念
    • 重要特性
  • 图解HDFS
  • HDFS的局限性
  • HDFS保证可靠性的措施
  • 单点故障(单点失效)问题
    • 单点故障问题
    • 解决方案

Hadoop学习之路(七)Hadoop集群shell常用命令

Hadoop常用命令

  • 启动HDFS集群
  • 启动YARN集群
  • 查看HDFS系统根目录
  • 创建文件夹
  • 级联创建文件夹
  • 查看hsdf系统根目录下的所有文件包括子文件夹里面的文件
  • 上传文件
  • 下载文件
  • 合并下载
  • 复制
  • 移动
  • 删除
  • 从本地剪切文件到HDFS上
  • 追加文件
  • 查看文件内容
  • chgrp
  • chmod
  • chown
  • du
  • dus
  • expunge
  • setrep
  • tail
  • test
  •  查看集群的工作状态

Hadoop学习之路(八)在eclispe上搭建Hadoop开发环境

  • 一、添加插件
  • 二、在Windows上安装Hadoop2.7.5
    • 1、将hadoop-2.7.5-centos-6.7.tar.gz解压到Windows上的C盘software目录中
    • 2、配置hadoop的环境变量
    • 3、修改Hadoop安装目录C:\software\hadoop-2.7.5\etc\hadoop中hadoop-env.cmd
    • 4、查看Hadoop版本
    • 5、添加Windows支持文件
    • 6、重新启动eclipse
  • 三、eclipse中的配置
    • 1、重新启动eclipse,打开windows->Preferences的Hadoop Map/Reduce中设置安装目录
    • 2、打开Windows->Open Perspective中的Map/Reduce,在此perspective下进行hadoop程序开发
    • 3、打开Windows->Show View中的Map/Reduce Locations,如下图右键选择New Hadoop location…新建hadoop连接。
    • 4、配置相关信息
    • 5、配置成功之后再右侧显示如下
  • 四、创建HDFS项目
    • 1、创建一个java project
    • 2、添加jar包这里使用第二种
    • 3、创建测试类

Hadoop学习之路(九)HDFS深入理解

  •  HDFS的优点和缺点
    • HDFS的优点
    • HDFS的缺点
  • HDFS的辅助功能
    • 1.心跳机制
    • 2.安全模式
    • 3.副本存放策略
    • 4.负载均衡

Hadoop学习之路(十)HDFS API的使用

Hadoop学习之路(十一)HDFS的读写详解

  • HDFS的写操作
    • 《HDFS权威指南》图解HDFS写过程
    • 详细文字说明(术语)
    • 详细文字说明(口语)
  •  HDFS读操作
    • 《HDFS权威指南》图解HDFS读过程
    • 数据读取

Hadoop学习之路(十二)分布式集群中HDFS系统的各种角色

  • NameNode
    • 学习目标
    • 问题场景
    • NameNode的职责
    • NameNode元数据的管理
    • NameNode 元数据存储机制
  • DataNode
    • 问题场景
    • Datanode 掉线判断时限参数
  • SecondaryNameNode
    • SecondaryNamenode 工作机制
    • 元数据的 CheckPoint

Hadoop学习之路(十三)MapReduce的初识

  • MapReduce是什么
  • 为什么需要 MapReduce
  • MapReduce做什么
  •  MapReduce 程序运行演示
    •  MapReduce 示例 pi 的程序
    • MapReduce 示例 wordcount 的程序
    • 其他程序
    • WordCount.java源码
  • MapReduce 示例程序编写及编码规范
    • 编写自己的 Wordcount 程序
  • MapReduce 程序编写规范
    • WordCount 的业务逻辑
  • MapReduce 运行方式及 Debug
    • 集群运行模式
    • 本地运行模式

Hadoop学习之路(十四)MapReduce的核心运行机制

  • 概述
  • MapReduce 套路图
  • MapReduce 程序的运行
  • mapTask的并行度
    • MapTask并行度的决定机制
    • 切片机制
    • MapTask 并行度经验之谈
  • ReduceTask 并行度
    • ReduceTask 并行度决定机制

Hadoop学习之路(十五)MapReduce的多Job串联和全局计数器

  • MapReduce 全局计数器
    • MapReduce计数器是什么?
    • MapReduce计数器能做什么?
    • MapReduce 都有哪些内置计数器?
  • 计数器的该如何使用?

Hadoop学习之路(十六)Hadoop命令hadoop fs -ls详解

Hadoop学习之路(十七)MapReduce框架Partitoner分区

  • Partitioner分区类的作用是什么?
  • getPartition()三个参数分别是什么?

Hadoop学习之路(十八)MapReduce框架Combiner分区

  • 对combiner的理解
  • 哪里使用combiner?
  • 注意事项

Hadoop学习之路(十九)MapReduce框架排序

流量统计项目案例

  • 需求

Hadoop学习之路(二十)MapReduce求TopN

  • 前言
  • 技术点
    • Mapper阶段
    • Reducer阶段 
  • 分组Top N分析
    • 场景模拟

Hadoop学习之路(二十一)MapReduce实现Reduce Join(多个文件联合查询)

  • 1 思路
    • 1.1 reduce join
    • 1.2 map join
    • 1.3 使用内存服务器,扩大节点的内存空间
    • 1.4 使用BloomFilter过滤空连接的数据
    • 1.5 使用mapreduce专为join设计的包
  • 2 实现reduce join
  • 3 实现map join

Hadoop学习之路(二十二)MapReduce的输入和输出

Hadoop学习之路(二十三)MapReduce中的shuffle详解

  • 概述
  • MapReduce的Shuffle过程介绍
    • Spill过程
    • Sort
    • Spill
    • Merge
    • Copy
    • Merge Sort

Hadoop学习之路(二十四)YARN的资源调度

  • YARN
  • 1.1、YARN 概述 YARN(Yet Another Resource Negotiator)
    • 1.2、原 MapReduce 框架的不足
    • 1.3、新版 YARN 架构的优点
    • 1.4、YARN 的重要概念
    • 1.5、YARN 架构及各角色职责
    • 1.6、YARN 作业执行流程

Hadoop学习之路(二十五)MapReduce的API使用(二)

学生成绩---增强版

  • 数据信息
  • 数据解释
  • 统计需求

Hadoop学习之路(二十六)MapReduce的API使用(三)

  • 数据及需求
    • 数据格式
    • 数据解释
    • 需求统计
  • 代码实现
    • 1、求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数)
    • 2、分别求男性,女性当中评分最高的10部电影(性别,电影名,评分)
    • 3、求movieid = 2116这部电影各年龄段(因为年龄就只有7个,就按这个7个分就好了)的平均影评(年龄段,评分)
    • 4、求最喜欢看电影(影评次数最多)的那位女性评最高分的10部电影的平均影评分(人,电影名,影评)

Hadoop学习之路(二十七)MapReduce的API使用(四)

 

你可能感兴趣的:(大数据之Hadoop,hadoop,大数据)