•2.1 概述
•2.1.1 Hadoop简介
• Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构
• Hadoop 是基于 Java 语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中
• Hadoop 的核心是分布式文件系统 HDFS ( Hadoop Distributed File System )和 MapReduce
• Hadoop 被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力
• 几乎所有主流厂商都围绕 Hadoop 提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持 Hadoop
•2.1.2 Hadoop发展简史
•2.1.3 Hadoop的特性
Hadoop 的主要特性包括:
-
分布式存储:Hadoop 使用 Hadoop 分布式文件系统(HDFS)来存储数据,将数据分散存储在多台计算机上,提高了数据的可靠性和容错性。
-
分布式计算:Hadoop 使用 MapReduce 编程模型,可以在大规模的数据集上执行并行计算任务。MapReduce 将计算任务分为映射(Map)和归约(Reduce)两个阶段,使大规模数据的处理变得更容易。
-
扩展性:Hadoop 具有高度的可扩展性,可以轻松地增加计算节点以应对不断增长的数据量。
-
容错性:Hadoop 具有内置的容错机制,可以处理硬件故障,确保计算不会因节点故障而中断。
-
生态系统:Hadoop 生态系统包括许多附加组件,如 Apache Hive、Apache Pig、Apache HBase 等,这些组件扩展了 Hadoop 的功能,使其更适合各种大数据处理需求。
Hadoop 已经成为处理大数据的重要工具,广泛用于企业和研究机构,用于存储、处理和分析大规模数据集。它在云计算、商业智能、日志分析等领域都有广泛的应用。
•2.1.4 Hadoop的应用现状
• Hadoop 凭借其突出的优势,已经在各个领域得到了广泛的应用,而互联网领域是其应用的主阵地
• 2007 年,雅虎在 Sunnyvale 总部建立了 M45—— 一个包含了 4000 个处理器和 1.5PB 容量的 Hadoop 集群系统
• Facebook 作为全球知名的社交网站, Hadoop 是非常理想的选择, Facebook 主要将 Hadoop 平台用于日志处理、推荐系统和数据仓库等方面
• 国内采用 Hadoop 的公司主要有百度、淘宝、网易、华为、中国移动等,其中,淘宝的 Hadoop 集群比较大
•2.2 Hadoop项目结构
•2.3 Hadoop的安装与使用
•2.3.1 Hadoop安装之前的预备知识
(1)选择哪个Linux发行版?
• 在 Linux 系统各个发行版中, CentOS 系统和 Ubuntu 系统在服务端和桌面端使用占比最高,网络上资料最是齐全,所以建议使用 CentOS 或 Ubuntu
• 在学习 Hadoop 方面,虽然两个系统没有多大区别,但是推荐使用 Ubuntu 操作系统
(2)选择32位还是64位?
• 如果电脑比较老或者内存小于 2G ,那么建议选择 32 位系统版本的 Linux
• 如果内存大于 4G ,那么建议选择 64 位系统版本的 Linux
• 建议电脑比较新或者配置内存 4G 以上的电脑可以选择虚拟机安装
• 电脑较旧或配置内存小于等于 4G 的电脑强烈建议选择双系统安装,否则,在配置较低的计算机上运行 LInux 虚拟机,系统运行速度会非常慢
• 鉴于目前教师和学生的计算机硬件配置一般不高,建议在实践教学中采用双系统安装,确保系统运行速度
关于Linux的一些基础知识
• Shell
• 是指“提供使用者使用界面”的软件(命令解析器),类似于 DOS 下的 command 和后来的 cmd.exe 。它接收用户命令,然后调用相应的应用程序
• sudo 命令
• sudo 是 ubuntu 中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要 root 权限执行的操作。当使用 sudo 命令时,就需要输入您当前用户的密码
• 输入密码
• 在 Linux 的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会提示你已经输入了多少字符密码,读者不要误以为键盘没有响应
• 输入法中英文切换
• linux 中英文的切换方式是使用键盘“ shift” 键来切换,也可以点击顶部菜单的输入法按钮进行切换。 Ubuntu 自带的 Sunpinyin 中文输入法已经足够读者使用
• Ubuntu 终端复制粘贴快捷键
• 在 Ubuntu 终端窗口中,复制粘贴的快捷键需要加上 shift, 即粘贴是 ctrl+shift+v
Hadoop安装方式
安装 Hadoop 时,你可以选择不同的模式,包括单机模式、伪分布式模式和分布式模式。以下是这三种模式的详细说明和安装步骤:
-
单机模式:
- 单机模式是最简单的 Hadoop 部署模式,通常用于开发和测试目的。它在一台机器上运行 Hadoop,不使用分布式文件系统(HDFS)。
- 下面是在单机模式下安装和配置 Hadoop 的一般步骤:
- 下载 Hadoop 安装包,并解压到本地文件夹。
- 配置 Hadoop 环境变量,如
HADOOP_HOME
和 JAVA_HOME
。
- 配置 Hadoop 的核心配置文件,如
core-site.xml
和 hdfs-site.xml
,以指定本地文件系统路径。
- 创建 HDFS 数据存储目录。
- 启动 Hadoop 服务并运行 MapReduce 任务。
-
伪分布式模式:
- 伪分布式模式允许在一台机器上模拟分布式环境,使用 HDFS 存储数据,但是 HDFS 的名称节点和数据节点都在同一台机器上。
- 安装伪分布式模式的一般步骤如下:
- 下载 Hadoop 安装包,并解压到本地文件夹。
- 配置 Hadoop 环境变量,如
HADOOP_HOME
和 JAVA_HOME
。
- 配置 Hadoop 的核心配置文件,如
core-site.xml
和 hdfs-site.xml
,以指定 HDFS 的数据存储路径。
- 启动 HDFS 和 YARN(资源管理器)守护进程。
- 创建 HDFS 数据存储目录。
- 启动 Hadoop 服务,并运行 MapReduce 任务。
-
分布式模式:
- 分布式模式是用于生产环境的 Hadoop 部署,它使用真正的分布式文件系统(HDFS),并将 HDFS 的名称节点和数据节点分布在不同的机器上。
- 安装分布式模式需要更多的硬件和网络配置,以确保节点之间的通信和容错性。
- 安装分布式模式的一般步骤如下:
- 配置多台计算机,为每台计算机分配特定的角色,如名称节点、数据节点、资源管理器、任务跟踪器等。
- 安装 Hadoop 安装包并在所有节点上配置 Hadoop 环境变量和配置文件。
- 启动 HDFS 和 YARN 守护进程。
- 创建 HDFS 数据存储目录。
- 启动 Hadoop 服务,确保节点之间的通信正常。
•2.3.2 安装Linux虚拟机
1、下载VirtualBox虚拟机软件
https://download.virtualbox.org/virtualbox/6.1.4/VirtualBox-6.1.4-136177-Win.exe
2. 下载Ubuntu LTS 16.04(或18.04) ISO映像文件
Ubuntu LTS 16.04下载:https://www.ubuntu.org.cn/download/ubuntu-kylin
Ubuntu LTS 18.04下载:https://ubuntu.com/download/desktop
•2.3.3 安装双操作系统
•2.3.4 详解Hadoop的安装与使用