袁既望

Hadoop 分布式集群搭建教程（2023在校生踩坑版）

博主本人，数据科学与大数据技术双非民办本科在读生，学的很差，配置Hadoop过程中，遇到了好多好多坑，Linux操作系统使用还是比较熟练的，所以大部分遇到的问题都是因为课本上的知识已经更新换代，网上找到的教程也杂乱无章，并且如果按照网上的教程来，课本后面几章的内容不兼容会出现更多的bug....为此我整理了这篇博客，希望可以帮助到跟博主同样情况的同学们。同时希望大家可以点赞关注收藏支持一下 T.T...

学校课本：Hadoop大数据处理实战上海交通大学出版社

根据学校课本的教程一步一步来，踩了巨多坑！Hadoop3.x版本往后更新换代了很多东西，而课本上并没有说明并且一直沿用的老版本，这让我在搭建Hadoop的过程中一步步踩坑，删除虚拟机重新配置了好多次！！！

本篇博客中用到的

jdk版本：1.8

Hadoop版本：3.3.6

zookeeper版本：3.9.0

如遇到包含以上文件名称的语句，请按照自己的版本号更改。

一、创建虚拟机并安装CentOS7

①安装虚拟机软件

②下载CentOS7镜像文件

③创建新的虚拟机

1.在VMware主页点击创建新的虚拟机

2.指定配置类型和硬件兼容性

3.指定安装操作系统的镜像文件

4.指定虚拟机名称和安装位置

5.指定处理器配置和虚拟机的内存

6.指定网络类型和I/O控制器类型

7.指定磁盘类型、磁盘、磁盘容量和磁盘文件

8.虚拟机创建完成（尚未安装操作系统）

④安装CentOS7操作系统

1.开始安装CentOS7操作系统

2.选择系统语言

3.指定系统安装位置和系统软件选择

4.配置网络和主机名

5.正式开始安装

二、配置虚拟机集群环境

①修改主机名和设置固定IP

1.修改主机名

2.设置固定IP

3.修改网卡配置文件ifcfg-ens33

②关闭防火墙和新建安装目录

1.关闭防火墙

2.新建安装目录

③安装和配置JDK

1.下载

2.删除OpenJDk

3.上传JDK安装包

④克隆虚拟机和配置主机IP映射

1.克隆虚拟机

2.配置主机映射

3.配置各节点SSH免密码登录

三、搭建Hadoop高可用集群

①安装和配置Zookeeper

1.安装（与前面安装jdk方法一致）

2.复制到Hadoop02和Hadoop03

②安装与配置Hadoop

1.修改配置文件core-site.xml

2.修改配置文件hdfs-site.xml

3.修改配置文件mapred-site.xml

4.修改配置文件yarn-site.xml

5.修改配置文件slaves（Hadoop3.x之后版本均变更为workers）

6.修改配置文件hadoop-env.sh、mapred-env.sh和yarn-env.sh

7.复制到Hadoop02和Hadoop03

③启动与测试Hadoop

1.格式化NameNode

2.格式化ZKFC

3.启动HDFS和YARN

一、创建虚拟机并安装CentOS7

①安装虚拟机软件

这里的演示的版本是VMware16，下载地址：

VMware - Delivering a Digital Fou、ndation For Businesses

VMware是一家领先的虚拟化和云基础设施解决方案提供商。他们的软件产品被广泛用于构建和管理虚拟化环境，从而提供更高的灵活性、可靠性和效率。

②下载CentOS7镜像文件

1、官网下载地址

CentOS Mirrors List

2、清华大学下载地址

Index of /centos/7.9.2009/isos/x86_64/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror|

3、阿里下载地址

centos-7-isos-x86_64安装包下载_开源镜像站-阿里云 (aliyun.com)

这里推荐使用镜像站，官网速度非常慢，镜像站速度有近百倍的提升

③创建新的虚拟机

1.在VMware主页点击创建新的虚拟机

2.指定配置类型和硬件兼容性

3.指定安装操作系统的镜像文件

这里一定要注意！！！！！！！坑出现了！！！！！

如果出现以上语句：“该操作系统将使用简易安装”，则选择稍后安装操作系统！

否则后续就会直接跳过，可以参考博主的这篇文章：

CentOS7安装时直接跳过了安装信息摘要页面的解决方法-CSDN博客

4.指定虚拟机名称和安装位置

这里推荐改为Hadoop01，后续虚拟机名称依次排号02、03

5.指定处理器配置和虚拟机的内存

6.指定网络类型和I/O控制器类型

因为校园网的原因，这里博主使用的是NAT模式，桥接模式和NAT模式都是可以的，但是如果跟博主一样使用校园网等内网的话，推荐使用NAT模式。

桥接模式（Bridge Mode）和NAT模式（Network Address Translation Mode）是常用于虚拟机网络设置的两种模式。它们在虚拟机与物理网络之间建立连接，并提供不同的网络访问方式。

桥接模式（Bridge Mode）：

在桥接模式下，虚拟机的网络接口与物理网络的接口相连，虚拟机会获得与物理网络中其他设备相同的网络访问权限。

桥接模式使得虚拟机与物理网络中的其他设备处于同一网络段，虚拟机可以直接与其他设备进行通信，就像是连接在同一个交换机上一样。

虚拟机通过桥接模式可以获得唯一的IP地址，与物理网络中的其他设备处于相同的子网中。

桥接模式可以使虚拟机与物理网络之间实现无缝的网络通信，适用于需要虚拟机与物理网络中其他设备进行直接通信的场景。

NAT模式（Network Address Translation Mode）：

在NAT模式下，虚拟机的网络接口通过主机的网络接口与物理网络相连，虚拟机的网络流量会通过主机进行网络地址转换。

在NAT模式下，虚拟机获得的IP地址是由主机分配的，虚拟机与物理网络中的其他设备之间的通信需要经过主机进行网络地址转换。

NAT模式隐藏了虚拟机的真实IP地址，对外表现为主机的IP地址，可以提供一定程度的网络安全性。

虚拟机通过NAT模式可以与物理网络中的其他设备进行通信，但无法直接与其他设备建立连接。

区别：

桥接模式使得虚拟机与物理网络中的其他设备处于同一网络段，虚拟机可以获得唯一的IP地址，可以直接与其他设备进行通信。而NAT模式下，虚拟机的网络流量需要经过主机进行网络地址转换，虚拟机获得的IP地址是由主机分配的，无法直接与其他设备建立连接。

桥接模式提供了更高的网络灵活性和直接性，适用于需要虚拟机与物理网络中其他设备进行直接通信的场景。而NAT模式提供了一定程度的网络安全性，隐藏了虚拟机的真实IP地址，适用于需要虚拟机与物理网络进行通信但不需要直接连接其他设备的场景。

在桥接模式下，虚拟机需要与物理网络中的其他设备处于同一网络段，因此需要确保物理网络中有足够的IP地址可用。而NAT模式下，虚拟机获得的IP地址是由主机分配的，不会占用物理网络中的IP地址资源。

选择桥接模式还是NAT模式取决于具体的需求和网络环境。如果需要虚拟机与物理网络中的其他设备直接通信，可以选择桥接模式；如果需要一定程度的网络安全性或者物理网络中的IP地址资源有限，可以选择NAT模式。

7.指定磁盘类型、磁盘、磁盘容量和磁盘文件

均保持默认即可

8.虚拟机创建完成（尚未安装操作系统）

，

这里点击自定义硬件查看一下CentOS7文件是否选择，如果前面选择的稍后安装操作系统，这里需要点进去更改一下：选择使用ISO映像文件

④安装CentOS7操作系统

1.开始安装CentOS7操作系统

在首次出现的CentOS7安装界面中，单机以激活键盘，然后使用“↑”“↓”选择“Install CentOS7”选项，然后按回车选择

2.选择系统语言

3.指定系统安装位置和系统软件选择

（这里选择GNOME桌面即可）

4.配置网络和主机名

5.正式开始安装

安装过程中会出现“用户设置”界面，可单机“ROOT密码”为root用户设置密码，单机“创建用户”创建一个普通用户或管理员用户。

完成后单击“重启”重启操作系统，在重启过程中，还有一个接受许可协议的操作，选择接手之后即可进入登录页面。

登陆时选择使用root用户登录，单机“未列出”输入root账户及密码。

进入桌面后，右键单击空白区域，选择“打开终端“，即可打开GNOME终端，通过它可以执行各种Shell命令

二、配置虚拟机集群环境

①修改主机名和设置固定IP

1.修改主机名

执行以下命令查看当前主机名：

# hostname

执行以下命令修改hostname文件，将其内容修改为要使用的主机名：

# vim /etc/hostname

执行以下命令，重启系统使修改生效：

# reboot

2.设置固定IP

默认情况下，CentOS系统的IP地址是自动获取的（即自动分配的），为了避免以后IP地址随意发生改变，导致集群的节点之间无法正常访问，需要为系统设置固定IP。

打开命令终端，执行以下命令，可以查看本机的网卡配置和网络状态信息。

# ifconfig

3.修改网卡配置文件ifcfg-ens33

因为博主这里使用的是NAT模式，所以在配置之前，应该先进入虚拟网络设置中，查看NAT模式的起始IP地址和结束IP地址，以及网关

在NAT模式下，虚拟机的网络连接是通过主机的网络连接进行转发的。因此，固定IP地址必须在NAT网络的IP地址范围内，以确保网络通信的正常运行。

在虚拟网络设置中，DHCP设置包括一个IP地址范围，该范围用于自动分配给虚拟机。通常情况下，NAT模式下的DHCP分配的IP地址范围和网关是相互匹配的，所以你应该将网关设置为NAT模式中指定的网关。

如果想为为虚拟机使用固定IP地址，但又不想将其设置在NAT网络的范围内，可以使用桥接模式。在桥接模式下，虚拟机将直接连接到主机网络中，并且可以使用与主机相同的IP地址范围。

注意！在配置固定IP地址时，要确保所选的IP地址在网络中没有冲突，并且不会与其他设备使用的IP地址发生冲突。

执行以下命令，修改网卡配置文件ifcfg-ens33：

vim /etc/sysconfig/network-scripts/ifcfg-ens33

修改完成后，需要执行以下命令重启网络服务

# service network restart

重启完成后，可通过执行”ifconfig“或” ip addr“命令，查看IP地址是否修改成功。也可以按照下图路径查看本机设置的固定IP等信息：

配置完成后，可以ping一下宿主机IP查看是否能ping通，ping一下www.baidu.com查看是否能联网

②关闭防火墙和新建安装目录

1.关闭防火墙

执行以下命令，查看当前防火墙的运行状态（默认为running）：

# firewall-cmd --state

或

# systemctl status firewalld.service

执行以下命令关闭防火墙（运行状态变为not running）：

# systemctl stop firewalld.service

执行以下命令，禁止防火墙开机启动：

# systemctl disable firewalld.service

重启防火墙的命令为：

systemctl start firewalld.service

使防火墙开机启动的命令为：

systemctl enable firewalld.service

2.新建安装目录

依次执行以下命令，新建安装目录：

mkdir /opt/packages
mkdir /opt/programs

Opt目录：/opt目录是用于安装可选软件包的位置。在CentOS中，您可以将Hadoop安装在/opt目录下。在这个目录下，您可以创建一个子目录，例如/opt/hadoop，用于存放Hadoop的安装文件和相关配置。

Packages（软件包）：在Hadoop的上下文中，Packages指的是Hadoop的相关软件包和依赖项。这些软件包包括Hadoop本身以及与Hadoop相关的其他软件，如Hadoop的依赖项（例如Java运行时环境）和其他工具（如Hive、Pig等）。在CentOS中，您可以使用包管理器（如yum）来安装这些软件包，以便在系统中安装和配置Hadoop。

Programs（程序）：在Hadoop中，Programs指的是Hadoop的各个组件和工具。Hadoop由多个组件组成，包括Hadoop分布式文件系统（HDFS）和Hadoop分布式计算框架（MapReduce）。此外，还有其他工具和服务，如YARN（资源管理器）、Hive（数据仓库工具）、Pig（数据分析工具）等。这些程序和工具共同构成了Hadoop生态系统，用于处理和分析大规模数据。

总结起来，opt目录是用于存放Hadoop安装文件和配置的位置，packages是指Hadoop的相关软件包和依赖项，而programs是指Hadoop的各个组件和工具，包括HDFS、MapReduce、YARN等。

③安装和配置JDK

1.下载

由于Hadoop平台基于Java开发，严格依赖Java开发环境，因此需要为虚拟机安装JDK。

下载地址：Java Archive Downloads - Java SE 8 (oracle.com)

2.删除OpenJDk

由于CentOS7预装了OpenJDK，但该版本的JDK功能通常有所精简，为了避免系统默认使用OpenJDK，需要先将其卸载，然后再安装使用标准版

执行以下命令，查询已安装的OpenJDK：

rpm -qa|grep openjdk

执行以下命令，将查询到的OpenJDK全部卸载：

rpm -e --nodeps +文件名

(文件名与前面的命令中间的空格不能缺）

删除后再次查看发现为空

3.上传JDK安装包

然后将下载的JDK安装包上传到虚拟机”/opt/packages“目录下

博主这里使用的是XShell（也可以使用finalshell，WinSCP等）

连接虚拟机：

通过以下命令进入该目录

# cd /opt/packages

下载插件

# yum -y install lrzsz

然后使用rz命令上传

# rz

传输完毕后，进入虚拟机执行以下命令，将JDK文件解压到目录”/opt/programs“

tar -zxvf jdk-8u371-linux-x64.tar.gz -C /opt/programs

然后执行以下命令修改文件”/etc/programs“，配置JDK系统环境变量：

vim /etc/profile

在文件末尾加入以下内容：

export JAVA_HOME=/opt/programs/jdk1.8.0_371
export PATH=$PATH:$JAVA_HOME/bin

执行以下命令，刷新profile文件，使修改生效：

# source /etc/profile

（注！每次修改profile之后都要刷新才能生效）

执行java -version命令，若能查看到JDK版本，则说明安装成功！

④克隆虚拟机和配置主机IP映射

1.克隆虚拟机

由于集群环境需要多个节点，当一个节点配置完成后，可以借助VMware Workstation软件的克隆功能，对配置好的节点进行完整克隆，以快速获得新的节点。

①Hadoop01---管理---克隆

②按照下图各步骤进行

按照同样的方法，克隆Hadoop01节点。

③修改主机名和IP地址

由于Hadoop02和Hadoop03都是通过克隆Hadoop01得到的，他们的主机名和IP地址都和节点Hadoop01相同，因此需要修改这两个节点的主机名和IP地址，修改方法与前面第二部分的①一致。

2.配置主机映射

通过修改集群中各节点的主机IP映射（即主机IP地址和主机名的对照列表），可以方便的使用主机名进行网络访问，不再需要输入要访问节点的IP地址。

依次启动三个节点，并在三个节点上分别执行以下命令，修改hosts文件

# vim /etc/hosts

在hosts文件末尾添加以下内容（根据自己的IP设置）：

192.168.56.128 Hadoop01

192.168.56.129 Hadoop02

192.168.56.130 Hadoop03

然后在各节点使用ping命令测试是否配置成功

3.配置各节点SSH免密码登录

由于集群节点之间需要频繁通信，但Linux系统在相互通信过程中需要验证身份，为了使Hadoo各节点之间能够免密码相互访问，因此需要为各节点配置SSH免密码登录

SSH（Secure Shell）是一种网络协议，用于在不安全的网络上安全地进行远程登录和数据传输。它通过加密和身份验证机制来保护数据的安全性。

使用SSH，你可以安全地远程登录到远程计算机或服务器，并在远程系统上执行命令。SSH提供了身份验证的方式，通常使用用户名和密码进行登录，也可以使用密钥对进行身份验证。一旦建立了SSH连接，所有通过该连接传输的数据都会被加密，从而防止第三方窃听或篡改数据。

SSH还可以用于安全地传输文件，通过SCP（Secure Copy）或SFTP（SSH File Transfer Protocol）协议，你可以在本地计算机和远程服务器之间传输文件，并确保数据的机密性和完整性。

总而言之，SSH是一种安全的远程登录和数据传输协议，广泛用于管理远程服务器、执行远程命令和传输文件。

分别在三个节点中执行以下命令，生成密钥文件：

ssh-keygen

然后分别在三个节点中执行以下命令，将自身的公钥信息复制并追加到全部节点的授权文件authorized_keys中（在命令执行过程中需要确认连结及输入用户密码）

ssh-copy-id hadoop01
ssh-copy-id hadoop02
ssh-copy-id hadoop03

authorized_keys 是 SSH（Secure Shell）协议中的一个文件，用于管理远程登录的授权密钥。

在 SSH 的身份验证过程中，通常使用密码或密钥对进行身份验证。而 authorized_keys 文件则用于存储远程服务器上允许访问的公钥（密钥对中的公钥部分），以实现基于密钥的身份验证。

当用户尝试通过 SSH 远程登录到服务器时，服务器会检查用户提供的密钥是否存在于 authorized_keys 文件中。如果存在匹配的公钥，服务器将验证密钥的有效性，并允许用户登录。

通过使用 authorized_keys 文件，可以实现更安全和方便的身份验证方式。相比于传统的密码身份验证，使用密钥对进行身份验证可以提供更高的安全性，同时也减少了密码泄露的风险。

要使用 authorized_keys 文件进行密钥身份验证，首先需要生成密钥对，并将公钥添加到服务器上的 authorized_keys 文件中。每个用户都可以在自己的主目录下创建一个名为 .ssh 的隐藏文件夹，并在其中创建 authorized_keys 文件。然后，将要授权的公钥内容添加到 authorized_keys 文件中，每个公钥占据一行。

总结：authorized_keys 是 SSH 协议中的一个文件，用于存储允许访问远程服务器的公钥，以实现基于密钥的身份验证。使用该文件可以提供更安全和方便的身份验证方式。

全部执行完之后，在各个节点下使用以下命令测试SSH免密码登录是否配置完成

ssh hadoop01
ssh hadoop02
ssh hadoop03

成功登录后可执行exit命令退出登录

三、搭建Hadoop高可用集群

Hadoop 高可用集群和早期版本的 Hadoop 在以下几个方面存在区别：

主从架构：早期版本的 Hadoop 采用了主从架构，其中有一个单一的主节点（NameNode）负责管理文件系统的元数据和协调数据存储。这种设计存在单点故障的风险，如果主节点发生故障，整个系统将无法正常工作。而 Hadoop 高可用集群引入了 HDFS（Hadoop Distributed File System）的高可用性机制，通过使用多个 NameNode 节点和共享存储来实现主备切换，从而提供了更高的容错性和可用性。

故障检测和自动恢复：早期版本的 Hadoop 需要手动处理节点故障和数据恢复。当一个数据节点（DataNode）发生故障时，需要手动将其重新添加到集群中，并执行数据恢复操作。而在 Hadoop 高可用集群中，故障检测和自动恢复是集群的核心功能。当一个数据节点发生故障时，集群会自动检测到并将其替换为其他可用节点，同时自动进行数据的复制和恢复。

资源管理：早期版本的 Hadoop 使用了 MapReduce 作业调度器来管理集群中的资源分配和作业执行。这种调度器对于大规模作业的管理和调度存在一些限制，无法满足复杂的资源管理需求。而在 Hadoop 高可用集群中，引入了 YARN（Yet Another Resource Negotiator）作业调度器，它提供了更灵活和可扩展的资源管理机制，可以同时运行多种类型的作业，并更好地支持多租户环境。

高可用性工具：Hadoop 高可用集群引入了一些专门的工具和组件来实现高可用性。例如，使用 ZooKeeper 来协调和管理集群中的各个组件，以确保它们的一致性和可用性。此外，还引入了自动故障切换机制和监控工具，以便在节点故障时自动切换和恢复服务。

总的来说，Hadoop 高可用集群相对于早期版本的 Hadoop 在容错性、可用性和自动化方面有了显著的改进。它通过引入多个 NameNode 节点、故障检测和自动恢复机制、灵活的资源管理和专门的高可用性工具，提供了更可靠和稳定的分布式数据处理解决方案。

①安装和配置Zookeeper

对于双NameNode的Hadoop高可用分布式集群，需要安装和配置一个zookeeper集群，用于ZKFC，从而保证当活动状态的NameNode失效时，备用状态的NameNode可以自动切换为活动状态

ZKFC 是指 ZooKeeper Failover Controller，是 Hadoop 高可用集群中用于管理和监控 HDFS（Hadoop Distributed File System）的 NameNode 高可用性的组件。

在 Hadoop 高可用集群中，通常会有两个 NameNode 节点，一个是 Active NameNode，负责处理客户端的请求和管理文件系统的元数据；另一个是 Standby NameNode，处于备用状态，用于在 Active NameNode 发生故障时接管其职责。ZKFC 负责监控 Active NameNode 的健康状态，并在 Active NameNode 发生故障时触发自动故障切换，将 Standby NameNode 切换为 Active 状态，确保 HDFS 的高可用性。

ZKFC 依赖于 ZooKeeper，一个分布式协调服务，用于在集群中各个组件之间协调和同步状态信息。ZKFC 将 Active 和 Standby NameNode 的状态信息存储在 ZooKeeper 中，并通过与 ZooKeeper 的交互来监控 Active NameNode 的状态。如果 ZKFC 检测到 Active NameNode 失去响应或发生故障，它将触发故障切换过程，将 Standby NameNode 提升为 Active 状态，并更新 ZooKeeper 中的状态信息。

通过使用 ZKFC，Hadoop 高可用集群可以实现快速而可靠的故障切换，从而减少系统的停机时间，提供持续的服务。ZKFC 确保了 NameNode 的高可用性，并与 ZooKeeper 紧密集成，以实现状态的一致性和可靠的故障检测与切换。

1.安装（与前面安装jdk方法一致）

下载地址：Index of /dist/zookeeper (apache.org)

下载好需要的版本之后，通过Xshell或其他软件将安装包上传（过程与前面jdk的安装一致）到Hadoop01节点的“/opt/packages”目录下，然后执行以下命令进入该目录：

# cd /opt/packages

然后执行以下命令，将zookeeper解压到目录“/opt/programs”下

# tar -zxvf apache-zookeeper-3.9.0-bin.tar.gz -C /opt/programs

执行以下命令进入zookeeper的安装目录：

# cd apache-zookeeper-3.9.0-bin

在该目录下分别创建文件夹“data”和“logs”：

# mkdir data
# mkdir logs

执行以下命令进入“data”文件夹：

# cd data

执行以下命令，新建一个名为“myid”的文件，并写入id号“1”：

# echo '1'>myid

接着进入zookeeper安装目录下的“conf”文件夹，将zoo_sample.cfg文件复制一份并重命名为zoo.cfg:

# cd /opt/programs/apache-zookeeper-3.9.0-bin/conf

# cp zoo_sample.cfg zoo.cfg

然后执行以下命令修改zoo.cfg文件：

# vim zoo.cfg

先将文件中的“dataDir”修改为：

dataDir=/opt/programs/apache-zookeeper-3.9.0-bin/data

然后再在文件末尾加入以下内容：

dataLogDir=/opt/programs/apache-zookeeper-3.9.0-bin/logs
server.1=hadoop01:2888:3888
server.2=hadoop02:2888:3888
server.3=hadoop03:2888:3888

2.复制到Hadoop02和Hadoop03

执行以下命令，将Hadoop01节点的整个zookeeper安装目录远程复制到Hadoop02和Hadoop03中：

# scp -r /opt/programs/apache-zookeeper-3.9.0-bin root@hadoop02:/opt/programs/

# scp -r /opt/programs/apache-zookeeper-3.9.0-bin root@hadoop03:/opt/programs/

可以在Hadoop02 和 Hadoop03节点的对应目录下ls查看一下是否复制成功

复制完成后，需要将Hadoop02和Hadoop03节点中的myid文件的值修改为对应的数字（2、3）

# vim /opt/programs/apache-zookeeper-3.9.0-bin/data/myid

然后在三个节点上分别执行以下命令，修改文件“/etc/profile”，配置zookeeper的环境变量：

# vim /etc/profile

在文件末尾加入以下内容：

export ZOOKEEPER_HOME=/opt/programs/apache-zookeeper-3.9.0-bin
export PATH=$PATH:$JAVA_HOME/bin:$ZOOKEEPER_HOME/bin

然后刷新profile文件，使修改生效：

# source /etc/profile

最后在三个节点上分别执行以下命令，启动zookeeper集群：

# zkServer.sh start

出现如下图所示即启动成功：

可以在三个节点下执行以下命令，查看zookeeper集群状态：

# zkServer.sh status

在 ZooKeeper 中，有三个核心角色：

1. Leader（领导者）：Leader 是 ZooKeeper 集群中的一个角色，负责处理客户端请求、协调和管理集群中的其他节点。Leader 负责维护 ZooKeeper 数据的一致性，并处理客户端的写操作。在集群中，只有一个节点可以成为 Leader，其他节点处于 Follower 或 Observer 角色。

2. Follower（跟随者）：Follower 是 ZooKeeper 集群中的角色，负责跟随 Leader 的指导，参与数据的复制和同步。Follower 接收来自 Leader 的数据更新，并将其应用到本地副本中。Follower 可以处理客户端的读请求，但不能处理写请求。如果 Leader 发生故障，Follower 可以参与选举过程，竞选成为新的 Leader。

3. Observer（观察者）：Observer 是 ZooKeeper 集群中的角色，类似于 Follower，但不参与 Leader 的选举过程。Observer 接收来自 Leader 和 Follower 的数据更新，但不参与数据的写操作。Observer 的存在可以增加集群的读取能力，减轻 Leader 和 Follower 的负载压力。

这三个角色共同组成了 ZooKeeper 集群的整体架构。Leader 负责协调和管理集群，Follower 和 Observer 跟随 Leader 的指导，参与数据的复制和同步。通过这种分布式的角色分工，ZooKeeper 实现了高可用性和数据一致性，同时提供了高性能的读写操作。

要停止zookeeper服务，可执行“zkServer.sh stop”命令，要重启zookeeper服务，可执行“zkServer.sh restart”命令

②安装与配置Hadoop

下载地址：Index of /dist/hadoop/core (apache.org)

下载好需要的版本之后，通过Xshell或其他软件将安装包上传（过程与前面jdk、zookeeper的安装一致）到Hadoop01节点的“/opt/packages”目录下，然后执行以下命令进入该目录：

# cd /opt/packages

然后执行以下命令，将hadoop解压到目录“/opt/programs”下：

tar -zxvf hadoop-3.3.6.tar.gz -C /opt/programs

接着进入“/opt/programs/hadoop-3.3.6/etc/hadoop”目录，依次修改配置文件 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves(又一个坑，Hadoop3.x版本之后，slaves文件更名为workers，所以很多同学会找不到这个文件)、hadoop-env.sh、mapred-env.sh和yarn-env.sh

# cd /opt/programs/hadoop-3.3.6/etc/hadoop

1.修改配置文件core-site.xml

# vim core-site.xml

将和标签的内容修改如下：

configuration>
  
  
    fs.defaultFS
    hdfs://ns
  
  
  
    hadoop.tmp.dir
    /opt/programs/hadoop-3.3.6/tmp
  
  
  
    ha.zookeeper.quorum
    hadoop01:2181,hadoop02:2181,hadoop03:2181

2.修改配置文件hdfs-site.xml

# vim hdfs-site.xml

将和标签的内容修改如下：


  
  
    dfs.replication
    3
  
  
  
    dfs.nameservices
    ns
  
  
  
    dfs.ha.namenodes.ns
    nn1,nn2
  
  
  
    dfs.namenode.rpc-address.ns.nn1
    hadoop01:9000
  
  
  
    dfs.namenode.http-address.ns.nn1
hadoop01:50070
  
  
  
    dfs.namenode.rpc-address.ns.nn2
    hadoop02:9000
  
  
  
    dfs.namenode.http-address.ns.nn2
    hadoop02:50070
  
  
  
    dfs.namenode.shared.edits.dir
    qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/ns
  
  
  
    dfs.journalnode.edits.dir
    /opt/programs/hadoop-3.3.6/journal/data
  

  
    dfs.ha.automatic-failover.enabled
    true
  
  
  
    dfs.client.failover.proxy.provider.ns
    org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
  
  
  
    dfs.ha.fencing.methods
    
        sshfence
        shell(/bin/true)
    
  
  
  
 dfs.ha.fencing.ssh.private-key-files
    /root/.ssh/id_rsa
  
  
  
    dfs.ha.fencing.ssh.connect-timeout
    30000

3.修改配置文件mapred-site.xml

将和标签的内容修改如下：

# vim mapred-site.xml


  
  
    mapreduce.framework.name
    yarn

4.修改配置文件yarn-site.xml

# vim yarn-site.xml

将和标签的内容修改如下：


  
  
    yarn.resourcemanager.ha.enabled
    true
  
  
  
    yarn.resourcemanager.cluster-id
    yrc
  
 
  
    yarn.resourcemanager.ha.rm-ids
    rm1,rm2
  
  
  
    yarn.resourcemanager.hostname.rm1
    hadoop01
  
 
  
    yarn.resourcemanager.hostname.rm2
    hadoop02
  
  
  
    yarn.resourcemanager.zk-address
    hadoop01:2181,hadoop02:2181,hadoop03:2181
  
 
  
    yarn.nodemanager.aux-services
    mapreduce_shuffle

5.修改配置文件slaves（Hadoop3.x之后版本均变更为workers）

# vim workers

将localhost修改为以下内容：

hadoop01

hadoop02

hadoop03

6.修改配置文件hadoop-env.sh、mapred-env.sh和yarn-env.sh

# vim hadoop-env.sh

# vim mapred-env.sh

# vim yarn-env.sh

在hadoop-env.sh、mapred-env.sh和yarn-env.sh中均加入JAVA_HOME环境变量：

export JAVA_HOME=/opt/programs/jdk1.8.0_371

7.复制到Hadoop02和Hadoop03

# scp -r /opt/programs/hadoop-3.3.6 root@hadoop02:/opt/programs/

# scp -r /opt/programs/hadoop-3.3.6 root@hadoop03:/opt/programs/

复制完成后可ls查看一下是否复制成功

在三个节点上分别执行以下命令，修改文件“/etc/profile”配置Hadoop环境变量：

# vim /etc/profile

在文件末尾添加以下内容：

export HADOOP_HOME=/opt/programs/hadoop-3.3.6
export PATH=$PATH:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后刷新profile文件，使修改生效：

# source /etc/profile

③启动与测试Hadoop

在这一步开始之前，

一定要设置快照！

一定要设置快照！！

一定要设置快照！！！

否则后面出现问题越改越麻烦，最后只能删除重头再来！！！

1.格式化NameNode

由于是第一次启动Hadoop，需要先格式化NameNode，格式化NameNode需要先启动JournalNode（以后就不用了），在三个节点上分别执行以下命令：

# hadoop-daemon.sh start journalnode

可能会出现以下警告，和书上的内容不一致：

但是不必担心，这个警告是因为使用`hadoop-daemon.sh`脚本启动HDFS守护进程已经不推荐使用了，但是没有影响，你可以jps一下查看你的journalnode进程是否启动。

接下来进行格式化操作（此时要保证三个节点均已开机，并且已经启动zookeeper和journalanoed）

# hdfs namenode -format

出现以下信息则说明格式化成功：

格式化成功后，会在Hadoop安装目录中生成“tmp/dfs/name/current”目录，该目录中则生成了用于存储HDFS文件系统元数据信息的文件fsimage等。

接着执行以下命令进入Hadoop安装目录：

# cd /opt/programs/hadoop-3.3.6

再执行以下命令，将Hadoop01节点Hadoop安装目录下的tmp文件夹远程复制到Hadoop02节点的Hadoop安装目录下：

# scp -r tmp/ root@hadoop02:/opt/programs/hadoop-3.3.6

2.格式化ZKFC

接着在Hadoop01节点上执行以下命令，格式化ZKFC：

# hdfs zkfc -formatZK

若出现以下信息则说明格式化成功：

格式化ZKFC只需进行一次，且仅在Hadoop01节点上

3.启动HDFS和YARN

(这一步非常非常非常容易出问题，如果报错，需要仔细查看日志内容，不要随意修改，很容易死在这黎明前的最后一步！！）

在Hadoop01节点上执行以下命令，启动HDFS和YARN：

# start-dfs.sh

# start-yarn.sh

bug1：

如果出现类似报错

[root@localhost sbin]# start-all.sh
Starting namenodes on [hadoop]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [hadoop]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
2018-07-16 05:45:04,628 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Starting resourcemanager
ERROR: Attempting to operate on yarn resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.
Starting nodemanagers
ERROR: Attempting to operate on yarn nodemanager as root
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation.

可以查看这篇博文寻找解决办法，感谢这篇博文的作者拯救了我，希望也可以拯救各位：两种解决ERROR: Attempting to operate on hdfs namenode as root的方法_starting namenodes on [localhost] error: attemptin-CSDN博客

解决方法：进入profile文件，在环境变量中添加下面的配置

# vim /etc/profile

添加以下内容

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

注：正常启动后使用jps命令查看进程应该有8个

bug2：

当全部启动后，发现访问8088和50070访问不了，jps查看进程后发现，没有NameNode，参考下面这篇博客，重新格式化了NameNode，并重新执行了前面的过程T.T，终于jps八个进程全都有了

【问题解决】Hadoop集群启动后执行JPS没有DataNode或NameNode_hadoop启动jps缺少namenode_wydxry的博客-CSDN博客

首次启动Hadoop集群，要严格按照上面的步骤进行操作（因为涉及格式化问题）

以后再次启动Hadoop集群时，可以按照启动zookeeper、HDFS、YARN的顺序进行，其中，启动zookeeper时，需要在每一个节点上执行一次“zkServer.sh.start"，而启动HDFS和YARN时，只需要在Hadoop01上启动命令“start-dfs.sh”和“start-yarn.sh"

停止时，首先在Hadoop01上执行”stop-yarn.sh”和“stop-dfs.sh"命令，然后在每个节点上都执行一次”zkServer.sh.stop”命令。

此外，还可以使用“start-all.sh”和“stop-all.sh”命令来启动集群，但是系统已经建议放弃使用这两个命令，而改用上面的命令。

启动集群后，在宿主机输入 http://IP地址:8088/cluster 可查看YARN的运行状态（即对应用状态进行监测）

bug3：

如果8088打不开，50070能打开

可以查看下面这位博主的博客：hadoop 8088端口无法访问_hadoop web端口8088-CSDN博客

在浏览器输入 http://Hadoop01的IP地址:50070/ 页面显示 “‘Hadoop01：9000’（active）”

访问 http://Hadoop02的IP地址:50070/ 页面显示“’Hadoop02:9000’（standby）”

正常启动后，三个节点启动的进程应该如下图所示，如果有进程没有启动，那就是存在bug！！

其中：

QuorumPeerMain是ZooKeeper集群所启动的进程；

NameNode、DataNode、JournalNode、DFSZKFailoverController是HDFS集群所启动的进程；

ResourceManager和NodeManager是YARN集群所启动的进程。

希望对各位的Hadoop之旅能够有所帮助！！！

如果觉得对你有帮助，麻烦各位给个点赞收藏加关注哦~

你可能感兴趣的:(Hadoop学习历程,分布式,hadoop,大数据)

9、《参数校验的艺术：@Validated与Hibernate Validator深度实践》 wolf犭良 SpringBoot hibernate java 后端
参数校验的艺术：@Validated与HibernateValidator深度实践一、参数校验的必要性在分布式系统架构中，参数校验是保障系统健壮性的第一道防线。根据生产环境事故统计，约35%的系统异常源于非法参数输入。传统的if-else校验方式存在以下痛点：校验逻辑与业务代码高度耦合重复校验逻辑难以复用错误提示格式不统一代码可读性差维护困难二、校验框架技术选型2.1JSR标准演进JSR版本特性发
常见的深度学习模型总结编码时空的诗意行者深度学习人工智能
1.深度前馈神经网络(DeepFeedforwardNetworks)发明时间：2006年左右，随着计算能力的提升和大数据集的可用性增加，深度学习开始兴起。发明动机：解决传统机器学习模型在复杂数据上的局限性，如线性模型无法处理非线性关系的数据。模型特点：由多个隐藏层组成的神经网络，每一层的节点与下一层的节点完全连接。应用场景：分类、回归、语音识别、图像识别等。2.卷积神经网络(Convolutio
基于联邦学习的政务大数据平台应用研究宋罗世家技术屋计算机软件及理论发展专栏政务大数据
摘要当前数字政府建设已进入深水区，政务大数据平台作为数据底座支撑各类政务信息化应用，其隐私数据的安全性和合规性一直被业界广泛关注。联邦学习是一类解决数据孤岛的重要方法，基于联邦学习的政务一体化大数据平台应用具有较高的研究价值。首先，介绍政务大数据平台及联邦学习应用现状；然后，分析政务大数据平台面临的隐私数据的采集、分类分级、共享三大管理挑战；接着，阐述基于联邦学习的推荐算法和隐私集合求交技术的解决
Sentinel 是什么 xinyi_java 技术栈工作总结 java Sentinel zipkin 链路追踪 QPS
目录Sentinel是什么？概述Sentinel的历史：历史Sentinel分为两个部分:两部分基本概念及作用基本概念：主要作用：Sleuth概述zipkin分布式监控客户端基本概念Sentinel是什么？概述分布式系统的流量防卫兵随着微服务的流行，服务和服务之间的稳定性变得越来越重要。Sentinel以流量为切入点，从流量控制、熔断降级系统负载保护等多个维度保护服务的稳定性。Sentinel的历
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
Git常用指令香草加冰鸭编码工具 git 源代码管理
Git常用指令1.仓库初始化与克隆2.提交与修改3.分支管理4.远程操作5.撤销与回退6.日志与历史7.其他实用命令注意事项Git是一个开源的分布式版本控制系统，可以有效、高效地处理从小型到大型项目的版本管理。Git的优势在于它的分布式架构，它允许用户在本地进行版本控制，同时也可以将更改推送到远程仓库。以下是常用的Git命令列表，按功能分类整理，方便快速查阅：1.仓库初始化与克隆gitinit初始
解析国产数据库架构、应用场景及其存储适配罗伯特之技术屋综合技术探讨及方案专栏智能信息系统与结构理论专栏数据库架构数据库
【摘要】随着国产数据库在国内金融业的逐步普及应用，金融业信息化建设中越来越多系统需要采用集中式或分布式国产数据库替代原有Oracle数据库，本文主要从国产数据库的存储架构以及场景应用角度进行分析阐述，提供国产数据库存储应用选型思路建议。1.国产数据库的市场格局，技术背景以及发展格局1.1国产数据库的发展情况数据库(Database，简称DB)是按照数据结构来组织、存储和管理数据的仓库。数据库管理系
政务数据标识技术研究进展及下一代政务数据标识体系宋罗世家技术屋计算机软件及理论发展专栏政务
摘要政务数据标识是建设全国一体化政务大数据体系的一项基础性工作。对数据标识技术的研究进展进行了总结，比较了不同数据标识技术编码规则的异同，并进一步总结了政务数据标识及应用进展。结合政务数据所具有的权责明确、安全性要求高、兼容性需求强等特点，提出了下一代政务数据标识体系Gcode。Gcode由外部码、内部码和安全码3个部分组成。其中，外部码兼容了统一社会信息用代码，内部码建立了“机构部门-系统-数据
全面解析鸿蒙（HarmonyOS）开发：从入门到实战，构建万物互联新时代 chenNorth。鸿蒙 harmonyos 华为
文章目录引言一、鸿蒙操作系统概述二、鸿蒙开发环境搭建三、鸿蒙核心开发技术1.**ArkUI框架**2.**分布式能力开发**3.**原子化服务与元服务**四、实战案例：构建分布式音乐播放器五、鸿蒙开发工具与调试技巧六、鸿蒙生态与未来展望结语引言随着万物互联时代的到来，华为推出的鸿蒙操作系统（HarmonyOS）凭借其分布式架构和全场景能力，成为开发者关注的焦点。本文将从鸿蒙系统的核心特性出发，深入
浅谈Java中Excel导入导出的技术详解 foolhuman java excel
引言在Java开发中，Excel文件的导入导出是一个常见的需求。无论是数据批量处理、报表生成还是数据迁移，Excel都是一个不可或缺的工具。然而，Excel导入导出过程中涉及到的技术细节和潜在问题常常让开发者感到头疼。本文将从技术难点出发，结合代码示例，详细介绍如何在Java中高效地实现Excel的导入导出功能。技术难点分析在Excel导入导出过程中，以下几个技术难点需要特别关注：大数据量处理当处
分布式数据库 chengxuyuan1213_ 分布式数据库
分布式数据库是一种将数据分散存储在多个计算机节点上的数据库系统，这种架构旨在提高数据的可用性、可靠性和可扩展性，以应对日益增长的数据处理需求。以下是对分布式数据库的详细介绍：一、定义与特点分布式数据库（DistributedDatabase，DDB）是指将数据分散存储在计算机网络的不同计算机节点上，每个节点具有独立处理的能力，并且通过网络通信子系统实现数据的全局访问和管理。这种系统允许数据在逻辑上
大数据SQL调优专题——引入黄雪超技术基础大数据
从巴别塔开始我们先从一个神话故事开始本专栏的内容：在人类的早期，世界上的所有人说着同一种语言，彼此之间沟通毫无障碍。这种统一的语言让人们心生野心，他们决定联合起来建造一座高耸入云的塔，这座塔就是巴别塔。人们希望通过这座塔能够直达天堂，以此展示他们的力量和智慧。然而，他们的行为引起了上帝的关注。上帝看到人类如此团结，担心他们一旦成功建造巴别塔，将会变得无比强大，甚至可能威胁到神的权威。于是，上帝决定
Hive数据库及表操作亦576 hive 数据库 hadoop
数仓原理以及Hive入门：数仓原理：数仓（DataWarehouse）是用于支持企业决策的数据存储和分析系统。数仓原理包括以下几个方面：1.数据抽取（Extraction）：从各个业务系统中抽取数据，并进行清洗和转换，以适应数仓的数据模型。2.数据存储（Storage）：将清洗和转换后的数据存储到数仓中，通常使用关系型数据库或大数据存储技术来存储大量的数据。3.数据整合（Integration）：
开源mes系统_如何快速构建基于MES的开源云平台 weixin_39926613 开源mes系统
导读本文为2019工业互联网平台活动盘点文章，同时也欢迎广大工业互联网平台企业参与本次盘点。具体参与方式可加编辑微信号(13517202453)详细咨询。随着智能制造转型战略的持续推进，MES作为承载智能化生产制造过程的核心系统正在受到越来越多企业的关注。与此同时，工业互联网、大数据、云计算等技术的飞速发展和日渐成熟，正在不断赋予MES更多新功能。由此推动MES朝着智能化、平台化、云化的方向发展。
新型大数据架构之湖仓一体（Lakehouse）架构特性说明——Lakehouse 架构（一） m0_74825238 面试学习路线阿里巴巴大数据架构
文章目录为什么需要新的数据架构？湖仓一体（Lakehouse）——新的大数据架构模式同时具备数仓与数据湖的优点湖仓一体架构存储层计算层湖仓一体特性单一存储拥有数据仓库的查询性能存算分离开放式架构支持各种数据源类型支持各种使用方式架构简单数据共享schema过滤和推演时间回溯为什么需要新的数据架构？数据仓库和数据湖一直是实现数据平台最流行的架构，然而，过去几年，社区一直在努力利用不同的数据架构方法来
APL语言的区块链沈清韵包罗万象 golang 开发语言后端
APL语言的区块链：探索未来的分布式计算在近年来，区块链技术逐渐成为科技和金融领域的一个热门话题。它不仅在加密货币领域掀起了波澜，还被应用于供应链管理、智能合约、身份验证等多个方面。而在这场技术革命的背后，编程语言的选择也显得尤为重要。APL（AProgrammingLanguage）作为一种鲜为人知的编程语言，在区块链的构建中展现出了独特的潜力。本文将深入探讨APL语言在区块链技术中的应用及其优
[Python]JWT认证与pyjwt包简介 alwaysrun Python Internet python jwt flask pyjwt
文章目录JWT认证简介构成载荷声明pyjwt编解码flask中验证JWT是一种JSON的行业标准，广泛应用在系统的用户认证方面。JWT认证简介JWT（JSONWebTokens），是为了在网络应用环境间传递声明而执行的一种开放的行业标准（RFC7519）。该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户
AI时代下的安全堡垒：零信任模式如何守护你的AI系统 haomo2014 人工智能信息可视化前端
在人工智能（AI）飞速发展的今天，越来越多的企业和个人开始依赖AI写代码工具等AI技术来提升效率和创造力。然而，AI系统也面临着前所未有的安全挑战。传统的安全模式已经难以应对AI系统的数据敏感性、模型漏洞以及分布式架构带来的风险。因此，零信任安全模式应运而生，成为守护AI系统安全的新型堡垒。……AI系统的安全挑战：传统安全模式的局限性AI系统与传统的应用程序相比，具有独特的安全挑战：数据敏感性:A
全排列（蓝桥必备1）ん贤算法数据结构全排列
全排列是蓝桥杯中的高频考点之一，接下来为我的学习历程：先练习基本的全排列->熟练应用后套用stl函数库->进阶练习1、全排列-基础练习2、全排列ll-进阶练习3、C++模板函数套用4、排列序数（蓝桥真题）5、带分数（蓝桥真题）1、全排列-基础练习给定一个不含重复数字的数组nums，返回其所有可能的全排列。你可以按任意顺序返回答案。示例1：输入：nums=[1,2,3]输出：[[1,2,3],[1,
PX4软件架构小火炉飞架构开源软件 c++无人机
无人机系统图一个高性能的飞控软件需要哪些模块？提供实时操作系统，创建子任务后有互不干扰；运行驱动程序，驱动外设硬件，包括加速度计、角速度计、磁罗盘、GPS、测距传感器、光流传感器、空速计、温度传感器，可控制的吊舱、相机、吊运系统等等；完善的中间件库，如参数库，分布式收发的信息交互，与地面站、机载计算机或其他设备通信的协议库，数学库、控制库，日志记录等；各种上层app，如导航app，控制app，制导
flink实时集成利器 - apache seatunnel - 核心架构详解 24k小善 flink apache 架构
SeaTunnel（原名Waterdrop）是一个分布式、高性能、易扩展的数据集成平台，专注于大数据领域的数据同步、数据迁移和数据转换。它支持多种数据源和数据目标，并可以与ApacheFlink、Spark等计算引擎集成。以下是SeaTunnel的核心架构详解：SeaTunnel核心架构SeaTunnel的架构设计分为以下几个核心模块：1.数据源（Source）功能：负责从外部系统读取数据。支持的
Mall4j商城实战 - 部署 elasticsearch、kibana 数据搜索 yueerba126 Mall4j商城实战 elasticsearch jenkins 大数据
ElasticsearchElasticsearch概览分布式搜索和分析引擎。实时处理大数据。支持复杂查询。核心组件索引(Index)存储相似文档集合的容器。文档(Document)数据存储的基本单元，JSON格式。倒排索引(InvertedIndex)实现快速全文搜索的数据结构。节点(Node)单个Elasticsearch实例，集群的一部分。️基础操作创建、删除索引。查看索引结构(Mappin
Redis过期删除与内存淘汰策略面试题剖析 Java 第一深情 nosql中间件面试相关 redis 数据库缓存
一、谈谈Redis过期删除策略参考我的这篇博客“二、过期删除策略&内存淘汰策略”部分高性能分布式缓存Redis-数据管理与性能提升之道_redis高性能缓存数据库-CSDN博客二、谈谈Redis内存淘汰策略参考我的这篇博客“二、过期删除策略&内存淘汰策略”部分高性能分布式缓存Redis-数据管理与性能提升之道_redis高性能缓存数据库-CSDN博客
毕设项目基于大数据的b站数据分析 nange12330a 毕业设计毕设大数据
文章目录0数据分析目标1B站整体视频数据分析1.1数据预处理1.2数据可视化1.3分析结果2单一视频分析2.1数据预处理2.2数据清洗2.3数据可视化3文本挖掘（NLP）3.1情感分析0数据分析目标今天向大家介绍如何使用大数据技术，对B站的视频数据进行分析，得到可视化结果。项目运行效果：毕业设计基于大数据的b站数据分析项目分享:见文末!1B站整体视频数据分析分析方向：首先从总体情况进行分析，之后分
消息队列之事务消息，RocketMQ 和 Kafka是如何做的？ 90后小伙追梦之路 java 面试架构 kafka java-rocketmq rocketmq java 面试
今天我们来谈一谈消息队列的事务消息，一说起事务相信大家都不陌生，脑海里蹦出来的就是ACID。通常我们理解的事务就是为了一些更新操作要么都成功，要么都失败，不会有中间状态的产生，而ACID是一个严格的事务实现的定义，不过在单体系统时候一般都不会严格的遵循ACID的约束来实现事务，更别说分布式系统了。分布式系统往往只能妥协到最终一致性，保证数据最终的完整性和一致性，主要原因就是实力不允许...因为可用
毕业设计 python大数据旅游数据分析可视化系统(源码分享) Mr.D学长毕业设计 python 毕设
文章目录0前言1课题背景2数据处理3数据可视化工具3.1django框架介绍3.2ECharts4Django使用echarts进行可视化展示（mysql数据库）4.1修改setting.py连接mysql数据库4.2导入数据4.3使用echarts可视化展示5实现效果5.1前端展示5.2后端展示6最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到
关于kafka中的timestamp与offset的对应关系 jediael_lu X.1大数据
关于kafka中的timestamp与offset的对应关系@(KAFKA)[storm,kafka,大数据]关于kafka中的timestamp与offset的对应关系获取单个分区的情况同时从所有分区获取消息的情况结论如何指定时间出现UpdateOffsetException时的处理方法相关源码略读1入口2处理逻辑1建立offset与timestamp的对应关系并保存到数据中2找到最近的最后一个
Zookeeper是如何解决脑裂问题的？ java1234_小锋 java zookeeper 分布式云原生
大家好，我是锋哥。今天分享关于【Zookeeper是如何解决脑裂问题的？】面试题。希望对大家有帮助；Zookeeper是如何解决脑裂问题的？1000道互联网大厂Java工程师精选面试题-Java资源分享网Zookeeper通过多种机制来解决脑裂（Split-brain）问题，确保集群中各节点间的一致性和协调性。脑裂问题通常发生在分布式系统中，当网络分区或节点故障导致系统中的一些节点无法与其他节点通
RocketMQ vs. Kafka: 选择合适的消息队列系统及性能比较 YazIdris rocketmq kafka 分布式
在构建分布式系统和大规模数据处理应用程序时，选择一个合适的消息队列系统对于确保高效的消息传递和可靠性非常重要。RocketMQ和Kafka是两个领先的开源消息队列系统，它们在各自的领域内都有广泛的应用。本文将探讨RocketMQ和Kafka的选择理由，并对它们的性能进行比较。消息队列系统简介RocketMQ和Kafka都是高吞吐量、低延迟的分布式消息队列系统。它们具有可水平扩展性、持久化存储和高可
Qt 容器类整理与使用 telllong C++基础实战桌面应用程序开发 qt 开发语言 C++
Qt提供了哪些容器类Qt提供了丰富的容器类，这些容器类主要用于存储和管理数据，按照其内部组织结构和功能特性，大致可分为顺序容器和关联容器两大类：顺序容器：QList-动态数组，支持快速的头部和尾部插入删除操作，以及通过索引访问元素。QVector-类似于QList，但内部实现保证了元素在内存中连续存储，对于大数据量并且频繁随机访问时，可能有更好的性能表现。QLinkedList-双向链表，支持高效
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/