wake D

Hadoop-3.3.4完全分布式安装（包含VMware16和Ubuntu22的下载安装及配置）、搭建、配置教程，以及Hadoop基础简介

一、Hadoop简介

1、Hadoop项目基础结构

注：本篇文章主要涉及到：HDFS（分布式文件系统）、YARN（资源管理和调度框架）、以及MapReduce（离线计算）。以下就是本篇文章所采用的的架构。

2、Hadoop组成架构

（1）HDFS架构简述

Hadoop-3.3.4完全分布式安装（包含VMware16和Ubuntu22的下载安装及配置）、搭建、配置教程，以及Hadoop基础简介_第2张图片

HDFS架构图

注：上述的master、slave1、slave2均是主机名（结点名），可以和本篇文章不一致，但下面所有涉及到的地方均需和你这里的主机名一致，如何修改文章后面部分会进行介绍。

① NameNode ：NameNode是HDFS部分的核心；NameNode又称为Master，储存着HDFS的元数据（即分布式文件系统中所有文件的目录树，并且跟踪追查整个Hadoop集群中的文件）；NameNode本身不储存实际的数据或者是数据集，数据本身是储存在DataNode中；注意当NameNode这个节点关闭之后整个Hadoop集群将无法访问。

② DataNode：DataNode负责将实际的数据储存在HDFS中，DataNode也称作Slave，并且NameNode和DataNode会保持通信不断；如果某个DataNode关闭了之后并不会影响数据和整个集群的可用性，NameNode会将后续的任务交给其他启动着的DataNode；DataNode 会定期（dfs.heartbeat.interval 配置项配置，默认是 3 秒）向 NameNode 发送心跳，如果 NameNode 长时间没有接受到 DataNode 发送的心跳， NameNode 就会认为该 DataNode 失效；block 汇报时间间隔取参数 dfs.blockreport.intervalMsec，参数未配置的话默认为 6 小时。

③ Secondary NameNode：Secondary NameNode主要是用于定期合并并且命名空间镜像的编辑日志；Secondary NameNode中保存了一份和NameNode一致的镜像文件（fsimage）和编辑日志（edits）；如果NameNode发生故障是则可以从Secondary NameNode恢复数据。

（2）YARN架构简述

Hadoop-3.3.4完全分布式安装（包含VMware16和Ubuntu22的下载安装及配置）、搭建、配置教程，以及Hadoop基础简介_第3张图片

YARN架构图

① ResourceManager：ResourceManager主要是负责与客户端交互，处理来自客户端的请求；启动和管理ApplicationMaster，并且在其运行失败的时候再重新启动它；管理NodeManager，接收来自NodeManager的资源汇报信息，并向NodeManager下达管理指令；资源管理与调度，接收来自ApplicationMaster的资源申请请求，并为之分配资源。

② NodeManager：NodeManager主要负责启动后向ResourceManager注册，然后与之保持通信，通过心跳汇报自己的状态以及接受来自RM的指令；监控节点的健康状态，并与ResourceManager同步；管理节点上所有的Container的生命周期，监控Container的资源使用情况，以及Container运行产生的日志，NodeManager会向ResourceManager汇报Container的状态信息；管理分布式缓存，以及不同应用程序的其他附属要求。

（3）MapReduce架构简述

Hadoop-3.3.4完全分布式安装（包含VMware16和Ubuntu22的下载安装及配置）、搭建、配置教程，以及Hadoop基础简介_第4张图片

MapReduce架构图

① Client客户端：用户可以通过Client客户端将自己编写的一些MapReduce程序给提交到JobTracker；也可以通过其提供的一些API查看一些作业的运行状态。

② JobTracker：JobTracker主要是负责作业调度和资源的监控；JobTracker如果发现有一些作业失败的情况，就会将对应任务给转移到其他的结点；JobTracker同时也会追踪任务的执行进度和资源的使用情况，并将这些情况转发给Task Scheduler（任务调度器），Task Scheduler调度器在资源出现空闲的时候会将这些资源分配给合适的作业。

③ TaskTracker：TaskTracker会周期性的通过心跳（Heartbeat）将自己结点的资源使用情况以及作业的运行进度发送给JobTracker，同时也会接收JobTracker发送回来的指令并执行；TaskTracker使用“slot”等量划分本节点上的资源量。“slot”代表计算资源（CPU、内存等），一个Task获取到一个slot后才有机会运行，而Hadoop调度器的作用就是将各个TaskTracker上的空闲slot分配给Task使用；slot分为Map slot和Reduce slot两种，分别供Map Task和Reduce Task使用。TaskTracker通过slot数目（可配置参数）限定Task的并发度。

④ Map Task：Map Task会将对应的数据解析成一个键值对（key/value），最后调用用户的map()函数处理，将临时的结果储存在本地的磁盘上，其中一个临时的结果会被划分成若干块，每一块会被一个Reduce Task处理。

⑤ Reduce Task：将排序好了的键值对一次读取，再调用用户的reduce()函数进行处理，最后将处理结果储存在HDFS上面。

二、VMware下载安装及Linux虚拟机配置（Ubuntu22.04.1）

1、VMware_16.2.4下载安装

VMware_16.2.4下载（官网）：https://www.vmware.com/cn/products.html

点击下载试用版，后面会给出许可证密钥。

安装完后一定要点击许可证，不然只能试用30天，密钥在下面给出。

这里许可证的密钥可以去网上找一个填起，网上很多这种一搜就出来了。

2、在VMware_16.2.4上安装Linux虚拟机（Ubuntu22.04.1）

（1）下载Ubuntu22.04.1

Ubuntu22.04.1官网下载地址：https://ubuntu.com/download/desktop

① 点击Download下载最新的Ubuntu版本。

如果想下载过去的其他版本，就点击“see our alternative downloads”，然后进入新页面，向下滑动，找到如下区域，然后点击Past relases。

点击Past releases后进入新的页面后下滑，就可以看到如下列表，然后根据个人需要选择下载。

（2）创建并配置Linux虚拟机

① 打开VMware_16.2.4，点击创建新的虚拟机。

② 先选择自定义，然后点击下一步。

③ 默认选择，直接点击下一步。

④ 在这里我们先选择稍后安装操作系统（后面会直接指定上面下载好了的Ubuntu22.04.1源文件），然后选择下一步。

⑤ 选择Linux系统，然后再根据自己电脑实际配置选择Ubuntu操作系统版本，最后点击下一步。

⑥ 选择虚拟机的名字（和主机名不一样，可以自由选择），这里我们取名为Hadoop_m，选择安装目录（自由选择），最后点击下一步。

⑦ 选择处理器数量和内核数，我的电脑是8核16线程的，所以我选个2、4，如果你的电脑的配置更高一些可以考虑酌情增加一些。

⑧ 选择虚拟机的内存，根据自己需要选择不得低于最低推荐内存，建议直接按照它的推荐内存设置就好，然后点击下一步。

⑨ 选择使用网络地址转换（NAT），然后点击下一步。

⑩ 选择LSI Logic的I/O控制器类型。

⑪ 选择SCSI的磁盘类型，然后点击下一步。

⑫ 选择创建虚拟磁盘，然后点击下一步。

⑬ 选择磁盘的大小，根据自己的电脑实际配置来选择，最好不要低于它的推荐大小，然后选择将虚拟磁盘拆分为多个文件，最后点击下一步。

⑭ 选择磁盘的存放位置，然后点击下一步。

⑮ 点击自定义硬件，配置映像文件的位置。

⑯ 点击完成，即完成了一个Linux虚拟机的新建。

（3）安装配置Ubuntu22.04.1

① 打开刚新建好的Linux虚拟机。

② 直接回车。

③ 选择语言，然后点击安装Ubuntu。

④ 选择中文键盘布局，然后点击继续。

⑤ 点击选择正常安装，然后尽量勾选上安装时下载更新，最后点击继续。

⑥ 先选中清除整个磁盘并安装Ubuntu，然后点击现在安装。

⑦ 点击继续。

⑧ 选择自己所在的地区，然后点击继续。

⑨ 这里需要注意一下主机名的设置，主机名可以和我的不一样但是后面一定要和你自己的主机名统一，其他的选项自己随便填就好。

⑩ 安装完成后，点击现在重启。

最后启动成功输入密码进入下面的桌面

（4）网络配置（IP设置）

本教程的Hadoop集群IP分配样例
主机名	IP地址
master	*..**.130
slave1	*..**.131
slave2	*..**.132

注：打*号的部分就和你们自己电脑上VMware中的虚拟网络配置里的VMnet8里的子网IP的前三位一样，每个人的不一样，所以你们自行替换。文章下面点会提到IP设置，这里有个印象就好。

① 在VMware主页点击编辑 。

② 选择虚拟网络编辑器。

③ 先点击选择VMnet8，再选择更改设置。

④ 先点击VMnet8，后面再点击NAT设置。

⑤ 先把网关IP填上，前三位就直接按照子网IP的前三位直接复制粘贴，最后一位补一个2，最后点击确定。

注：这里的网关IP最好记下来后面还得用。

⑥ 点击应用，再点击确定。

⑦ netplan中网络配置文件修改，打开Linux虚拟机Hadoop_m(master)，Ctrl+Alt+t打开命令行输入如下命令。

cd /etc/netplan #转移目录到netplan文件夹中

ls #ls是查看当前目录下的文件的命令

sudo chmod 777 01-network-manager-all.yaml #给文件添加可读、写、运行的权限

vi 01-network-manager-all.yaml #vi是查看（修改）文件内容的命令

例：

sudo是以管理员的权限来执行命令，chmod 777是给文件添加一个可读、写、运行的权限，vi是查看（修改）一个文件，这里输入的密码就是你的用户密码（输入的密码是不可见的，所以不必疑惑）。

也可以直接点击文件->其他位置->计算机->etc->netplan目录下去修改对应文件。

然后进入到如下页面，在将如下内容填写到文件里，因为可能存在格式问题，建议直接复制粘贴，最后在修改，修改的时候并不能直接输入，按一下键盘上的Insert（Ins）键就可以进入插入模式，按一下ESC就可以退出插入模式，当复制粘贴后，再修改了你的IP和网关后，点击ESC，然后在输入英文冒号，在输入wq，最后点击回车就可以退出文本编辑，如果不行，就输入wq!，加一个感叹号强行执行再回车，要是再不行就直接Ctrl+z强制停止。

注：虚拟机的IP地址前三位必须得和前面配置VMnet8里的网关IP的前三位一样，最后一位自己自由选择但是不能和前面VMnet8里的IP或者自己电脑本机的IP一样，而且也不能和后面其他两个slave结点的主机IP一样；例：前面的网关IP是：192.168.234.2，那么本结点的主机IP就可设置为：192.168.234.130。

ethernets:
    ens33:
      dhcp4: false
      addresses: [***.***.***.130/24]  #打*号部分就是你前面VMnet8的网关IP的前三位
      routes:
       - to: default
         via: ***.***.***.*   #打*号的部分填写前面你的VMnet8的网关IP
      nameservers:
        addresses: [114.114.114.114,8.8.8.8]

注：上面打*号的部分记得替换成自己VMnet8中设置的。address后面的中括号中除开“/24”其它的部分就是你这台虚拟机的IP；via后面的就是前面的网关IP。

这个文件里填写的IP最好按照你自己电脑上VMware上的虚拟网络配置里的子网IP和网关IP的前三位来修改，我这里的例子只是做个参考。

例：

⑧ 配置完netplan文件夹中的网络配置文件后，保存退出文本编辑，退出命令行编辑文本退出方式就按本文章上面提到的来就好；退出文本编辑回到命令行后再输出如下命令，将刚才修改的网络配置文件进行应用。

sudo netplan apply  #应用刚修改的网络配置文件

应用完后输入以下命令查看是否配置成功。

ip a   #查看本机的ip地址可以用这段命令

如果出现以下结果，则说明成功了

转到你自己的windows系统下打开以下目录：

控制面板\网络和 Internet\网络连接

然后一直确定就好。

最后回到虚拟机下，如果不放心可以重启一下虚拟机。

打开你的火狐浏览器，测试一下能否正常上网。

⑨ 安装open-vm-tools

连上网后，我们先换一下软件安装更新的源

然后，我们打开命令行，输入下面的命令：

sudo apt-get update #更新一下系统源

#输入了上面的代码可能会弹出一个让你更新的窗口，如果有就直接点击现在安装就可以了

sudo apt-get upgrade

等待安装更新完后再输入下面的命令：

sudo apt-get install open-vm-tools

#安装open-vm-tools，中间遇到的停顿除了空间请求需要yes一下其他的都直接默认回车

sudo apt-get install open-vm-tools-desktop

#安装open-vm-tools-desktop，用于支持文件双向拖放

安装完成后重启虚拟机，然后虚拟机界面就可以自适应了，在自己电脑下复制的东西，也可以直接粘贴到Linux虚拟机上了，也可以直接双向拖拽文件了，十分方便。

最后在安装一个Vim编辑器，感觉比较方便：

sudo apt-get install vim  #安装时如果需要确认直接输入Y就好

三、Hadoop-3.3.4下载安装、配置，以及JDK下载、配置

1、Hadoop-3.3.4、以及JDK下载

（1）Hadoop-3.3.4下载

由于上一步我们已经连上网了，所以这里我们直接在我们的Hadoop_m虚拟机中打开火狐浏览器下载。

注：本文使用清华大学的开源镜像网站提供的地址下载

下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/

然后进入下一个页面，点击hadoop-3.3.4.tar.gz下载压缩包。

下载的文件在下载目录下

（2）JDK下载（JDK1.8.0_341）

Oracle官网下载：https://www.oracle.com/java/technologies/downloads/

进入Oracle官网JDK下载页面后下滑到如下页面：

点击下载后需要提供一个Oracle的账号登录才能下载，因为这是Oracle官网，没有的话可以先注册一个。

下载完成后的文件依然在下载目录里面

2、Hadoop-3.3.4以及JDK1.8.0_341的解压缩安装以及环境变量和重要XML文件的配置

（1）JDK1.8.0_341的解压缩安装以及环境变量的配置

① JDK1.8.0_341解压缩

首先我们需要创建一个“/usr/lib/jvm”目录来存放JDK的文件

cd /usr/lib   #先来到lib目录下面

sudo mkdir jvm   #然后在创建一个jvm文件夹

mkdir就是创建文件夹的命令，如果需要创建一个文件使用touch命令。

创建好了文件夹后我们再进行如下操作：

cd ~       #首先进入用户的主目录

cd /home/dyl/下载   #然后进入下载目录，我这里的dyl是我的用户名，
                    #你们记得改成自己的用户名

sudo tar -zxf ./jdk-8u341-linux-x64.tar.gz -C /usr/lib/jvm

#将JDK的压缩文件解压缩到/usr/lib/jvm目录中，tar zxpf是解压缩命令，
#如果在最后不跟上解压缩的路径则会默认解压缩到当前的目录下面

注：如果想安装中文输入法的请参考后面的链接：Ubuntu 安装中文输入法_Chamico的博客-CSDN博客_ubuntu中文输入法

如果不想安装的可以直接shift键也可以进行系统自带的中英文切换

注：有些文件时默认不可见的，可以在文件管理器中设置隐藏文件可见，例：

② JDK的环境变量配置

在命令行中输入以下命令：

vim ~/.bashrc   #进入主目录下编辑环境变量配置文件

进入文件编辑后就像上面说过的那样，点击一下键盘Insert（Ins）键，然后用方向键来操控上下左右，在文件末尾添加如下内容，进入Insert（插入）模式后可以直接鼠标右键复制粘贴，也可以Ctrl+shift+V粘贴：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_341
export JRE_HOME=${JAVA_HOME}/jre
export PATH=${JAVA_HOME}/bin:$PATH
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

添加完毕后，按一下ESC键退出Insert（插入模式），然后再点击英文冒号，输入wq!退出文本编辑

在编辑完.bashrc文件过后，再输入以下命令来使添加的配置生效：

source ~/.bashrc

最后在输入下面这段命令，检查JDK是否安装成功：

java -version

如果出现以下画面则是安装配置成功：

（2）Hadoop-3.3.4的解压缩安装、以及环境变量的配置

① Hadoop-3.3.4解压缩安装

先将Hadoop-3.3.4解压缩到、/usr/local目录下面：

sudo tar -zxf ~/下载/hadoop-3.3.4.tar.gz -C /usr/local

#将Hadoop3.3.4解压缩到/usr/local目录下面

然后输入以下命令进入.bashrc文件配置环境变量：

vim ~/.bashrc

在.bashrc文件末尾插入以下语句：

export HADOOP_HOME=/usr/local/hadoop-3.3.4
export HADOOP_LOG_DIR=${HADOOP_HOME}/logs
export PATH=${HADOOP_HOME}/sbin:${HADOOP_HOME}/bin:$PATH

插入完成后退出.bashrc的文本编辑，然后输入以下语句来应用环境变量以及测试是否配置成功：

source ~/.bashrc  #应用环境变量

cd ~   #回到主目录

hadoop version   #查看hadoop的信息，测试是否成功安装配置

出现以下情况则说明配置成功：

（3）Hadoop-3.3.4的核心文件配置

可以直接在文件系统中打开文件直接修改，也可以在命令行中修改，本篇文章采用命令行的形式进行核心文件的修改。

① hadoop-env.sh

首先打开命令行输入以下的命令进入hadoop-env.sh文件中：

cd /usr/local/hadoop-3.3.4/etc/hadoop
#先进入上述目录下，因为hadoop-env.sh文件在这个目录下面

vim hadoop-env.sh     #修改文件

在hadoop-env.sh文件末尾追加以下的内容：

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_341
export HDFS_NAMENODE_USER=dyl
export HDFS_DATANODE_USER=dyl
export HDFS_SECONDARYNAMENODE_USER=dyl
export YARN_RESOURCEMANAGER_USER=dyl
export YARN_NODEMANAGER_USER=dyl


#我这里的dyl是我自己的用户名，你们记得换成你们自己的用户名

注：如果在退出文本编辑的时候，出现警告，那么久直接Ctrl+Z终止进程，再输入以下的命令来赋予hadoop目录下所有的文件可更改的权限：

sudo chmod 777 *   #赋予当前目录下的所有文件可更改的权限

然后再进入文件进行修改保存

② core-site.xml

打开core-site.xml文件：

再在configuration中输入以下内容：

        
                fs.defaultFS
                hdfs://master:8020
        
        
                hadoop.tmp.dir
                /usr/local/hadoop-3.3.4/tmp
        
        
                hadoop.http.staticuser.user
                dyl

注：这里面的dyl是我的用户名，请修改成你们自己的用户名

添加完后退出编辑

③ hdfs-site.xml

先打开hdfs-site.xml文件：

然后再在文件的configuration中输入以下内容：

        
                dfs.namenode.http-address
                master:9870
        
        
                dfs.namenode.secondary.http-address
                slave2:9868

添加完后退出文件编辑

④ yarn-site.xml

先打开yarn-site.xml文件：

然后再在文件中的configuration中输入以下内容：

        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
        
                yarn.resourcemanager.hostname
                slave1
        
        
                yarn.nodemanager.env-whitelist
                JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
        
        
                yarn.application.classpath
                /usr/local/hadoop-3.3.4/etc/hadoop:/usr/local/hadoop-3.3.4/share/hadoop/common/lib/*:/usr/local/hadoop-3.3.4/share/hadoop/common/*:/usr/local/hadoop-3.3.4/share/hadoop/hdfs:/usr/local/hadoop-3.3.4/share/hadoop/hdfs/lib/*:/usr/local/hadoop-3.3.4/share/hadoop/hdfs/*:/usr/local/hadoop-3.3.4/share/hadoop/mapreduce/*:/usr/local/hadoop-3.3.4/share/hadoop/yarn:/usr/local/hadoop-3.3.4/share/hadoop/yarn/lib/*:/usr/local/hadoop-3.3.4/share/hadoop/yarn/*

        

        
                yarn.log-aggregation-enable
                true
        
    
        
                yarn.log.server.url
                http://slave1:19888/jobhistory/logs
        
    
        
                yarn.log-aggregation.retain-seconds
                604800
        
        
                yarn.nodemanager.vmem-check-enabled
                false

添加完后退出文本编辑

⑤ mapred-site.xml

打开mapred-site.xml文件进行编辑：

在文件中的configuration中输入以下内容：

        
                mapreduce.framework.name
                yarn
        
        
                mapreduce.application.classpath
                /usr/local/hadoop-3.3.4/share/hadoop/mapreduce/*:/usr/local/hadoop-3.3.4/share/hadoop/mapreduce/lib/*
        
        
        
                mapreduce.jobhistory.address
                slave1:10020
        

        
        
                mapreduce.jobhistory.webapp.address
                slave1:19888

添加完之后退出文本编辑

⑥ workers

打开workers文件：

然后再在文件中输入以下内容：

这里的master是此台虚拟机的主机名，slave1、slave2是后面我们将会克隆的另外两台虚拟机的主机名。

设置好后退出文本编辑。

注：不能有空格也不能有空行

（4）Hadoop从属结点虚拟机克隆、以及配置

① 关闭master主结点的虚拟机，然后进行如下操作：

第一个从属结点的虚拟机就克隆完了，接下来第二个从属结点的虚拟机模仿这第一个的步骤来，只不过把虚拟机的名字改成Hadoop_s2就好了。

最终的结果如下三台虚拟机：

⑤ 依次打开三台虚拟机配置主机名和IP地址

首先先进入Hadoop_s1（slave1）虚拟机下，修改Hadoop_slave1的主机名以及IP地址（因为Hadoop_s1，Hadoop_s2这两台机器是由Hadoop_m这台机器克隆来的，所以主机名和IP都一样，需要修改，否则无法联网），步骤如下：

在Hadoop_s1虚拟机下：

首先在命令行输入以下命令进入hostname文件中来修改主机名：

将hostname文件中的主机名修改为slave1（注意不要有空格或者是空行），修改的主机名要重启虚拟机后才会生效，但是我们后面可能还会涉及到重启，所以我们这里先不必重启，最后修改完所有的文件再重启虚拟机。

修改完后退出这个文件的编辑。

修改完Hadoop_s1的主机名后就修改IP地址：

编辑IP地址后退出文件编辑。

而Hadoop_s2这台虚拟机的文件修改也和Hadoop_s1一样：

⑥ 配置三台虚拟机之间的IP映射

首先进入Hadoop_m中确认一下hadoop_m的主机名是不是master：

然后进入hosts文件中配置虚拟机之间的IP映射：

同理，Hadoop_s1，Hadoop_s2这两台虚拟机也要配置IP地址的映射：

Hadoop_s1：

Hadoop_s2：

到此三台机器的IP映射就配置完成了。

（5）三台虚拟机之间的SSH免密登录访问

① 首先分别在三台机器的命令行中输入以下命令安装SSH服务端，因为Ubuntu操作系统已经默认安装了SSH的客户端，所以这里只需要安装SSH服务端就好了：

sudo apt-get install openssh-server

② 打开登录到Hadoop_m（master），然后依次输入以下的命令（这里中间需要输入的地方直接一直回车就好了）：

cd ~/.ssh/    #将目录转到密钥的生成目录.ssh下面

ssh-keygen -t rsa    #生成密钥

cat ./id_rsa.pub >> ./authorized_keys   
#将生成的密钥添加到同一目录下的authorized_keys授权文件中

然后在将master的公钥发送到slave1和slave2两台机器上去（这里由于还没建立SSH无密登录，所以连接传送文件的时候还是要输密码，需要输yes的地方只管输yes就是了）：

scp id_rsa.pub dyl@slave1:~/.ssh/master_rsa.pub

scp id_rsa.pub dyl@slave2:~/.ssh/master_rsa.pub

#我这里的dyl是我的用户名，你们换成自己的用户名就可以了

最后在Hadoop_s1和Hadoop_s2的.ssh目录下会出现以下的这个文件：

③ Hadoop_s1和Hadoop_s2的密钥生成以及与Hadoop_m之间的相互映射

分别在Hadoop_s1和Hadoop_s2的命令行中执行以下命令：

cd ~/.ssh/    #将目录转到密钥的生成目录.ssh下面

ssh-keygen -t rsa    #生成密钥

cat ./id_rsa.pub >> ./authorized_keys   
#将生成的密钥添加到同一目录下的authorized_keys授权文件中

Hadoop_s1：

Hadoop_s2：

然后转到Hadoop_s1中将slave1的密钥发送到master和slave2中：

scp id_rsa.pub dyl@master:~/.ssh/slave1_rsa.pub

scp id_rsa.pub dyl@slave2:~/.ssh/slave1_rsa.pub

#我这里的dyl是我的用户名，你们换成自己的用户名就可以了

然后在Hadoop_m（master）和Hadoop_s2（slave2）的.ssh目录下就会出现以下文件：

然后转到Hadoop_s2中将slave2的密钥发送给master和slave1：

scp id_rsa.pub dyl@master:~/.ssh/slave2_rsa.pub

scp id_rsa.pub dyl@slave1:~/.ssh/slave2_rsa.pub

#我这里的dyl是我的用户名，你们换成自己的用户名就可以了

然后在Hadoop_m（master）和Hadoop_s1（slave1）的.ssh目录下就会出现以下文件：

接下来还有最后几步：

在hadoop_m中执行以下命令将slave1和slave2的密钥添加到授权文件当中：

cat ./slave1_rsa.pub >> ./authorized_keys   #添加slave1的密钥到授权文件中

cat ./slave2_rsa.pub >> ./authorized_keys   #添加slave2的密钥到授权文件中

在hadoop_s1中执行以下命令将master和slave2的密钥添加到授权文件当中：

cat ./master_rsa.pub >> ./authorized_keys   #添加master的密钥到授权文件中

cat ./slave2_rsa.pub >> ./authorized_keys   #添加slave2的密钥到授权文件中

在hadoop_s2中执行以下命令将master和slave1的密钥添加到授权文件当中：

cat ./master_rsa.pub >> ./authorized_keys   #添加master的密钥到授权文件中

cat ./slave1_rsa.pub >> ./authorized_keys   #添加slave1的密钥到授权文件中

到此SSH无密登录连接就配置完成了。最后如果不放心的话可以重启一下三台虚拟机

配置好了之后可以分别测试一下配置成功没（第一次连接会输一次密码，后面就不会让你输密码了，可以第一次连上后再exit断开，再测试第二次，看看效果）：

master：

slave1：

slave2：

到此hadoop集群的基本配置就结束了

四、Hadoop集群测试

1、下面使本篇文章采用的Hadoop集群规划：

Hadoop集群规划
主机名	NN	JJN	DN	RM	NM	SNN
master	NameNode		DataNode		NodeManager
slave1		JournalNode	DataNode	ResourceManager	NodeManager
slave2			DataNode		NodeManager	SecondaryNameNode

2、测试

（1）进入master虚拟机中：

因为是第一次启动集群所以我们需要将文件系统初始化，输入以下命令：

cd /usr/local/hadoop-3.3.4    #进入hadoop-3.3.4的安装目录

./bin/hdfs namenode -format   #初始化HDFS文件系统

注意：只有第一次启动集群需要初始化HDFS文件系统，如果后续再执行初始化文件系统（格式化NameNode）由于每次初始化都会产生新的集群id，会导致NameNode和DataNode的集群id不一样，导致集群找不到以往的数据。如果非要再格式化一次，那就把三台机器下的/usr/local/hadoop-3.3.4/目录下的tmp和logs文件夹删除，再格式化NameNode。

初始化完文件系统后，继续输入，启动HDFS：

sbin/start-dfs.sh

然后在三台虚拟机中分别输入jps命令查看是否启动成功：

master：

slave1：

slave2：

（2）进入slave1中启动YARN：

因为我们配置的ResourceManager结点是slave1所以我们在slave1中执行下面的命令：

cd /usr/local/hadoop-3.3.4   #转到hadoop-3.3.4的安装目录下

sbin/start-yarn.sh    #启动yarn

再在三台机器中执行jps查看是否启动成功：

master：

slave1：

slave2：

（3）在Web端验证HDFS和YARN是否启动成功

打开火狐浏览器输入：http://master:9870

如果出现以下hadoop页面则说明HDFS配置成功：

再输入网址（ResourceManager）：http://slave1:8088

出现以下页面则说明启动成功：

（4）文件上传文件测试，以及Wordcount功能测试

按照以下命令创建并进入word.txt文件：

然后在文件中添加以下内容以供测试：

hello hadoop hive hbase spark flink
hello hadoop hive hbase spark
hello hadoop hive hbase 
hello hadoop hive 
hello hadoop 
hello

添加完成后退出文本编辑，然后再输入以下命令：

hadoop fs -put /usr/local/hadoop-3.3.4/input/word.txt /input
#将word.txt文件传送到HDFS下的/input目录下

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input /output
#执行wordcount程序来对文件中的单词计数

然后可以输入一下语句来查看统计的结果：

hdfs dfs -ls /output   #转到我们运行程序是设置的输出目录下面并查看其中的文件

这里的part-r-00000文件就是Wordcount程序运行的结果所在：

hdfs dfs -cat /output/part-r-00000    #查看这个结果储存文件

最后的统计结果就如下图所示：

除了命令行这种查看方式也可以在web端查看：

打开浏览器输入：http://master:9870

进入到如下页面：

（5）启动历史服务器

首先转到Hadoop_s1（slave1）这台虚拟机下启动历史服务器服务：

mapred --daemon start historyserver    #启动历史服务器

然后回到火狐浏览器输入以下网址：http://slave1:8088/cluster

然后再点击history可查看此任务执行的历史信息：

（6）关闭hadoop集群操作

首先进入Hadoop_m（master）结点，进入命令行输入以下命令关闭HDFS：

stop-dfs.sh

然后进入Hadoop_s1（slave1）结点下去输入以下命令关闭YARN和历史服务器：

cd /usr/local/hadoop-3.3.4

sbin/stop-yarn.sh

mapred --daemon stop historyserver

本篇文章到此结束，感谢阅读！

你可能感兴趣的:(大数据学习,hadoop,hdfs,大数据)

珍藏！Java SpringBoot 精品源码合集约惠来袭，获取路径大公开秋野酱 java spring boot 开发语言
技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文降重、长期答辩答疑辅导、腾讯会议一对一专业讲解辅导答辩、模拟答辩演练、和理解代码逻辑思路。文末获取源码联系文末获取源码联
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
数据权限访问控制（Apache Sentry） deepdata_cn 权限管理 apache sentry
ApacheSentry最初由Cloudera公司内部开发，针对Hadoop系统中的数据（主要是HDFS、Hive的数据）进行细粒度控制，对HDFS、Hive以及Impala有着良好的支持性。2013年Sentry成为Apache的孵化项目，为Hadoop集群元数据和数据存储提供集中、细粒度的访问控制。其架构包括DataEngine、Plugin、Policymetadata等部分，Plugin负
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用（144）青云交大数据新视界 Java 大视界 java 大数据智慧农业精准灌溉施肥决策数据分析机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
【Python系列】高效Parquet数据处理策略：合并与分析实践小团团0 python 开发语言
在大数据时代，数据的存储、处理和分析变得尤为重要。Parquet作为一种高效的列存储格式，被广泛应用于大数据处理框架中，如ApacheSpark、ApacheHive等。Parquet是一个开源的列存储格式，它被设计用于支持复杂的嵌套数据结构，同时提供高效的压缩和编码方案，以优化存储空间和查询性能。以下将详细介绍如何使用Python对Parquet文件进行数据处理与合并，并提供相应的源码示例。一、
hbase表无法删除，命令行卡住问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
问题现象hbase表无法删除，命令行卡住1.activemaster日志出现超时WARNorg.apache.hadoop.hbase.master.procedure.TruncateTableProcedure:Retriableerrortryingtotruncatetable=xxxstate=TRUNCATE_TABLE_PRE_OPERATIONorg.apache.hadoop.h
股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？云策量化量化交易量化软件量化炒股量化炒股 QMT 量化交易入门教程 PTrade 股票投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》标题：股神系列：蒋菲的量化投资中，如何利用大数据优化模型？她的数据来源有哪些？正文：在金融投资的世界里，量化投资以其科学、系统和客观的特点，成为了众多投资者追求的“圣杯”。而在量化投资领域，蒋菲以其独特的大数据量化投资模型而闻名。本文将深入探讨蒋菲如何利用大数据优化其量化投资模型，以及她的数据来源有哪些。一、量化投资模型的优化
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
【Linux】Hadoop-3.4.1的伪分布式集群的初步配置孤独打铁匠Julian Linux linux hadoop ubuntu
配置步骤一、检查环境JDK#目前还是JDK8最适合Hadoopjava-versionecho$JAVA_HOMEHadoophadoopversionecho$HADOOP_HOME二、配置SSH免密登录Hadoop需要通过SSH管理节点（即使在伪分布式模式下）sudoaptinstallopenssh-server#安装SSH服务（如未安装）cd~/.ssh/ssh-keygen-trsa#生
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

Hadoop-3.3.4完全分布式安装（包含VMware16和Ubuntu22的下载安装及配置）、搭建、配置教程，以及Hadoop基础简介

一、Hadoop简介

1、Hadoop项目基础结构

2、Hadoop组成架构

（1）HDFS架构简述

（2）YARN架构简述

（3）MapReduce架构简述

二、VMware下载安装及Linux虚拟机配置（Ubuntu22.04.1）

1、VMware_16.2.4下载安装

2、在VMware_16.2.4上安装Linux虚拟机（Ubuntu22.04.1）

（1）下载Ubuntu22.04.1

（2）创建并配置Linux虚拟机

（3）安装配置Ubuntu22.04.1

（4）网络配置 （IP设置）

三、Hadoop-3.3.4下载安装、配置，以及JDK下载、配置

1、Hadoop-3.3.4、以及JDK下载

（1）Hadoop-3.3.4下载

（2）JDK下载（JDK1.8.0_341）

2、Hadoop-3.3.4以及JDK1.8.0_341的解压缩安装以及环境变量和重要XML文件的配置

（1）JDK1.8.0_341的解压缩安装以及环境变量的配置

（2）Hadoop-3.3.4的解压缩安装、以及环境变量的配置

（3）Hadoop-3.3.4的核心文件配置

（4）Hadoop从属结点虚拟机克隆、以及配置

（5）三台虚拟机之间的SSH免密登录访问

四、Hadoop集群测试

1、下面使本篇文章采用的Hadoop集群规划：

2、测试

（1）进入master虚拟机中：

（2）进入slave1中启动YARN：

（3）在Web端验证HDFS和YARN是否启动成功

（4）文件上传文件测试，以及Wordcount功能测试

（5）启动历史服务器

（6）关闭hadoop集群操作

本篇文章到此结束，感谢阅读！

你可能感兴趣的:(大数据学习,hadoop,hdfs,大数据)

（4）网络配置（IP设置）