下等马王德发

Hadoop+Zookeeper+HBase完全分布式集群搭建

简言：工作需要第一次搭建分布式集群，第一次搭建完成后的总结记录。

系统环境：Ubuntu18.04
Java JDK：1.8.0_241
Zookeeper：3.5.6
Hadoop：2.10.0
HBase：1.3.6

虚拟机中三台服务器主机信息：
| 主机名 | IP |
| master | 192.168.0.166 |
| slave1 | 192.168.0.167 |
| slave2 | 192.168.0.168 |

准备
由于是从零开始搭建集群，所以需要做好一些前期准备工作——配置用户和用户组、配置主机名、安装配置SSH、配置免密登录SSH、关闭防火墙等。

配置单：
| 配置项 | master | slave1 | slave2 |
| 用户和用户组 | √ | √ | √ |
| 主机名 | √ | √ | √ |
| 安装SSH | √ | √ | √ |
| SSH免密登陆 | √ | √ | √ |
| 关闭防火墙 | √ | √ | √ |

配置用户和用户组
搭建hadoop集群环境要求所有主机的用户和用户组要完全一致。配置过程如下：
1.新建用户，建议用adduser命令。

sudo adduser hadoop

因为使用了sudo命令，所以要输入当前用户的密码才能进行下一步的操作。配置hadoop用户密码需要输入两次密码，然后一直按回车，最后输入Y确定。
2.在创建hadoop用户的同时也创建了hadoop用户组，下面把hadoop用户加入到hadoop用户组。

sudo usermod -a -G hadoop hadoop

3.前面一个hadoop是组名，后面一个hadoop是用户名。完成后输入一下命令查询结果。

cat  /etc/group

4.然后再把hadoop用户赋予root权限，让他可以使用sudo命令。

sudo vi /etc/sudoers

修改文件如下：

# User privilege specification
root   ALL=(ALL:ALL) ALL
hadoop ALL=(ALL:ALL) ALL  # 添加这一行配置

保存退出，hadoop用户就拥有了root权限。

配置主机名
我们一开始就给出了3台主机的主机名（master、slave1、slave2），把虚拟机中三台主机名修改为对应名字。
1.编辑 /etc/hostname ，把里面的内容更改为你所需要的设定的主机名。

sudo vim /etc/hostname

2.更改hosts文件，修改（或增加）127.0.1.1后面的名称改为设定值。

sudo vim /etc/hosts

3.重启服务器，更改生效。

sudo reboot

4.验证。重新登录后，会发现主机名已经更改为设定值了。

5.修改host文件，配置域名。编辑hosts文件：

sudo vi /etc/hosts

添加下面内容：

192.168.0.166 master
192.168.0.167 slave1
192.168.0.168 slave2

注意：主机名和hosts文件中设置的名称应当保持一致，否则会产生意外的错误。

安装SSH
在Hadoop运行过程中，主从机之间是通过SSH进行通信的，所以需要对所有主机进行SSH的安装和配置工作。
1.先更新一下apt。

sudo apt-get update

2.接下来，安装SSH。

sudo apt-get install openssh-server

3.安装完成之后，使用下面的命令来查看SSH是否安装成功。

ps -e | grep ssh

安装好SSH之后，就可以使用SSH进行远程操作了。

配置免密登录SSH
主机间免密登录才能实现主机间的顺畅通信，因此该环节非常重要！
1.在master主机上生成密钥对。

ssh-keygen -t rsa

输入后一直回车选择默认即可。

2.将公钥（~/.ssh/id_rsa.pub中的内容）复制到文件authorized_keys中去。

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3.分别在从机slave1,slave2上都进行同样的操作，同时将两个从机的公玥都复制奥主机master的~/.ssh/authorized_keys中去。
4.将master上的~/.ssh/authorized_keys通过scp命令复制到从机slave1,slave2中去。

scp -r ~/.ssh/authorized_keys slave1:~/.ssh/ 
scp -r ~/.ssh/authorized_keys slave2:~/.ssh/

或者，使用ssh-copy-id $IPs #$IPs为所有节点地址包括自身，按照提示输入yes 和root密码。
5.验证一下免密登录是否成功。在master上登录slave1、slave2（其他主机上验证方法也是一样的）。

ssh slave1

如果是第一次登录，则会要求输入密码，但之后登录都不再需要密码。
注意：最好将JDK，Hadoop，Zookeeper，HBase所在目录设置为hadoop用户所有，否者后续启动相关应用时会报错。
设置目录及目录下所有文件所属用户：

chown -R username dir

关闭防火墙
集群需要开放很多端口，因此，为了避免出现端口未开放的问题，我索性关闭了防火墙，如果不关闭防火墙，需要开放集群相关端口。我使用ufw命令关闭防火墙。
1.关闭防火墙

sudo ufw disable

2.查看防火墙状态

sudo ufw status

正式搭建
接下来全部通过SSH远程配置。
配置单：
| 配置项 | master | slave1 | slave2 |
| Java JDK | √ | √ | √ |
| Zookeeper | √ | √ | √ |
| Hadoop | √ | √ | √ |
| HBase | √ | √ | √ |

Java JDK
Hadoop的有些计算是通过jar包进行分布式计算的。因此，安装Hadoop前需要安装JDK。
1.下载Java JDK。
2.将JDK下载到本地后，通过scp命令将安装包发送到每个主机上。

scp jdk-8u241-linux-x64.tar.gz hadoop@192.168.0.166:～/

3.登录master主机

ssh hadoop@192.168.0.166

4.在 /usr/local/ 中建 cluster文件夹。

mkdir /usr/local/cluster

5.进入服务器根目录下，将jdk-8u241-linux-x64.tar.gz解压至 /usr/local/cluster中。

tar -zxvf ~/jdk-8u241-linux-x64.tar.gz -C /usr/local/cluster/

6.进入 /usr/local/cluster 中，为了方便日后版本的更新，这里使用软链接的方法。

cd /usr/local/cluster
ln -s jdk1.8.0_241 java

7.进行环境变量的配置。

sudo vi ~/.bashrc

添加如下内容：

# java
export JAVA_HOME=/usr/local/cluster/java
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

8.使环境变量立刻生效。

source ~/.bashrc

9.验证环境变量是否配置成功。

java -version

如果输出如下图所示，即代表JDK环境变量配置好了。

Zookeeper
1.下载Zookeeper。
2.将Zookeeper下载到本地后，通过scp命令将安装包发送到master主机上。下面以master为例介绍安装配置，其他的主机安装和配置是完全一样的。

scp zookeeper-3.5.6-bin.tar.gz hadoop@192.168.0.166:～/

3.进入服务器根目录下，将zookeeper-3.5.6-bin.tar.gz解压至 /usr/local/cluster中。

tar -zxvf ~/zookeeper-3.5.6-bin.tar.gz -C /usr/local/cluster/

4.进入 /usr/local/cluster 中，为了方便日后版本的更新，这里使用软链接的方法。

cd /usr/local/cluster
ln -s zookeeper-3.4.12 zookeeper

5.设置环境变量，在 ~/.bashrc 添加如下内容。

#zookeeper
export ZOOKEEPER=/usr/local/cluster/zookeeper
export PATH=$PATH:$ZOOKEEPER/bin

6.使环境变量立刻生效。

source ~/.bashrc

7.配置zookeeper
**·**建立数据和日志文件

mkdir /usr/local/cluster/zookeeper/data
mkdir /usr/local/cluster/zookeeper/logs

**·**进入conf目录创建并修改zoo.cfg文件

cp zoo_sample.cfg zoo.cfg

修改后的内容为：

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=/usr/local/cluster/zookeeper/data
dataLogDir=/usr/local/cluster/zookeeper/logs
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.0=192.168.0.166:2888:3888
server.1=192.168.0.167:2888:3888
server.2=192.168.0.168:2888:3888

这里还需要在数据目录 /usr/local/cluster/zookeeper/data下新建名为myid的文件，各个主机对应的内容是不同的，master的内容是0，slave1的内容是1，slave2的内容是2，分别对应server.x中的x。server.A=B:C:D,其中A是一个数字, 表示这是第几号server。B是该server所在的IP地址。C配置该server和集群中的leader交换消息所使用的端口。D配置选举leader时所使用的端口。
8.使用scp命令，将配置好的Zookeeper发送到其他从节点上去。

scp -r /usr/local/cluster/zookeeper/ slave1:/usr/local/cluster/
scp -r /usr/local/cluster/zookeeper/ slave2:/usr/local/cluster/

注意：*如果操作的目录不属于hadoop需要sudo权限。
*节点上的myid要改成对应的值!
9.启动zookeeper。
在各个节点执行以下命令：

/usr/local/cluster/zookeeper/bin/zkServer.sh start

正常启动：

注意：zookeeper启动时报：Zookeeper JAVA_HOME is not set and java could not be found in PATH
解决方法：进入Zookeeper的bin目录下，修改zkEnv.sh文件，添加如下内容：

退出保存，启动zookeeper即可。
10.查看各个主机的状态。

/usr/local/cluster/zookeeper/bin/zkServer.sh status

注意：zookeeper的版本有一个坑，从3.5.5开始，带有bin名称的包才是我们想要的下载可以直接使用的里面有编译后的二进制的包，而之前的普通的tar.gz的包里面是只是源码的包无法直接使用，会报：找不到或无法加载主类 org.apache.zookeeper.server.quorum.QuorumPeerMain。

Hadoop
1.下载Hadoop。
2.将Hadoop下载到本地后，通过scp命令将安装包发送到master上。

scp hadoop-2.10.0.tar.gz hadoop@192.168.0.166:～/

3.进入服务器根目录下，将hadoop-2.10.0.tar.gz解压至 /usr/local/cluster中。

tar -zxvf ~/hadoop-2.10.0.tar.gz -C /usr/local/cluster/

4.进入 /usr/local/cluster 中，为了方便日后版本的更新，这里使用软链接的方法。

cd /usr/local/cluster
ln -s hadoop-2.10.0 hadoop

注意：此处有一个坑，后面会讲！
5.设置环境变量，在 ~/.bashrc 添加如下内容。

# hadoop
export HADOOP_HOME=/usr/local/cluster/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

6.使环境变量立刻生效。

source ~/.bashrc

7.验证Hadoop是否安装成功。

hadoop version

如果输出hadoop版本信息即安装成功。
8.配置hadoop。
**·**进入hadoop的配置目录。

cd /usr/local/cluster/hadoop/etc/hadoop/

**·**新建几个文件夹，配置文件中需要用到。

mkdir tmp
mkdir hdfs
mkdir hdfs/name
mkdir hdfs/data

**·**需要修改的配置文件为：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml、slaves、hadoop-env.sh、yarn-env.sh。将如下configuration的内容复制到对应的配置文件中即可。
**·**hadoop-env.sh 和 yarn-env.sh增加下面一行命令，即配置java环境。

export JAVA_HOME=/usr/local/cluster/java

**·**core-site.xml


  
    fs.defaultFS</name>
    hdfs://master:9000</value>
  </property>
  
    io.file.buffer.size</name>
    4096</value>
  </property>
  
    hadoop.tmp.dir</name>
    /usr/local/cluster/hadoop/tmp</value>
  </property>
</configuration>

**·**hdfs-site.xml


  
    dfs.replication</name>
    3</value>
  </property> 
  
    dfs.namenode.name.dir</name>
    /usr/local/cluster/hadoop/hdfs/name</value>
  </property>
  
    dfs.datanode.data.dir</name>
    /usr/local/cluster/hadoop/hdfs/data</value>
  </property>
  
    dfs.http.address</name>
    master:50070</value>
  </property>
  
    dfs.secondary.http.address</name>
    master:50090</value>
  </property>
  
    dfs.webhdfs.enabled</name>
    true</value>
  </property>
  
    dfs.permissions</name>
    false</value>
  </property>
</configuration>

**·**yarn-site.xml


    
        yarn.resourcemanager.hostname</name>
        master</value>
    </property>
    
        yarn.nodemanager.aux-services</name>
        mapreduce_shuffle</value>
    </property>
    
        yarn.resourcemanager.address</name>
        master:8032</value>
    </property>
    
        yarn.resourcemanager.scheduler.address</name>
        master:8030</value>
    </property>
    
        yarn.resourcemanager.resource-tracker.address</name>
        master:8031</value>
    </property>
    
        yarn.resourcemanager.admin.address</name>
        master:8033</value>
    </property>
    
        yarn.resourcemanager.webapp.address</name>
        master:8088</value>
    </property>
</configuration>

**·**mapred-site.xml
通过cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml创建etc/hadoop/mapred-site.xml，内容改为如下：


  
    mapreduce.framework.name</name>
    yarn</value>
  </property>

  
    mapreduce.jobhistory.address</name>
    master:10020</value>
  </property>

  
    mapreduce.jobhistory.webapp.address</name>
    master:19888</value>
  </property>
</configuration>

**·**slaves

slave1
slave2

**·**配置文件修改完以后，将master下hadoop文件夹复制到slave1和slave2中。

scp -r /usr/local/cluster/hadoop/ slave1:/usr/local/cluster/
scp -r /usr/local/cluster/hadoop/ slave2:/usr/local/cluster/

9.运行Hadoop。注意：启动hadoop的命令都只在master上执行。
**·**启动namenode，如果是第一次启动namenode，需要对namenode进行格式化。命令如下：

/usr/local/cluster/hadoop/bin/hdfs namenode -format

**·**启动hdfs：

/usr/local/cluster/hadoop/sbin/start-dfs.sh

注意：如果启动hdfs时报异常，找不到 **/hadoop-2.10.0/目录，这就是之前说的坑，复制过去的时软链接目录hadoop,启动时slave1，slave2启动的hadoop-2.10.0目录下的文件，所以这里需要复制原目录，不要复制软链接目录。如果正常就忽略！

**·**验证hdfs是否启动成功。
访问：http://192.168.0.166:50070/dfshealth.html#tab-overview，如图：

**·**启动yarn

/usr/local/cluster/hadoop/sbin/start-yarn.sh

成功启动后会打印成功信息。

HBase
1.下载HBase。
2.将HBase下载到本地后，通过scp命令将安装包发送到master主机上。

scp hbase-1.3.6-bin.tar.gz hadoop@192.168.0.166:～/

3.进入服务器根目录下，将hbase-1.3.6-bin.tar.gz解压至 /usr/local/cluster中。

tar -zxvf ~/hbase-1.3.6-bin.tar.gz -C /usr/local/cluster/

4.进入 /usr/local/cluster 中，为了方便日后版本的更新，这里使用软链接的方法。

cd /usr/local/cluster
ln -s hbase-1.3.6 hbase

5.设置环境变量，在 ~/.bashrc 添加如下内容。

# hbase
export HBASE_HOME=/usr/local/cluster/hbase
export PATH=$PATH:$HBASE_HOME/bin

6.使环境变量立刻生效。

source ~/.bashrc

7.验证Hbase是否安装成功。

hbase version

如果输出hadoop版本信息即安装成功。
8.配置HBase
主要修改conf目录下的三个文件：hbase-env.sh、hbase-site.xml、regionservers。
**·**hbase-env.sh

export JAVA_HOME=/usr/local/cluster/java
export HBASE_CLASSPATH=/usr/local/cluster/hbase/lib
export HBASE_PID_DIR=/usr/local/cluster/hbase/data
export HBASE_LOG_DIR=/usr/local/cluster/hbase/logs
export HBASE_MANAGES_ZK=false

注意：要在hbase文件下，新建data和logs两个文件夹

mkdir /usr/local/cluster/hbase/data
mkdir /usr/local/cluster/hbase/logs

**·**hbase-site.xml


    
      hbase.tmp.dir</name>
      /usr/local/cluster/hbase/data</value>
    </property>
    
      hbase.rootdir</name>
      hdfs://master:9000/hbase</value>
    </property>
    
      hbase.cluster.distributed</name>
      true</value>
    </property>
    
      hbase.zookeeper.quorum</name>
      master,slave1,slave2</value>
    </property>
    
      hbase.zookeeper.property.clientPort</name>
      2181</value>
    </property>
    
      hbase.zookeeper.property.dataDir</name>
      /usr/local/cluster/zookeeper/data</value>
      property from zoo.cfg,the directory where the snapshot is stored</description>
    </property>
</configuration>

**·**regionservers

master
slave1
slave2

9.启动hbase

 /usr/local/cluster/hbase/bin/start-hbase.sh

10.验证hbase是否启动成功。
访问：http://192.168.0.166:16010/master-status，如图。

注释：Hbase启动警告：Java HotSpot™ 64-Bit Server VM warning: ignoring option PermSize=128m; …
网上提供的解决方法：注释$HBASE_HOME/conf/hbase-env.sh 文件中的两行配置

# Configure PermSize. Only needed in JDK7. You can safely remove it for JDK8+
export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"
export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=128m -XX:MaxPermSize=128m"

结果，我注释了，警告并没有消除，不影响运行，暂时没有处理！

总结
到此配置完成，记录了搭建过程中遇到的问题，仅作记录。
因为国内被墙的原因，很多镜像文件等下载很慢或者根本下载不了，
推荐按一个国内的镜像网站，下载比较快！
https://mirrors.tuna.tsinghua.edu.cn/apache/

你可能感兴趣的:(Hadoop)

虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[[email protected]]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
Hadoop的mapreduce的执行过程画纸仁大数据 hadoop mapreduce 大数据
一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt