java爱好者

Centos7 安装Hadoop3.x 完全分布式部署

1. 最小化安装CentOS 7 系统
- 1.1 安装net-tools启用 ifconfig
- 1.2 更新系统
- 1.3 配置系统IP为固定IP
  - 1.3.1 查看网卡(文件 ifcfg-enp* 为网卡文件)
  - 1.3.2 配置网卡(virtualBox 分配 host-only网卡，并使用固定IP)
  - 1.3.3 重启网卡
  - 1.3.4 修改主机名称（可以在安装时候指定）
- 1.4 配置Host，可以使用名称直接访问
- 1.5 配置免密码登录，生成各种密码文件
2. 安装JDK
- 2.1 下载JDK 下载
- 2.2 将下载的JDK放到 opt目录下解压
- 2.2 将JDK添加到环境变量中
- 2.3 验证JDK是否安装成功
3. 安装Hadoop
- 3.1 下载Hadoop，下载地址
- 3.2 将下载的Hadoop放入/opt目录
- 3.3 安装Zookeeper
  - 3.3.1 下载Zookeeper 下载地址
  - 3.3.2 拷贝zookeeper到需要的机器上
  - 3.3.3 解压zookeeper
  - 3.3.4 创建连接文件
  - 3.3.5 配置环境变量
  - 3.3.6 配置zookeeper集群，修改配置文件
  - 3.3.7 将配置文件复制到其他节点
  - 3.3.8 创建节点ID，在配置的 dataDir 路径中添加myid文件
  - 3.3.9 启动 zookeeper(已经添加到环境变量了)
  - 3.3.10 检验是否启动成功
  - 3.3.11 (可选) zookeeper Centos7 配置开机自启动
- 3.4 修改Hadoop配置(完全分布式)
  - 3.4.1 配置Hadoop 环境变量
  - 3.4.2 HADOOP 节点分布如下：
  - 3.4.3 修改Hadoop环境配置文件 hadoop-env.sh
  - 3.4.4 参考官方文档配置高可用HDFS
- 3.5 启动HDFS
  - 3.5.1 先启动zookeeper
  - 3.5.2 在其中一个namenode上格式化zookeeper
  - 3.5.3 启动journalnode,需要启动所有节点的journalnode
  - 3.5.4 格式化namenode
  - 3.5.5 启动namenode,以便同步其他namenode
  - 3.5.6 其他namenode同步
  - 3.5.7 配置datanode
  - 3.5.7 启动hdfs
4. Hadoop 配置日志聚合和jobhistoryserver
- 4.1 yarn-site.xml 配置resourcemanager web监听
- 4.2 mapred-site.xml配置jobhistoryserver
- 4.3 yarn-site.xml配置日志聚合
- 错误处理
  - 1. zkfc 格式化错误
  - 2. 格式化namenode 报错，一直在尝试连接
  - 3. hdfs 启动报错
  - 4. yarn 启用报错
  - 5. NodeManager 启动报错
  - 6. NodeManager启动之后又结束
  - 7. hdfs 安全模式开(safe mode is on)

1. 最小化安装CentOS 7 系统

1.1 安装net-tools启用 ifconfig

  yum install net-tools vim

1.2 更新系统

    yum update

1.3 配置系统IP为固定IP

1.3.1 查看网卡(文件 ifcfg-enp* 为网卡文件)

ls /etc/sysconfig/network-scripts/

1.3.2 配置网卡(virtualBox 分配 host-only网卡，并使用固定IP)

vi /etc/sysconfig/network-scripts/ifcfg-enp*
# 启用host-only网卡
cd /etc/sysconfig/network-scripts/
cp ifcfg-enp0s3  ifcfg-enp0s8

修改网卡为静态IP
1. 修改BOOTPROTO为static
2. 修改NAME为enp0s8
3. 修改UUID（可以随意改动一个值，只要不和原先的一样）
4. 添加IPADDR，可以自己制定，用于主机连接虚拟机使用。
5. 添加NETMASK=255.255.255.0 (网管也可以和网段一样 x.x.x.255)

1.3.3 重启网卡

service network restart

1.3.4 修改主机名称（可以在安装时候指定）

vim /etc/hostname

1.4 配置Host，可以使用名称直接访问

vim /etc/hosts
# 复制到其他机器
scp /etc/hosts  root@192.168.56.12:/etc/hosts

增加内容

1.5 配置免密码登录，生成各种密码文件

    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    chmod 0600 ~/.ssh/authorized_keys
    # 拷贝公钥到远程服务器
    cat ~/.ssh/id_rsa.pub | ssh root@192.168.56.101  "cat - >> ~/.ssh/authorized_keys"

    # 如果需要互相免密码登录，则执行下面命令
    scp .ssh/authorized_keys  root@192.168.56.14:~/.ssh/authorized_keys

2. 安装JDK

2.1 下载JDK 下载

2.2 将下载的JDK放到 opt目录下解压

    cd /opt/
    tar -xzvf server-jre-8u161-linux-x64.tar.gz
    # 创建快捷方式
    ln -sf jdk1.8.0_161/ jdk

2.2 将JDK添加到环境变量中

    vim /etc/profile
    # 添加如下内容
    export JAVA_HOME=/opt/jdk
    export PATH=.:$PATH:$JAVA_HOME/bin
    # 使修改生效
    source /etc/profile

2.3 验证JDK是否安装成功

    java -version

3. 安装Hadoop

3.1 下载Hadoop，下载地址

3.2 将下载的Hadoop放入/opt目录

    # 1. 解压Hadoop
    tar -xzvf hadoop-3.0.0.tar.gz 
    # 2. 创建超连接
    ln -sf hadoop-3.0.0 hadoop

3.3 安装Zookeeper

3.3.1 下载Zookeeper 下载地址

3.3.2 拷贝zookeeper到需要的机器上

    scp /opt/zookeeper-3.4.11.tar.gz node2:/opt/

3.3.3 解压zookeeper

    tar -xzvf zookeeper-3.4.11.tar.gz

3.3.4 创建连接文件

    ln -sf zookeeper-3.4.11 zookeeper

3.3.5 配置环境变量

    vim /etc/profilve
        # 添加如下内容
        export ZOOKEEPER_HOME = /opt/zookeeper
        export PATH = $PATH:$ZOOKEEPER_HOME/bin

3.3.6 配置zookeeper集群，修改配置文件

    cp /opt/zookeeper/conf/zoo_sample.cfg /opt/zookeeper/conf/zoo.cfg
        # 5.1 在zoo.cfg 文件末尾追加（zoo1 为 服务器名称）
        # 具体配置见：http://zookeeper.apache.org/doc/r3.4.11/zookeeperStarted.html#sc_RunningReplicatedZooKeeper
        tickTime=2000
        dataDir=/opt/data/zookeeper # 数据存放路径
        clientPort=2181
        initLimit=5
        syncLimit=2
        server.1=node2:2888:3888
        server.2=node3:2888:3888
        server.3=node4:2888:3888

3.3.7 将配置文件复制到其他节点

    scp /opt/zookeeper/conf/zoo.cfg node2:/opt/zookeeper/conf/

3.3.8 创建节点ID，在配置的 dataDir 路径中添加myid文件

    echo "1" > myid

3.3.9 启动 zookeeper(已经添加到环境变量了)

    zkServer.sh start

3.3.10 检验是否启动成功

jps

如果看到如下图进程，表示启动成功

3.3.11 (可选) zookeeper Centos7 配置开机自启动

在/etc/systemd/system/文件夹下创建一个启动脚本zookeeper.service
内容如下：

[Unit]
Description=zookeeper
After=syslog.target network.target

[Service]
Type=forking
# 指定zookeeper 日志文件路径，也可以在zkServer.sh 中定义
Environment=ZOO_LOG_DIR=/opt/data/zookeeper/logs
# 指定JDK路径，也可以在zkServer.sh 中定义
Environment=JAVA_HOME=/opt/jdk
ExecStart=/opt/zookeeper/bin/zkServer.sh start
ExecStop=/opt/zookeeper/bin/zkServer.sh stop
Restart=always
User=root
Group=root

[Install]
WantedBy=multi-user.target

重新加载服务

systemctl daemon-reload

启动zookeeper

systemctl start zookeeper

开机自启动

systemctl enable zookeeper

查看zookeeper状态

systemctl status zookeeper

问题：

nohup: 无法运行命令”java”: 没有那个文件或目录 \
nohup: failed to run command `java’: No such file or directory

解决方法： \
主要是找不到Java造成的，配置下环境变量即可，可以在zkServer.sh 中添加如下：

    JAVA_HOME=/opt/jdk

或者在zookeeper.service中指定：

    Environment=JAVA_HOME=/opt/jdk

3.4 修改Hadoop配置(完全分布式)

参考文档：
1. (Hadoop HDFS分布式配置)http://hadoop.apache.org/docs/r3.0.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html
2. (Hadoop Yarn 分布式配置) http://hadoop.apache.org/docs/r3.0.0/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html

3.4.1 配置Hadoop 环境变量

    # 添加hadoop环境变量
    export HADOOP_HOME = /opt/hadoop
    export PATH = $PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
    # 启用环境变量
    source /etc/profile

3.4.2 HADOOP 节点分布如下：

节点	NN	DN	ZK	ZKFC	JN	RM	NM
Node1	1			1		1
Node2	1	1	1	1	1	1	1
Node3		1	1		1		1
Node4		1	1		1		1

上面已经配置好了zookeeper，这里就不需要在配置了

3.4.3 修改Hadoop环境配置文件 hadoop-env.sh

    # 设置Java环境变量
    exprot JAVA_HOME = /opt/jdk
    export HADOOP_HOME = /opt/hadoop

3.4.4 参考官方文档配置高可用HDFS

配置 hdfs-site.xml 文件如下：

<configuration>
    <property>
        
        <name>dfs.nameservicesname>
        <value>hbzxvalue>
    property>
    <property>
        
        <name>dfs.permissions.enabledname>
        <value>falsevalue>
    property>
    <property>
        
        <name>dfs.ha.namenodes.hbzxname>
        <value>nn1,nn2value>
    property>
    <property>
        
        <name>dfs.namenode.rpc-address.hbzx.nn1name>
        <value>node1:9820value>
    property>
    <property>
        
        <name>dfs.namenode.rpc-address.hbzx.nn2name>
        <value>node2:9820value>
    property>
    <property>
        
        <name>dfs.namenode.http-address.hbzx.nn1name>
        <value>node1:9870value>
    property>
    <property>
        
        <name>dfs.namenode.http-address.hbzx.nn2name>
        <value>node2:9870value>
    property>

    <property>
        
        <name>dfs.namenode.shared.edits.dirname>
        <value>qjournal://node2:8485;node3:8485;node4:8485/hbzxvalue>
    property>

    <property>
        
        <name>dfs.client.failover.proxy.provider.hbzxname>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
    property>

    <property>
        
        <name>dfs.ha.fencing.methodsname>
        <value>sshfencevalue>
    property>

    <property>
        <name>dfs.ha.fencing.ssh.private-key-filesname>
        <value>/root/.ssh/id_rsavalue>
    property>

    <property>
        
        <name>dfs.journalnode.edits.dirname>
        <value>/opt/data/journal/node/local/datavalue>
    property>

    <property>
        
        <name>dfs.ha.automatic-failover.enabledname>
        <value>truevalue>
    property>

configuration>

配置 core-site.xml

<configuration>
    <property>
        
        <name>fs.defaultFSname>
        <value>hdfs://hbzxvalue>
    property>
    <property>
        
        <name>hadoop.tmp.dirname>
        <value>/opt/data/hadoop/value>
    property>

    <property>
        
        <name>ha.zookeeper.quorumname>
        <value>node2:2181,node3:2181,node4:2181value>
    property>

configuration>

配置yarn-site.xml 为单节点默认，多节点参考：官方文档

<configuration>
    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
    property>
    <property>
        <name>yarn.nodemanager.env-whitelistname>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
    property>

    <property>
        
        <name>yarn.resourcemanager.ha.enabledname>
        <value>truevalue>
    property>
    <property>
        
        <name>yarn.resourcemanager.cluster-idname>
        <value>hbzxvalue>
    property>
    <property>
        
        <name>yarn.resourcemanager.ha.rm-idsname>
        <value>rm1,rm2value>
    property>
    <property>
        
        <name>yarn.resourcemanager.hostname.rm1name>
        <value>node1value>
    property>
    <property>
        
        <name>yarn.resourcemanager.hostname.rm2name>
        <value>node2value>
    property>
    <property>
        
        <name>yarn.resourcemanager.webapp.address.rm1name>
        <value>node1:8088value>
    property>
    <property>
        
        <name>yarn.resourcemanager.webapp.address.rm2name>
        <value>node2:8088value>
    property>
    <property>
        
        <name>yarn.resourcemanager.zk-addressname>
        <value>node2:2181,node3:2181,node4:2181value>
    property>

    <property>
        
        <name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
        <value>truevalue>
    property>
configuration>

配置mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>
configuration>

将配置文件复制到其他机器

scp ./* node4:/opt/hadoop/etc/hadoop/

3.5 启动HDFS

3.5.1 先启动zookeeper

    zkServer.sh start

3.5.2 在其中一个namenode上格式化zookeeper

hdfs zkfc -formatZK

如下图表示格式化成功

3.5.3 启动journalnode,需要启动所有节点的journalnode

hdfs --daemon start journalnode

使用JPS命令查看journalnode是否启动成功，成功之后能看到JournalNode如下图：

3.5.4 格式化namenode

hdfs namenode -format 
# 如果有多个namenode名称，可以使用  hdfs namenode -format xxx 指定

如果没有Error日志输出表示格式化成功

3.5.5 启动namenode,以便同步其他namenode

hdfs --daemon start namenode

启动之后使用jps命令查询是否启动成功

3.5.6 其他namenode同步

如果是使用高可用方式配置的namenode，使用下面命令同步(需要同步的namenode执行).

hdfs namenode -bootstrapStandby

2. 如果不是使用高可用方式配置的namenode，使用下面命令同步：

hdfs namenode -initializeSharedEdits

3.5.7 配置datanode

修改workers 文件,添加datanode节点

node2
node3
node4

3.5.7 启动hdfs

start-dfs.sh

jps 查看结果：

通过浏览器访问hdfs
http://192.168.56.11:9870

4. Hadoop 配置日志聚合和jobhistoryserver

4.1 yarn-site.xml 配置resourcemanager web监听

<property>
         <name>yarn.resourcemanager.webapp.addressname>
         <value>rmhost:8088value>
 property>

4.2 mapred-site.xml配置jobhistoryserver

<property>
    <name>mapreduce.jobhistory.addressname>
    <value>rmhost:10020value>
property>
<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>rmhost:19888value>
property>
<property>
    <name>mapreduce.jobhistory.intermediate-done-dirname>
    <value>/mr-history/tmpvalue>
property>
<property>
    <name>mapreduce.jobhistory.done-dirname>
    <value>/mr-history/donevalue>
property>

注意：jobhistoryserver需单独启动

mapred --daemon start historyserver

4.3 yarn-site.xml配置日志聚合


<property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
property>

<property>
    <name>yarn.nodemanager.remote-app-log-dirname>
    <value>/user/container/logsvalue>
property>

错误处理

1. zkfc 格式化错误

java.net.NoRouteToHostException: 没有到主机的路由
    at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
    at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
    at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:361)
    at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1141)
2018-02-06 11:34:01,218 ERROR ha.ActiveStandbyElector: Connection timed out: couldn't connect to ZooKeeper in 5000 milliseconds
2018-02-06 11:34:01,461 INFO zookeeper.ClientCnxn: Opening socket connection to server node2/192.168.56.12:2181. Will not attempt to authenticate using SASL (unknown error)

解决方法：

关闭防火墙，并禁止防火墙启动

systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动

2. 格式化namenode 报错，一直在尝试连接

如图:

2018-02-06 11:43:58,061 INFO ipc.Client: Retrying connect to server: node2/192.168.56.12:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2018-02-06 11:43:58,062 INFO ipc.Client: Retrying connect to server: node4/192.168.56.14:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)
2018-02-06 11:43:58,062 INFO ipc.Client: Retrying connect to server: node3/192.168.56.13:8485. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 MILLISECONDS)

解决办法：

启用 journalnode,需要分别启动所有节点

hdfs --daemon start journalnode

使用JPS命令查看journalnode是否启动成功，成功之后能看到JournalNode如下图：

3. hdfs 启动报错

Starting namenodes on [node1 node2]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting journal nodes [node2 node3 node4]
ERROR: Attempting to operate on hdfs journalnode as root
ERROR: but there is no HDFS_JOURNALNODE_USER defined. Aborting operation.
Starting ZK Failover Controllers on NN hosts [node1 node2]
ERROR: Attempting to operate on hdfs zkfc as root
ERROR: but there is no HDFS_ZKFC_USER defined. Aborting operation.

解决方法：
在start-dfs.sh，stop-dfs.sh 开始位置增加如下配置：

# 注意等号前后不要有空格
HDFS_NAMENODE_USER=root
HDFS_DATANODE_USER=root
HDFS_JOURNALNODE_USER=root
HDFS_ZKFC_USER=root

4. yarn 启用报错

Starting resourcemanager
ERROR: Attempting to operate on yarn resourcemanager as root
ERROR: but there is no YARN_RESOURCEMANAGER_USER defined. Aborting operation.
Starting nodemanagers
ERROR: Attempting to operate on yarn nodemanager as root
ERROR: but there is no YARN_NODEMANAGER_USER defined. Aborting operation.

解决办法：

在start-yarn.sh 文件开始处添加：

# 注意等号前后不要有空格
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root

5. NodeManager 启动报错

2018-02-06 15:22:36,169 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.net.ConnectException: Your endpoint configuration is wrong; For more details see:  http://wiki.apache.org/hadoop/UnsetHostnameOrPort
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:259)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:451)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:834)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:894)

解决办法：
让 NodeManager自动检测内容和CPU，在yarn-size.xml 添加如下配置：

    <property>
        
        <name>yarn.nodemanager.resource.detect-hardware-capabilitiesname>
        <value>truevalue>
    property>

6. NodeManager启动之后又结束

2018-02-06 16:50:31,210 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Received SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: NodeManager from  node4 doesn't satisfy minimum allocations, Sending SHUTDOWN signal to the NodeManager. Node capabilities are 256, vCores:1>; minimums are 1024mb and 1 vcores
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:259)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:451)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:194)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:834)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:894)
Caused by: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Received SHUTDOWN signal from Resourcemanager, Registration of NodeManager failed, Message from ResourceManager: NodeManager from  node4 doesn't satisfy minimum allocations, Sending SHUTDOWN signal to the NodeManager. Node capabilities are 256, vCores:1>; minimums are 1024mb and 1 vcores
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:375)
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:253)
    ... 6 more

解决办法：升级内存，NodeManager内存最小要求为1024M 和 1核CPU

7. hdfs 安全模式开(safe mode is on)

解决办法：

hadoop dfsadmin -safemode leave

你可能感兴趣的:(hadoop)

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[[email protected]]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
Hadoop的mapreduce的执行过程画纸仁大数据 hadoop mapreduce 大数据
一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

Centos7 安装Hadoop3.x 完全分布式部署

1. 最小化安装CentOS 7 系统

1.1 安装net-tools启用 ifconfig

1.2 更新系统

1.3 配置系统IP为固定IP

1.3.1 查看网卡(文件 ifcfg-enp* 为网卡文件)

1.3.2 配置网卡(virtualBox 分配 host-only网卡，并使用固定IP)

1.3.3 重启网卡

1.3.4 修改主机名称（可以在安装时候指定）

1.4 配置Host，可以使用名称直接访问

1.5 配置免密码登录，生成各种密码文件

2. 安装JDK

2.1 下载JDK 下载

2.2 将下载的JDK放到 opt目录下解压

2.2 将JDK添加到环境变量中

2.3 验证JDK是否安装成功

3. 安装Hadoop

3.1 下载Hadoop，下载地址

3.2 将下载的Hadoop放入/opt目录

3.3 安装Zookeeper

3.3.1 下载Zookeeper 下载地址

3.3.2 拷贝zookeeper到需要的机器上

3.3.3 解压zookeeper

3.3.4 创建连接文件

3.3.5 配置环境变量

3.3.6 配置zookeeper集群，修改配置文件

3.3.7 将配置文件复制到其他节点

3.3.8 创建节点ID，在配置的 dataDir 路径中添加myid文件

3.3.9 启动 zookeeper(已经添加到环境变量了)

3.3.10 检验是否启动成功

3.3.11 (可选) zookeeper Centos7 配置开机自启动

3.4 修改Hadoop配置(完全分布式)

3.4.1 配置Hadoop 环境变量

3.4.2 HADOOP 节点分布如下：

3.4.3 修改Hadoop环境配置文件 hadoop-env.sh

3.4.4 参考 官方文档 配置高可用HDFS

3.5 启动HDFS

3.5.1 先启动zookeeper

3.5.2 在其中一个namenode上格式化zookeeper

3.5.3 启动journalnode,需要启动所有节点的journalnode

3.5.4 格式化namenode

3.5.5 启动namenode,以便同步其他namenode

3.5.6 其他namenode同步

3.5.7 配置datanode

3.5.7 启动hdfs

4. Hadoop 配置日志聚合和jobhistoryserver

4.1 yarn-site.xml 配置resourcemanager web监听

4.2 mapred-site.xml配置jobhistoryserver

4.3 yarn-site.xml配置日志聚合

错误处理

1. zkfc 格式化错误

2. 格式化namenode 报错，一直在尝试连接

3. hdfs 启动报错

4. yarn 启用报错

5. NodeManager 启动报错

6. NodeManager启动之后又结束

7. hdfs 安全模式开(safe mode is on)

你可能感兴趣的:(hadoop)

3.4.4 参考官方文档配置高可用HDFS