小林玩大数据

实战 | 史上最详细Hadoop大数据集群搭建，不看后悔系列

文章目录

- 1. 搭建环境
- - - 1.1 实验环境
    - 1.2 架构模型
    - 1.3 前期准备
- 2. 软件环境依赖部署
- - - 2.1 jdk安装及配置
    - 2.2 ssh免密钥配置
- 3. Hadoop及Zookeeper部署
- - - 3.1 Hadoop安装及配置
    - - 3.1.1 解压hadoop-2.6.5.tar.gz：
      - 3.1.2 修改配置文件/etc/profile:
      - 3.1.3 修改 hadoop-env.sh 和 mapred-env.sh 配置文件
      - 3.1.4 配置hdfs-site.xml 文件
      - 3.1.5 配置 core-site.xml 和 Slaves 文件
      - 3.1.5.1 core-site.xml 文件的配置
        
        3.1.5.2 Slaves 文件的配置
      - 3.1.6 Hadoop 分发以及 HA HDFS on yarn 配置
      - 3.1.6.1 Hadoop 分发
        
        3.1.6.2 HA HDFS on yarn 配置
    - 3.2 ZooKeeper 安装及配置
    - - 3.2 .1 ZooKeeper 安装
      - 3.2 .1 ZooKeeper 配置
    - 3.3 HDFS 、ZooKeeper 和 yarn 启动
    - - 3.3.1 启动 ZooKeeper
      - 3.3.2 启动 HDFS
      - 3.3.3 启动 yarn

1. 搭建环境

1.1 实验环境

本文基于 HA 分布式文件系统（HDFS），搭建 MapReduce on yarn 大数据集群。总共需要四台虚拟机node01、node02、node03、node04，各个角色进程的分配如下表所示：

虚拟机	Namenode-1	Namenode-2	Datanode	zookeeper	zkfc	journalnode	ResourceManager	NodeManager
node01	*				*	*
node02		*	*	*	*	*		*
node03			*	*		*	*	*
node04			*	*			*	*

1.2 架构模型

HDFS 2.x 通过Namenode主备模型解决了 HDFS 1.x 的单点故障和内存受限问题。本文采用基于 ZooKeeper 的名称节点自动切换方案。由 ZooKeeper Failover Controller 进程实时的监控 namenode 的健康状态，ZooKeeper Failover Controller 进程帮助 Namenode 向 ZooKeeper 争抢锁，获得锁的 Namenode 成为 Active ，另一台 Namenode 为 standby。 Active 对外提供服务，Standby 通过 journalnode 保持通信，同步 Active 元数据，随时以待切换。此外，Standby 完成了edits.log 文件的合并，并产生新的 image ，然后推回给 Active。如果 Active 发生故障，则自动切换到备 Standby。Datanode 同时向 Active 和 Standby 保持心跳，报告数据块的信息。HDFS 2.x 的架构模型如下图所示：

1.3 前期准备

修改 /etc/hosts 文件，使IP地址与主机一一映射。

//修改node01/etc/hosts文件：
[root@node01~]#  vi /etc/hosts

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.179.101 node01
192.168.179.102 node02
192.168.179.103 node03
192.168.179.104 node04

软件包资源
jdk-7u67-linux-x64.rpm、hadoop-2.6.5.tar.gz、zookeeper-3.4.6.tar.gz：
软件包百度网盘资源链接
提取码：2nma

2. 软件环境依赖部署

众所周知，Hadoop是由热门的Java语言开发的，所以，大数据集群的运行需要依赖Java环境。首先，需要准备java环境。

2.1 jdk安装及配置

把jdk-7u67-linux-x64.rpm、hadoop-2.6.5.tar.gz两个软件包通过ftp上传到node01/home目录下：

解压jdk-7u67-linux-x64.rpm：

 //将jdk解压至node01的/usr/local目录下
 [root@node01 ~]#  rpm -ivh  jdk-7u67-linux-x64.rpm

修改配置文件/etc/profile:

[root@node01 ~]# vi /etc/profile

执行并验证

1 [root@node01 ~]# source /etc/profile  //使配置文件生效
2 [root@node01 ~]# jps          //验证Java环境
  1348 jps                     //java环境成功安装

分发给node02、node03、node04

//将jdk部署到其它三台机器
[root@node01 ~]# scp -r  /usr/local/java node02：/usr/local/  
[root@node01 ~]# scp -r  /usr/local/java node03：/usr/local/  
[root@node01 ~]# scp -r  /usr/local/java node04：/usr/local/  

//将配置文件远程拷贝到其它三台机器
[root@node01 ~]# scp -r  /etc/profile node02：/etc/
[root@node01 ~]# scp -r  /etc/profile node03：/etc/
[root@node01 ~]# scp -r  /etc/profile node04：/etc/

2.2 ssh免密钥配置

免密钥需求场景
- 管理脚本远程管理其它节点启停服务时，namenode上的管理脚本需要免密钥访问其他节点
- 在HA架构模型中，主备namenode上的ZKFC需要通过免密钥控制对方和自己

[root@node01 ~]# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   //获取密钥，四台节点都要做
  
  ##想免密钥访问谁，就把自己的公钥放到谁的authorized_keys文件中
1 [root@node01 .ssh]# cat id_dsa.pub >> authorized_keys   //和自己免密钥
2 [root@node01 .ssh]# scp id_dsa node02:`pwd`/node01.pub   //把node01公钥发给node02，并命名为node01.pub
3 [root@node02 .ssh]# cat node01.pub >> authorized_keys   //实现了node01对node02的免密钥登录
 
 ##对node03、node04采用上述2、3步骤
 ##本集群搭建需要做node01免密钥访问node02、node03、node04
 ##以及node02免密钥访问node01

3. Hadoop及Zookeeper部署

3.1 Hadoop安装及配置

3.1.1 解压hadoop-2.6.5.tar.gz：

为了简便，只需要在 node01 上安装和配置好 Hadoop ，然后通过远程拷贝命令分发给 node02、node03、node04。

 //将hadoop-2.6.5.tar.gz解压至node01的/opt/soft目录下
 [root@node01 ~]# tar -zxvf  hadoop-2.6.5.tar.gz
 [root@node01 ~]# mv hadoop-2.6.5 /opt/soft   //把解压的目录移动至/opt/soft

3.1.2 修改配置文件/etc/profile:

[root@node01 ~]# vi /etc/profile

export JAVA_HOME=/usr/java/jdk1.7.0_67
export HADOOP_HOME=/opt/sxt/hadoop-2.6.5 #配置家目录
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  #配置bin和sbin执行目录

3.1.3 修改 hadoop-env.sh 和 mapred-env.sh 配置文件

在 Hadoop 中主要修改的配置文件有以下7个：
hadoop-env.sh、mapred-env.sh、hdfs-site.xml、core-site.xml、slaves、mapred-site.xml、yarn-site.xml。
在 MR 离线计算时，名称节点在使用脚本远程访问其它节点时，不会读取到 /etc/pofile 文件的 java 配置，所以要在这两个文件中配置 java 的绝对路径,上述配置的 JAVA_HOME。

[root@node01~]# cd $HADOOP_HOME
[root@node01 hadoop-2.6.5]# cd etc/hadoop
[root@node01 hadoop]# vi hadoop-env.sh

[root@node01 hadoop]# vi mapred-env.sh

3.1.4 配置hdfs-site.xml 文件

该文件的配置总共包含以下五点：

指定存放block块的数据节点（Datanode）的副本数，一般不超过所设定的数据节点数，本文设为3，提供以下配置源代码：

[root@node01 hadoop]# vi hdfs-site.xml

	<property>
        <name>dfs.replication</name>
        <value>3</value>
	</property>

逻辑到物理的映射，namenode服务集群node01、node02，以及他们的启动时所用的端口：8020，和浏览器访问时所用的端口：50070。提供以下配置源代码：

 <property>
  <name>dfs.nameservices</name>
  <value>mycluster</value>
 </property>

 <property>
  <name>dfs.ha.namenodes.mycluster</name>
  <value>nn1,nn2</value>
 </property>
 
 <property>
  <name>dfs.namenode.rpc-address.mycluster.nn1</name>
  <value>node01:8020</value>
 </property>
 
 <property>
  <name>dfs.namenode.rpc-address.mycluster.nn2</name>
  <value>node02:8020</value>
 </property>
 
 <property>
  <name>dfs.namenode.http-address.mycluster.nn1</name>
  <value>node01:50070</value>
 </property>
 
 <property>
  <name>dfs.namenode.http-address.mycluster.nn2</name>
  <value>node02:50070</value>
 </property>

journalnode相关信息配置，包括三台journalnode的节点及启动端口，和存放数据的目录。提供以下配置源代码：

 <property>
  <name>dfs.namenode.shared.edits.dir</name>
  <value>qjournal://node01:8485;node02:8485;node03:8485/mycluster</value>
 </property>
 
 <property>
  <name>dfs.journalnode.edits.dir</name>
  <value>/var/hadoop/ha/jn</value>
 </property>

故障的切换的实现和代理。提供以下配置源代码：

 <property>
  <name>dfs.client.failover.proxy.provider.mycluster</name>  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
 </property>

 <property>
  <name>dfs.ha.fencing.methods</name>
  <value>sshfence</value>
 </property>

 <property>
  <name>dfs.ha.fencing.ssh.private-key-files</name>
  <value>/root/.ssh/id_dsa</value>
 </property>

实现 HDFS 的 HA（高可用）模型自动故障转移开关，打开后，会在名称节点上创建 ZooKeeper Failover Controller 进程，监控名称节点的健康状态。提供以下配置源代码：

 <property>
   <name>dfs.ha.automatic-failover.enabled</name>
   <value>true</value>
 </property>

3.1.5 配置 core-site.xml 和 Slaves 文件

3.1.5.1 core-site.xml 文件的配置

fs.defaultFS 的入口修改为上述配置的逻辑名称：hdfs://mycluster

[root@node01 hadoop]# vi core-site.xml

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://mycluster</value>
    </property>
    
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/hadoop/ha</value>
    </property>

注意：hadoop.tmp.dir 是存放数据的目录，默认是 /tmp/ ，需要手动指定一个持久目录例：/var/hadoop/ha

ZooKeeper Failover Controller 会用到 ZooKeeper ，需要配置 ZooKeeper 节点信息

 <property>
   <name>ha.zookeeper.quorum</name>
   <value>node02:2181,node03:2181,node04:2181</value>
 </property>

3.1.5.2 Slaves 文件的配置

配置数据节点（Datanode）的位置：

[root@node01 hadoop]# vi slaves

#打开后添加如下内容：
node02
node03
node04

3.1.6 Hadoop 分发以及 HA HDFS on yarn 配置

3.1.6.1 Hadoop 分发

鉴于以上所有的操作全部都在 node01 虚拟机上操作，所以需要把 node01 上安装配置好的 Hadoop 远程分发到 node02 、node03 、node04 上。

#分发 Hadoop
[root@node01~]# cd $HADOOP_HOME  //回到 hadoop 的家目录
[root@node01 hadoop-2.6.5]# scp ./hadoop-2.6.5/   node2:`pwd`
[root@node01 hadoop-2.6.5]# scp ./hadoop-2.6.5/   node3:`pwd`
[root@node01 hadoop-2.6.5]# scp ./hadoop-2.6.5/   node4:`pwd`

#分发 Hadoop 的配置文件 /etc/profile
[root@node01 hadoop-2.6.5]# cd    //回到家目录
[root@node01~]# scp /etc/profile  node02:/etc/
[root@node01~]# scp /etc/profile  node03:/etc/
[root@node01~]# scp /etc/profile  node04:/etc/

3.1.6.2 HA HDFS on yarn 配置

yarn 是 Hadoop 2.x 新引入的资源管理系统，yarn 的引入把资源管理和计算调度进行解耦，可使得多个计算框架运行在一个集群，如MapReduce、spark、storm 。yarn 主要有 Resourcemanager （负责整个集群的资源管理及调度）和 Nodemanager (向 RM 汇报集群节点的资源使用情况，管理container的生命周期)两个角色。
该项配置主要包括 mapre-site.xml 和 yarn-site.xml 两个文件：

[root@node01 hadoop]# cp  mapre-site.xml.template  mapre-site.xml   //复制一份
[root@node01 hadoop]# vi mapre-site.xml

 #实现了 MapReduce on yarn
 <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
  </property>

注：以上为配置源代码

[root@node01 hadoop]# vi yarn-site.xml

 <property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
 </property>
 <property>
   <name>yarn.resourcemanager.ha.enabled</name>
   <value>true</value>
 </property>
 <property>
   <name>yarn.resourcemanager.cluster-id</name>
   <value>cluster1</value>
 </property>
 <property>
   <name>yarn.resourcemanager.ha.rm-ids</name>
   <value>rm1,rm2</value>
 </property>
 <property>
   <name>yarn.resourcemanager.hostname.rm1</name>
   <value>node03</value>
 </property>
 <property>
   <name>yarn.resourcemanager.hostname.rm2</name>
   <value>node04</value>
 </property>
 <property>
   <name>yarn.resourcemanager.zk-address</name>
   <value>node02:2181,node03:2181,node04:2181</value>
 </property>

注：以上为配置源代码。主要配置 Resourcemanager 和 Nodemanager 的主机位置

将 mapre-site.xml 和 yarn-site.xml 两个文件分发给 node02。

[root@node01 hadoop]# scp  mapre-site.xml  yarn-site.xml  node02:`pwd`

至此所有虚拟机 Hadoop 的安装及配置已经完成。

3.2 ZooKeeper 安装及配置

由 1.1 中的角色进程分配表可知，ZooKeeper 分配在node02、node03、node04 三台节点上，所以只需要在 node02 上安装配置好 ZooKeeper ,然后通过远程拷贝命令分发给 node03、node04。

3.2 .1 ZooKeeper 安装

[root@node02~]# tar -zxvf zookeeper-3.4.6.tar.gz
[root@node02~]# mv  zookeeper-3.4.6.tar.gz  /opt/soft    //把解压的文件移至此目录
[root@node02~]# vi /etc/profile

//配置 ZooKeeper home 目录和 bin 目录
export JAVA_HOME=/usr/java/jdk1.7.0_67
export HADOOP_HOME=/opt/sxt/hadoop-2.6.5
export ZOOKEEPER_HOME=/opt/sxt/zookeeper-3.4.6
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin

3.2 .1 ZooKeeper 配置

[root@node02~]# cd $ZOOKEEPER_HOME
[root@node02 zookeeper-3.4.6]# cd conf
[root@node02 conf]# mv  zoo_sample.cfg  zoo.cfg  //复制一份并重命名为 zoo.cfg
[root@node02 conf]# vi zoo.cfg

保存后退出。
创建刚刚配置的目录，并把事务 id 存入 myid 文件中。

[root@node02 conf]# mkdir -p /var/hadoop/zk   //创建目录
[root@node02 conf]# echo 1  >>  /var/hadoop/zk/myid   //把事务 id 存入 myid 文件中
[root@node02 conf]# cd /opt/soft
[root@node02 soft]# scp -r  ./zookeeper-3.4.6  node03:`pwd` //将 ZooKeeper 分发给node03
[root@node02 soft]# scp -r  ./zookeeper-3.4.6  node04:`pwd` //将 ZooKeeper 分发给node04

//同时将 /etc/profile 配置文件分发给 node03 node04
[root@node02 soft]# scp -r /etc/profile  node03:/etc/
[root@node02 soft]# scp -r /etc/profile  node03:/etc/

值得注意的是，需要分别切换到 node03 、node04 上，重复创建目录和存事务 id两件事。

# 在 node03 上：
[root@node03 ~]# mkdir -p /var/hadoop/zk   //创建目录
[root@node03 ~]# echo 2  >>  /var/hadoop/zk/myid   //把事务 id 存入 myid 文件中

# 在 node04 上：
[root@node04 ~]# mkdir -p /var/hadoop/zk   //创建目录
[root@node04 ~]# echo 3  >>  /var/hadoop/zk/myid   //把事务 id 存入 myid 文件中

值得恭喜，Hadoop 和 ZooKeeper 两个软件都已经安装配置成功啦！

3.3 HDFS 、ZooKeeper 和 yarn 启动

3.3.1 启动 ZooKeeper

# 分别在 node02 node03 node04 执行以下命令,依次启动 ZooKeeper，ZooKeeper 要先启动
[root@node02 ~]# zkServer.sh  start

3.3.2 启动 HDFS

启动 HDFS 前，需要格式化 Namenode，格式化 Namenode 前需要启动 journalnode ，因为主备两台 Namenode 需要通过 journalnode 传递数据。

  # 第一、分别在 node01 node02 node03 执行以下命令，依次启动 journalnode
[root@node01 ~]# hadoop-daemon.sh  start  journalnode

 # 第二、在 node01 上格式化 namenode
[root@node01 ~]# hdfs namenode  -format  

 # 第三、启动 node01 上的 namenode 
 [root@node01 ~]# hadoop-daemon.sh  start  namenode

 # 第四、在 node02 上同步
 [root@node02 ~]# hdfs  namenode  -bootstrapStandby

 # 第五、在 node01 上格式化 ZooKeeper，此步是启动  ZooKeeper Failover Controller 进程的前置依赖
 [root@node01 ~]# hdfs  zkfc  -formatZK

注意：第二步，需要见到 successfully 字样，namenode才算格式化成功，否则重来

两次格式化做完，终于可以启动 HDFS 了。

 # 在 node01 上 执行以下命令启动 HDFS
[root@node01 ~]# start-dfs.sh

 # 在四台虚拟机上执行 jps 命令验证 HDFS 启动情况
 # node01
[root@node01 ~]# jps 
4213 NameNode
5148 Jps
4089 JournalNode
4650 DFSZKFailoverController

 # node02
[root@node02 ~]# jps
3099 DFSZKFailoverController
2809 JournalNode
1813 QuorumPeerMain
2923 NameNode
4475 Jps

 # node03
[root@node03 ~]# jps
 2372 Jps
1610 QuorumPeerMain
2171 JournalNode

 # node04
[root@node04 ~]# jps
1511 QuorumPeerMain
1982 Jps

3.3.3 启动 yarn

 # 第一、在 node01 上执行以下命令，启动 三台 Nodemanager
[root@node01 ~]# start-yarn.sh

 # 第二、在 node03 上执行以下命令，手工启动 Resourcemanager
[root@node03 ~]# yarn-daemon.sh  start  resourcemanager

# 第三、在 node04 上执行以下命令，手工启动 Resourcemanager
[root@node04 ~]# yarn-daemon.sh  start  resourcemanager

注意：上述命令执行完后，依次在 node02、node03 、node04 上执行 jps 验证：node02 比原来多了一个 NodeManager 进程；node03 和 node04 都多了一个 NodeManager 和 ResourceManager 进程。

结语：感谢你！耐心的看完了这篇文章！也恭喜你！我们又成长了一步！建议大家亲手实践一遍，搭建集群不是最终目的，最重要的是理解整个基于 HDFS ，MapReduce on yarn 架构模型！

YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
Hadoop入门案例WordCount 码喵喵 hadoop mapreduce 大数据
wordcount可以说是hadoop的入门案例，也是基础案例主要体现思想就是mapreduce核心思想原始文件为hadoop.txt，内容如下：hello,javahello,java,linux,hadoophadoop,java,linuxhello,java,linuxlinux,c,javac,php,java在整个文件中单词所出现的次数Hadoop思维：Mapreduce-----》M
Hadoop入门案例 'Wu' 学习日常大数据 hadoop hdfs 大数据
Hadoop的运行流程：客户端向HDFS请求文件存储或使用MapReduce计算。NameNode负责管理整个HDFS系统中的所有数据块和元数据信息；DataNode则实际存储和管理数据块。客户端通过NameNode查找需要访问或处理的文件所在的DataNode，并将操作请求发送到相应的DataNode上。当客户端上传一个新文件时（比如输入某些日志），它会被分成固定大小（默认64MB）并进行数据复
MapReduce分布式计算框架：从原理到实战 AI妈妈手把手 mapreduce 前端大数据分布式计算 python 人工智能
大家好！今天我们来聊聊大数据处理领域的一个重要框架——MapReduce。作为Google提出的经典分布式计算模型，MapReduce极大地简化了海量数据的处理流程。无论你是大数据新手还是有一定经验的开发者，这篇文章都会让你对MapReduce有更深入的理解。我们还会通过实际代码示例来展示它的强大功能！一、MapReduce是什么？想象你有一个装满10亿本书的图书馆，现在需要统计所有书中"大数据"
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
头歌当HBase遇上MapReduce 敲代码的苦13 头歌 hbase mapreduce 数据库
头歌当HBase遇上MapReduce第1关：HBase的MapReduce快速入门代码行：packagecom.processdata;importjava.io.IOException;importjava.util.List;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration;importorg.apache.
MapReduce01：基本原理和wordCount代码实现冬至喵喵大数据 mapreduce
本篇文章中，笔者记录了自己对于MapReduce的肤浅理解，参考资料主要包括《大数据Hadoop3.X分布式处理实战》和网络视频课程。下文介绍了MapReduce的基本概念、运行逻辑以及在wordCount代码示例。一、MapReduce概述1.概述google为解决其搜索引擎中的大规模网页数据的并行化处理问题，设计了MapReduce，在发明MapReduce之后首先用其重新改写了搜索引擎中we
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l