Luck_Vera

搭建Hadoop HA 高可用集群——四台虚拟机（CentOS）

刚经过一个阶段的大数据学习，详细的记录了一下搭建Hadoop HA 高可用集群的全过程━(｀∀´)ノ亻找bug的过程好心酸啊，但学习到新知识还是感觉好开心hhhh
你是真的真的真的真的真的很不错 !

一、Hadoop 系统架构

1. Hadoop1.x 和Hadoop 2.x

hadoop 1.x是由分布式计算框架MapReduce和分布式存储系统HDFS两个分支构成的。其中HDFS由一个Namenode和多个DateNode组成。只有一个Namenode,所有元数据由唯一的Namenode负责管理,可想而之，当这个NameNode挂掉时，整个集群基本也就不可用了。

Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成。在 1.x 版本的基础上，提出HDFS Federation，并引入资源管理框架Yarn，负责集群资源管理和调度。HA机制也是从hadoop2.0开始，之前的版本中并没有HA机制，HDFS的HA机制通过引入双NameNode架构（ NN Federation联邦），每个NameNode管理不同文件的元数据，解决了单点故障问题，实现HDFS 的高可用。

所谓HA，即高可用（7*24小时不中断服务），实现高可用最关键的是消除单点故障。hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA

2. HDFS 的 HA 机制

HDFS 的HA机制 2.x ,解决了HDFS 1.x 中 单点故障和 内存受限问题

解决单点故障：

•主备NameNode（如果主NameNode发生故障，则切换到备NameNode上）

--主NameNode对外提供服务，备NameNode同步主元数据，以待切换

--所有DataNode同时向两个汇报数据块信息

解决内存受限问题：

•HDFS Federation(联邦)

•水平扩展，支持多个NameNode；

--每个NameNode分管一部分目录，把单个namenode的负载分散到多个节点中，把不同类型应用的HDFS元数据的存储和管理分派到不同的namenode中。

--所有NameNode共享所有DataNode存储资源

主NameNode和备NameNode之间的切换：

•手动切换：通过命令实现主备之间的切换。

•基于Zookeeper的自动切换：

--ZooKeeper Failover Controller：监控NameNode健康状态，部署在每个NameNode的节点上，作为一个demon进程，它会周期性的向它监控的NN发送健康探测命令，从而来确定某个NameNode是否处于健康状态，如果机器宕机，心跳失败，那么zkfc就会标记它处于一个不健康的状态如果NN是健康的，zkfc就会在zookeeper中保持一个打开的会话，如果NameNode同时还是Active状态的，那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode，当这个NN挂掉时，这个znode将会被删除，然后备用的NN，将会得到这把锁，升级为主NN，同时标记状态为Active。当宕机的NN新启动时，它会再次注册zookeper，发现已经有znode锁了，便会自动变为Standby状态，如此往复循环，保证高可靠。

ZKFC为NameNode竞争锁，获得ZKFC 锁的NameNode变为active。如上就涉及到了master选举，通过在zookeeper中维持一个短暂类型的znode，来实现抢占式的锁机制，从而判断那个NameNode为Active状态。

HA 架构图

二、HA 安装方案及配置

配置:

VMware Workstation Pro (安装好CentOS-6.5 的linux操作系统)

纯净版虚拟机（CentOS 6 64位）

通过克隆 CentOS 6 64位虚拟机，得到四台虚拟机CentOS-node01,02,03,04 ,如下图：

HA安装方案

接下来我们将利用VMware搭建四个节点的集群hadoop，其各个节点分布如下：（将严格按照以下安装方案）

*带星的地方表示该台机子上需要安装该配置

三、配置CentOS-node01

1. 配置IP：

命令：

vi /etc/sysconfig/network-scripts/ifcfg-eth0

配置情况如下：

执行：service network restart

重启网络服务命令，要出来如下图全是OK，则配置成功

测试:ping www.baidu.com

ping一下百度，看下是否成功

成功则一直在加载64 bytes …的语句，按 CTRL+C停止加载

2. 配置主机名

命令：

 vi /etc/sysconfig/network

配置情况如下：

3. 配置hosts

命令：

vi /etc/hosts

配置情况如下：
我们是配置四台机子的集群，所以在下面添加了四台机子的信息，由上也可以看出，四台机子分别的子网IP是多少。

4. 关机拍摄快照

关机命令：poweroff

给CentOS-node01关机，拍摄快照，存一个非常干净的Linux版本。

走完所有的安装过程，我总结，一定要有拍摄快照这个好习惯，关键时候能起到很大的作用呢 !

四、设置机子之间的互相访问

1.给CentOS-node02配置，配置过程同给CentOS-node01配置

该机子IP配置如下：

*注意红圈，node01 为31 ；node02 为32 ；node03 为33 ；node04为 34

2.配置完CentOS-node02 ，两台机子互相ping一下看是否能ping通

具体操作：

在 CentOS-node01 中输入命令： ping CentOS-node02

在CentOS-node02 中输入命令： ping CentOS-node01

能ping通则指两台机子彼此之间可以访问

3.将余下的CentOS-node03 和CentOS-node04 都配置好

配置过程一定要仔细，不要直接复制网页命令，自己动手敲敲吧

4.使四台机子彼此之间都能访问

5.让windows和虚拟机之间也能访问

修改Windows上的hosts文件

路径 : C:/Windows/System32/drivers/etc
用Notepad++ 或什么都可以，只要能打开软件对其进行修改保存
我这里是用Notepad++ 打开的文档，在最后添加和上面一样的四台机子的信息
*Notepad++修改保存时，点击保存后，该页面会刷新一下，需再次点击保存才是真的保存好了

五、xftp软件和xshell软件

xftp 软件 是一个基于 MS windows 平台的功能强大的SFTP、FTP 文件传输软件。使用了 Xftp 以后,MS windows 用户能安全地在 UNIX/Linux 和 Windows PC 之间传输文件。直接搜索xftp安装压缩包，傻瓜式安装即可。
xshell 软件 是一个终端模拟软件,而且是远程近程都可以。就是模拟服务器所在的linux,在xshell中可以输入命令, 就像在服务器的linux中输入命令一样。一般用于远程连接。在本次安装过程中我将会使用xshell连接虚拟机进行操作，免去了鼠标在windows和linux之间来回切换的不便性。

也可直接在xshell命令打开xftp软件，在windows和linux之间进行文件的传输。
也会用到下面的xshell的全部会话框去输命令，避免重复在每个机子上都要输一次命令

六、Hadoop伪分布式安装

1. 安装jdk

使用rpm命令进行安装（rpm相当于windows里的exe文件）

rpm -i jdk-7u67-linux-x64.rpm

whereis java  //查看java的存放路径

vi + /etc/profile       //修改etc下的profile如下图

source /etc/profile

source一下，刷新该文件。

如果出现-bash: jps: command not found

改： export JAVA_HOME=/usr/bin/java
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin

2. 免密钥(自身)

在家目录下， ll -a 看有无**.ssh**文件
若无，则先 ssh localhost一下（每次ssh登录，都别忘了要exit）

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  //生成密钥

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

//把id_dsa.pub 追加到 ~/.ssh/authorized_keys 下

ssh localhost  //验证是否仍需要密码登录
ssh CentOS-node01

3. 安装Hadoop

安装命令:

tar xf hadoop-2.6.5.tar.gz -C /opt/HXW   //解压放在opt下以名字大写字母命名的文件夹中
cd /opt/HXW/hadoop-2.6.5    //到/opt/HXW目录下去看一下是否解压好了

实现在任意目录下启动hadoop，就要在配置文件里做些修改。

vi + /etc/profile

配置信息如下：

 export JAVA_HOME=/usr/bin/java
 export HADOOP_HOME=/opt/HXW/hadoop-2.6.5
 export PATH=$PATH:/usr/java/jdk1.7.0_67/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

当在命令行上输入hd按Tab键可以自动补全为hdfs
输入start-d按Tab键可以自动补全为start-dfs.
就表示配置成功了

4. 修改hadoop配置文件信息

配置操作统一在下列路径下运行命令：

cd /opt/HXW/hadoop-2.6.5/etc/hadoop

注：以上路径的etc可不是根目录下的etc

vi hadoop-env.sh
vi mapred-env.sh
vi yarn-env.sh

给这三个文件里的JAVA_HOME都改成绝对路径/usr/java/jdk1.7.0_67

配置 vi core-site.xml

配置代码如下：



  fs.defaultFS    //配置主节点信息
  hdfs://mycluster



   hadoop.tmp.dir  //将NN的元数据信息和DN的数据文件默认存放的临时tmp文件的路径修改掉，更安全
   >/var/HXW/hadoop/pseudo

配置 vi core-site.xml

配置代码如下：


        dfs.replication  //Block的副本数，默认为3
        1
    
    
        dfs.namenode.secondary.http-address
        CentOS-node01:50090  //配secondary NameNode

配置slaves文件

vi slaves 
CentOS-node01

5. 格式化 hdfs

hdfs namenode -format

只能格式化一次，再次启动集群不要执行，否则clusterID变了
之前/var/HXW/hadoop/pseudo这个文件不存在，格式化后就存在了，检查一下看存在没,可以进入到这个文件里去了

6.启动集群

start-dfs.sh

用jps 去查看都有哪些集群被启动了

在浏览器里打开CentOS-node01:50070（别用360浏览器！）能出现以下界面则有效

创建目录

hdfs dfs  -mkdir -p  /user/root

在 user下创建root目录，在上述浏览器界面可直接查看是否创建目录成功，如下：

上传文件

hdfs dfs -put  a.txt   /user/root

7. 停止集群

停止集群命令：

stop-dfs.sh

七、配置另外三台机子

7.1 安装jdk

1.分发jdk到另外三台机子

在CentOS-node01上输入下列命令，进行发送：

scp jdk-7u67-linux-x64.rpm CentOS-node02:`pwd`
scp jdk-7u67-linux-x64.rpm CentOS-node03:`pwd`
scp jdk-7u67-linux-x64.rpm CentOS-node04:`pwd`

在Xshell的全部会话栏里一起ll，看jdk是否发送成功。
注意：` 这一符号是数字1左边这个键

2.分别在 CentOS-node02、03、04上执行rpm安装命令

rpm -i jdk-7u67-linux-x64.rpm

3.在node03上cd /etc，在此目录下把profile文件分发到 CentOS-node02、03、04上。

scp profile node04:`pwd`

4.利用Xshell全部会话栏，刷新这个文件，修改才会生效 , 这一步不能忘记 !

source /etc/profile

5.利用Xshell全部会话栏，jps，看04、05、06这三台机子的jdk是否装好。

7.2 同步所有服务器的时间

date   //查看机子当前的时间。

时间不能差太大，否则集群启动后某些进程跑不起来。

*若时间不同步，怎么办？

1.yum进行时间同步器的安装

yum -y install ntp

2.执行同步命令

ntpdate time1.aliyun.com   //和阿里云服务器时间同步

7.3 装机前的配置检查

仔细点，真的要细心（扶额）不然有你哭的hhh

cat /etc/sysconfig/network   //查看HOSTNAME是否正确

cat /etc/hosts     //查看IP映射是否正确，若不正确，进行修改

cat /etc/sysconfig/selinux    //查看该selinux里是否  SELINUX=disabled

service iptables status    //查看防火墙是否关闭，配置过程中是要求关闭防火墙的

7.4 免密钥(彼此之间)

7.4.1 第一台NN和其他三台机子的免密钥设置

1. 在家目录下 ll –a看下有无.ssh文件，如果没有就ssh loalhost一下
2. cd .ssh ，到.ssh目录下，ll查看一下
3. 把CentOS-node01的公钥发给其他三台机子

scp id_dsa.pub CentOS-node02:`pwd`/CentOS-node01.pub

将CentOS-node01的公钥发给CentOS-node02的pwd下并重命名为CentOS-node01.pub

4. 在CentOS-node02的.ssh目录下看是否有CentOS-node01.pub
如果有，那就追加到authorized_keys

cat CentOS-node01.pub >> authorized_keys

5. 在CentOS-node01上ssh CentOS-node02看是否免密钥了（每次ssh一定要记得exit）

6. 同理，给其他节点发送公钥并在各个节点上把CentOS-node01的公钥追加上，并测试看ssh CentOS-node01要不要密钥

scp id_dsa.pub  CentOS-node03:`pwd`/CentOS-node01.pub
cat CentOS-node01.pub >> authorized_keys
ssh CentOS-node01
exit    //！！！一定要exit

scp id_dsa.pub  CentOS-node04:`pwd`/CentOS-node01.pub
cat CentOS-node01.pub >> authorized_keys
ssh CentOS-node01
exit   //！！！一定要exit

7.4.2 两个NN之间互相免密钥

需实现两台NameNode ( CentOS-node01与CentOS-node02 ) 之间互相免密钥，我们已经实现CentOS-node01可免密钥登录CentOS-node02，那现需CentOS-node02上能免密钥登CentOS-node01，所以

1. 在CentOS-node02上：

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  //生成公钥

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

2.ssh localhost验证一下

3. 分发到CentOS-node01上：

scp id_dsa.pub  CentOS-node01:`pwd`/CentOS-node02.pub

4. 在CentOS-node01的.ssh目录下，

cat CentOS-node02.pub >> authorized_keys,

5. 在CentOS-node02上验证一下可否免密钥登录

ssh CentOS-node01

7.4.3 CentOS-node03和CentOS-node04之间免密钥

由于CentOS-node03和CentOS-node04都是resourcemanager，所以它俩应该相互免密钥

CentOS-node03上免密钥登录CentOS-node04：

1.在CentOS-node03的.ssh目录下生成密钥

 ssh-keygen -t dsa -P '' -f ./id_dsa

2.追加到自己authorized_keys

 cat id_dsa.pub >> authorized_keys

3.用 ssh localhost 验证看是否需要密码，别忘了exit!

4. 将CentOS-node03的公钥分发到CentOS-node04

 scp id_dsa.pub CentOS-node04:`pwd`/CentOS-node03.pub

5.在CentOS-node04的.ssh目录下，追加CentOS-node03.pub

 cat CentOS-node03.pub >> authorized_keys

6. 在CentOS-node03上 ssh CentOS-node04 ,看是否免密钥

同理设置 CentOS-node04 上免密钥登录CentOS-node03，这里过程我就不赘述了，将上面03和04互相换位进行操作即可。

7.5 修改NameNode的一些配置信息

vi hdfs-site.xml

配置结果如下：


	
    
        dfs.replication
        3
    
    
	
  		dfs.nameservices
  		mycluster
	
		
	
  		dfs.ha.namenodes.mycluster
  		nn1,nn2
	
		
	
  		dfs.namenode.rpc-address.mycluster.nn1
  		CentOS-node01:8020
	
	
  		dfs.namenode.rpc-address.mycluster.nn2
  		CentOS-node02:8020
	
	
	
  		dfs.namenode.http-address.mycluster.nn1
  		CentOS-node01:50070
	
	
  		dfs.namenode.http-address.mycluster.nn2
  		CentOS-node02:50070
	
	
	
  		dfs.namenode.shared.edits.dir
 		qjournal://CentOS-node01:8485;CentOS-node02:8485;CentOS-node03:8485/mycluster
	
	
	
  		dfs.journalnode.edits.dir
  		/var/HXW/hadoop/ha/jn
	
	
	
  		dfs.client.failover.proxy.provider.mycluster
 		org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
	
	
	
  		dfs.ha.fencing.methods
  		sshfence
	
	
	
  		dfs.ha.fencing.ssh.private-key-files
  		/root/.ssh/id_dsa
	
	
	
   		dfs.ha.automatic-failover.enabled
   		true

vi core-site.xml

配置结果如下：


	
	
 		fs.defaultFS
  		hdfs://mycluster
	
	
	
   		ha.zookeeper.quorum
   		CentOS-node02:2181,CentOS-node03:2181,CentOS-node04:2181

vi slaves

CentOS-node02
CentOS-node03
CentOS-node04

为MapReduce做准备， mapreduce是在yarn运行的

把mapred-site.xml.template留个备份，并且改下名字

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml (添加参数)


        mapreduce.framework.name
        yarn

vi yarn-site.xml (添加参数)


        yarn.nodemanager.aux-services
        mapreduce_shuffle


   yarn.resourcemanager.ha.enabled
   true
 
 
   yarn.resourcemanager.cluster-id
   cluster1
 
 
   yarn.resourcemanager.ha.rm-ids
   rm1,rm2
 
 
   yarn.resourcemanager.hostname.rm1
   CentOS-node03
 
 
   yarn.resourcemanager.hostname.rm2
   CentOS-node04
 
 
   yarn.resourcemanager.zk-address
   CentOS-node02:2181,CentOS-node03:2181,CentOS-node04:2181

7.6 拷贝Hadoop到其他机子

cd /opt ，到opt目录下，将其下的HXW目录分发到CentOS-node02、03、04

scp –r HXW/ CentOS-node02:`pwd`
scp –r HXW/ CentOS-node03:`pwd`
scp –r HXW/ CentOS-node04:`pwd`

将hdfs-site.xml和core-site.xml分发到CentOS-node02、03、04

scp hdfs-site.xml core-site.xml CentOS-node02:`pwd`
scp hdfs-site.xml core-site.xml CentOS-node03:`pwd`
scp hdfs-site.xml core-site.xml CentOS-node04:`pwd`

把mapred-site.xml和yarn-site.xml 分发到CentOS-node02、03、04

scp mapred-site.xml yarn-site.xml CentOS-node02:`pwd`
scp mapred-site.xml yarn-site.xml CentOS-node03:`pwd`
scp mapred-site.xml yarn-site.xml CentOS-node04:`pwd`

八、安装zookeeper

命令解压安装zookeeper(在CentOS-node02上)

tar xf zookeeper-3.4.6.tar.gz -C /opt/HXW

修改zookeeper的配置文件

cd /opt/HXW/zookeeper-3.4.6/conf

给zoo_sample.cfg改名,以防在后面出现错误，我们复制该文件并重命名为zoo.cfg，不直接将文件改名

cp zoo_sample.cfg zoo.cfg

修改zoo.cfg 文件

vi zoo.cfg

改 **dataDir=/var/HXW/zk ** , 并在末尾追加

server.1=CentOS-node02:2888:3888
server.2=CentOS-node03:2888:3888
server.3=CentOS-node04:2888:3888

其中2888主从通信端口，3888是当主挂断后进行选举机制的端口

把zookeeper分发到其他节点

 scp -r zookeeper-3.4.6/ CentOS-node03:`pwd`
 scp -r zookeeper-3.4.6/ CentOS-node04:`pwd`

并用 ll /opt/HXW 检查下看分发成功没

给每台机子创建刚配置文件里的路径

mkdir -p /var/HXW/zk

**对CentOS-node02来说： **

 echo 1 > /var/HXW/zk/myid
 cat /var/HXW/zk/myid

**对CentOS-node03来说： **

 echo 2 > /var/HXW/zk/myid
 cat /var/HXW/zk/myid

**对CentOS-node04来说： **

 echo 3 > /var/HXW/zk/myid
 cat /var/HXW/zk/myid

在/etc/profile里面配置

export ZOOKEEPER_HOME=/opt/ldy/zookeeper-3.4.6
export PATH=$PATH:/usr/java/jdk1.7.0_67/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$ZOOKEEPER_HOME/bin

然后在把/etc/profile分发到其他CentOS-node03、CentOS-node04

scp /etc/profile CentOS-node03:/etc
scp /etc/profile CentOS-node04:/etc

在CentOS-node02、03、04里source /etc/profie，这步千万别忘 ! ! !

验证source这句是否完成，输入zkCli.s，按Tab可以把名字补全zkCli.sh

启动zookeeper

在全部会话中输入：zkServer.sh start 把三台机子的zookeeper都启起来

接着用zkServer.sh status查看每个zookeeper节点的状态

CentOS-node02、03、04 三台安装了zookeeper，只要是一台状态为leader，两台为follower则成功

* 注意：如果启动不起来，请把/etc/profile里的JAVA_HOME改成绝对路径。

九、启动journalnode

启动journalnode是为了使两台NameNode间完成数据同步。

下一次启动hdfs集群的时候还需要用hadoop-daemon.sh start journalnode命令启动journalnode吗？

不需要，只要start-dfs.sh就可以了。这里我们启动journalnode是为了同步两个namenode之间的信息。

在01、02、03三台机子上分别把journalnode启动起来

 hadoop-daemon.sh start journalnode

用 jps 检查下进程启起来了没

NameNode 要是没起来的话去 /opt/HXW/hadoop-2.6.5/logs （如下图）下查看相应的NameNode的.log文件，看哪里报错。（以后什么东西没启起来都可以到这里去查看）

十、格式化一台NN并给另一NN同步数据

( 这里需严格按步骤操作！！)
随意挑一台namenode上执行，另一台namenode不用执行，否则clusterID变了，找不到集群了。

hdfs namenode –format

然后，启动刚刚格式化的那台namenode

hadoop-daemon.sh start namenode

给另一台namenode同步一下数据，用以下命令

hdfs namenode -bootstrapStandby

十一、格式化zkfc

( 这里需严格按步骤操作！！)
在CentOS-node01上：

hdfs zkfc -formatZK

在CentOS-node02上：

zkCli.sh         //打开zookeeper客户端

打开zookeeper客户端查看hadoop-ha是否打开

十二、启动hdfs集群

启动zookeeper，全部会话中

zkServer.sh start

若zookeeper启动不成功，可能是前面一步zkfc格式化没成功，不要做太快，每一步都看清楚做仔细，回头去仔细看看报的什么错误吧

在CentOS-node01上启动集群

start-dfs.sh

如果哪个节点没起来到hadoop目录下去看那个node的日志文件log
然后全部会话jps看一下都起来些什么进程

用浏览器访问CentOS-node01:50070和CentOS-node02:50070 如下，一个为active，一个为standby

在CentOS-node01上启动yarn

start-yarn.sh

在CentOS-node03、04上分别启动resourcemanager

 yarn-daemon.sh start resourcemanager

看进程全不全，全部会话jps

可在浏览器访问Cent-node03:8088，查看resourcemanager管理的内容

十三、关闭hdfs集群

关闭集群命令

stop-dfs.sh      //在CentOS-node01上

关闭yarn ，停止nodemanager

stop-yarn.sh     //在CentOS-node01上

在CentOS-node03,CentOS-node04上

yarn-daemon.sh stop resourcemanager

在CentOS-node02、03、04上，关闭zookeeper命令

zkServer.sh stop

呼 ~ 搭建完成，去跑一个wordcount试试吧

最后！不仔细不认真就像是自己给自己埋雷，最后埋了一地的雷，排雷排的累死你hhhh

PS: 以上就是Hadoop高可用集群的搭建过程了 , 希望能对看到这篇文章的你有所帮助 ~

你可能感兴趣的:(hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

搭建Hadoop HA 高可用集群——四台虚拟机（CentOS）

一、Hadoop 系统架构

1. Hadoop1.x 和Hadoop 2.x

2. HDFS 的 HA 机制

二、HA 安装方案及配置

三、配置CentOS-node01

1. 配置IP：

2. 配置主机名

3. 配置hosts

4. 关机 拍摄快照

四、设置机子之间的互相访问

五、xftp软件和xshell软件

六、Hadoop伪分布式安装

1. 安装jdk

2. 免密钥(自身)

3. 安装Hadoop

4. 修改hadoop配置文件信息

5. 格式化 hdfs

6.启动集群

7. 停止集群

七、配置另外三台机子

7.1 安装jdk

7.2 同步所有服务器的时间

7.3 装机前的配置检查

7.4 免密钥(彼此之间)

7.4.1 第一台NN和其他三台机子的免密钥设置

7.4.2 两个NN之间互相免密钥

7.4.3 CentOS-node03和CentOS-node04之间免密钥

7.5 修改NameNode的一些配置信息

7.6 拷贝Hadoop到其他机子

八、安装zookeeper

九、启动journalnode

十、格式化一台NN并给另一NN同步数据

十一、格式化zkfc

十二、启动hdfs集群

十三、关闭hdfs集群

你可能感兴趣的:(hadoop)

4. 关机拍摄快照