大数据应用实践一

课程须知必读

1.建议虚拟机安装5个，操作系统使用centos6.7

2.JDK使用1.8版本

3.除了JDK其他所有软件使用hadoop用户安装，安装文件统一放到/home/hadoop/apps路径下

4.所有机器使用hadoop用户对所有机器做ssh免密码登录（包括机器本身）

5.课程中涉及的软件下载在小象学院官网->大数据->系统课->大数据应用实践第一期->回放列表->大数据环境配置软件下载地址

6.所有自己解决不了的问题，需要老师参与解答的，将问题发布到小象问答，在小象问答创建问题的时候“添加话题”的输入框输入“大数据应用实践”

小象问答地址：http://wenda.chinahadoop.cn

zookeeper理解

1、znode是zookeeper中的一个数据节点，znode下还可以创建子znode，可以理解为文件夹的构造，一个文件夹下可以有子文件夹或者子文件，但是临时节点下是不能创建子节点的

2、心跳的意思是，从节点周期性的向leader发送消息，比如2秒钟发送一次消息，这种有规律的通信就叫做心跳

3、你可以理解为zookeeper提供了一种存储系统，这个存储系统里存储的是znode的树形结构，每一个znode就是一个数据节点，znode可以存数据，也可以实现类似文件夹的功能，就是znode下可以创建子znode

4、leader和follower分别在单独的机器上部署

整个集群会选举出一个leader，这个leader负责处理客户端的事务请求，事务请求包括znode的创建、修改、删除等，follower负责处理客户端的读请求，当集群中的任何一个follower节点接收到客户端的事务请求，都会转发给leader，也就是说整个集群只有leader可以处理事务请求，其他角色的节点都不能处理，当leader处理事务请求的时候，就要向整个集群广播一个提议，这个提议的意思就是告诉follower你们要创建/修改/删除一个znode，然后follower接收到leader的提议之后，就会做相应的操作，操作完成告诉leader完成了，当leader接收到集群中的大多数follower的成功操作的回复之后，这里的大多数指的是超过集群机器数量的一半，当收到大多数follower的回复之后，leader就认为这次事务被成功处理了，然后再向集群通知所有的follower提交事务，最后会返回给客户端一个事务被成功处理的状态，如果有落后的follower，这些落后的follower也会从leader同步状态，保持与leader的状态一致。

集群注意事项

1、相关端口需要打开或把防火墙关闭

2、zookeeper/conf/zoo.cfg 需要配置，在配置里的datadir 目录下myid配置

3、集群服务器间需要免密登录

通过所属账户下的 .ssh/下通过ssh-keygen -t rsa 命令生成id_rsa.pub 等文件，通过ssh-copy-id -i node节点同步到相关节点上，查看.ssh/authorized_keys文件中是否有需要同步的节点。

大数据应用实践一

你可能感兴趣的:(大数据应用实践一)