大数据应用实践一

课程须知必读

1.建议虚拟机安装5个,操作系统使用centos6.7

2.JDK使用1.8版本

3.除了JDK其他所有软件使用hadoop用户安装,安装文件统一放到/home/hadoop/apps路径下

4.所有机器使用hadoop用户对所有机器做ssh免密码登录(包括机器本身)

5.课程中涉及的软件下载在小象学院官网->大数据->系统课->大数据应用实践第一期->回放列表->大数据环境配置软件下载地址

6.所有自己解决不了的问题,需要老师参与解答的,将问题发布到小象问答,在小象问答创建问题的时候“添加话题”的输入框输入“大数据应用实践”

小象问答地址:http://wenda.chinahadoop.cn

zookeeper理解

1、znode是zookeeper中的一个数据节点,znode下还可以创建子znode,可以理解为文件夹的构造,一个文件夹下可以有子文件夹或者子文件,但是临时节点下是不能创建子节点的

2、心跳的意思是,从节点周期性的向leader发送消息,比如2秒钟发送一次消息,这种有规律的通信就叫做心跳

3、你可以理解为zookeeper提供了一种存储系统,这个存储系统里存储的是znode的树形结构,每一个znode就是一个数据节点,znode可以存数据,也可以实现类似文件夹的功能,就是znode下可以创建子znode

4、leader和follower分别在单独的机器上部署

整个集群会选举出一个leader,这个leader负责处理客户端的事务请求,事务请求包括znode的创建、修改、删除等,follower负责处理客户端的读请求,当集群中的任何一个follower节点接收到客户端的事务请求,都会转发给leader,也就是说整个集群只有leader可以处理事务请求,其他角色的节点都不能处理,当leader处理事务请求的时候,就要向整个集群广播一个提议,这个提议的意思就是告诉follower你们要创建/修改/删除一个znode,然后follower接收到leader的提议之后,就会做相应的操作,操作完成告诉leader完成了,当leader接收到集群中的大多数follower的成功操作的回复之后,这里的大多数指的是超过集群机器数量的一半,当收到大多数follower的回复之后,leader就认为这次事务被成功处理了,然后再向集群通知所有的follower提交事务,最后会返回给客户端一个事务被成功处理的状态,如果有落后的follower,这些落后的follower也会从leader同步状态,保持与leader的状态一致。

集群注意事项

1、相关端口需要打开 或把 防火墙关闭

2、zookeeper/conf/zoo.cfg 需要配置,在配置里的datadir 目录下myid配置

3、集群服务器间需要免密登录

通过所属账户下的 .ssh/下 通过ssh-keygen -t rsa 命令生成id_rsa.pub 等文件,通过ssh-copy-id -i node节点 同步到相关节点上,查看.ssh/authorized_keys文件中是否有需要同步的节点。

你可能感兴趣的:(大数据应用实践一)