Hadoop | 集群配置(一)使用Shell脚本解决完全分布式集群节点之间的文件传输问题 | scp命令 | rsync命令

文章目录

  • 参考资料
  • 一、前言
  • 二、rsync 远程同步工具
  • 三、使用 shell 编写分发脚本
  • 四、总结

参考资料


  • 视频链接
  • Linux scp命令

一、前言


在Hadoop完全分布式集群环境下,里面的各个节点都是通过 SSH免密登陆 连接的,比如现有三台集群节点,分别是 hadoop101、hadoop102、hadoo103。

hadoop101节点可以通过 ssh命令连接到hadoop102,即:

ssh hadoop102

那么,除了远程登陆以外,还有其他的作用吗?

当然有的,比如远程传输文件:scp命令参考资料

如果要将hadoop101节点的hadoop配置文件传输到hadoop102,那么可以尝试:

scp -r /opt/module/hadoop/etc/hadoop/*.xml root@hadoop102:/opt/module/hadoop/etc/hadoop

但是如果每次都这样使用scp命令去传输,会比较浪费时间,因为这两个集群节点的hadoop目录都是相同的,只是配置文件的内容不同,接下来将根据参考的资料进行描述,如何使用一些命令来简化集群之间的文件传输。

二、rsync 远程同步工具


rsync 主要用于 备份镜像。它具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp的区别: 用 rsync 做文件复制要比scp的速度快,rsync只对差异文件做更新,scp是复制所有的文件。

基本语法

rsync -av $pdir/$fname $user@host:$pdir/$fname
# 命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机名:目的地路径/名称

选项参数的说明:
-a ——归档拷贝 -v —— 显示复制过程

三、使用 shell 编写分发脚本


需求:循环复制文件到所有节点的相同目录下
需求分析:

  • 由于rsync命令速度比scp命令快,所以脚本使用rsync命令实现
  • 在文件复制时候,后者的路径少一级,比如在前言部分中,复制hadoop的配置文件,前者需指定/*.xml参数,后者则不需要指定这个/*.xml
  • 脚本在任何路径都能使用,故shell脚本需方在声明了全局环境变量的路径比如:~/bin

具体实现:

cd ~/bin
sudo vim xsync

脚本内容:(参考视频资料)

 
 

你可能感兴趣的:(#,大数据原理与应用,hadoop,分布式,linux)