操作分布式文件之四:如何进行集群内文件复制和并行复制

阅读更多

集群文件复制是经常面临的需求,比如备份容灾,文件迁移,同步数据等等

FttpAdapter提供了简单高效的文件复制方法,支持远程文件的集群内复制
FttpAdapter fromfile = new FttpAdapter("fttp://10.232.20.151/home/log/a.log");
FttpAdapter tofile = fromfile.copyTo("fttp://10.232.20.154/home/log/a.log",FileAdapter.m(1));

上面代码代表将a.log文件复制到其他机器并得到相应的文件对象
这里的copyTo方法的第二个参数,表示复制时,每次以1M的速度传输
FileAdapter.m(1) 1M
FileAdapter.g(1) 1G
FileAdapter.k(1) 1k
数字1可以自由设置为其他数字,copyTo的默认值是每次以1M的速度,可以根据网络情况调整这个参数,达到最优化。

 

注意: 这里的复制方法名叫做copyTo而不是copy,它们之间存在区别,copyTo只是将前一文件内容复制到后一文件内容里,追加到末尾,但并不从头覆盖前一文件内容。通常在操作系统上覆盖文件,在用户不知情下需要给于警告框提示获得同意,因此copyTo避免在未经许可下覆盖旧文件。如果您需要这样做,可以参考下一节“如何读写远程文件”,设置读写位置为文件开始,从头覆盖文件内容。

 

FttpCopyDemo演示了集群中两台机器间的复制功能。

 

如果要进行并行复制,可以使用tryCopyTo,它的使用和copyTo一样,只不过是立即返回一个Result对象,需要检查Result的getStatus是否复制完成,状态显示就绪代表复制已完成,这时可以获取到复制后的文件对象。

 

FttpMulCopyDemo演示了将一台计算机上的a.log文件并行复制到4台计算机上,并通过结果状态检查复制是否完成

 

下面是内网环境下向4台机器复制1g文件的测试结果(均为4核4G内存配置)
内网(并行复制):完成耗时39秒,速度大约是105M/S
内网(串行复制):完成耗时60秒,速度大约是68M/S
由此可以观察到如果是内网并行复制的速度比串行要快很多
局域网的传输数据的极限是100M/S,传统的串行复制无法超越这个速度,但是并行的传送总量和花费时间算下来会超过100M/S
外网环境的话受网络带宽局限,速度大约是3.6M/S

 

邮箱:[email protected]
企鹅群:241116021
demo源码指南及开发包下载地址:
http://www.skycn.com/soft/68321.html

你可能感兴趣的:(云计算,hadoop,分布式文件系统,分布式存储,分布式计算)