hdfs命令行和客户端的区别(一个大坑)

一直都没有发现,原理hdfs的命令行和客户端api的使用还是有很大差别的


现象:

将dfs.block.size设置成128M

hdfs命令行和客户端的区别(一个大坑)_第1张图片


现有28G的数据,理论上讲map的总数应该是224个,但是map数量却翻倍成448个

hdfs命令行和客户端的区别(一个大坑)_第2张图片


一直都找不出原因,使用hdfs命令行查看需要进行mapreduce的文件的block大小



然后通过hdfs fs -put 命令放进去的文件block大小就是128M



最后猜测应该是客户端API没有读到在构造Configuration对象时没有读到服务器上的*-site.xml导致的,将服务器上的*-site.xml放到客户端的根目录下实验了一下,果然OK了

你可能感兴趣的:(hadoop,hdfs,dfs.block.size)