我使用的是hive。
所有的数据也是在hive中 load data inpath 导入的
导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse
以一个表一个文件夹的形式
两天来一直面对着一个困惑
从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T
这个数据时很不正常的
因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。
通过查看 browse the file system 看到三个文件夹
/data 对应于 dfs.data.dir
/system
/user 对应于 hive.metastore.warehouse.dir
问题已经解决,空间容量已经下降到正常值了,可以正常使用运算了。
原因是:
运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中,那么这部分数据就放到了/data目录下,系统没能够自动删除这部分数据,所以导致空间上涨很快。
例如;
create table test( ip string );
insert overwrite table test select ip from blog;
这样结果是保存到hive中的;
但如果直接
select ip from blog;
那么结果是临时放在/data目录下的,但是最终却没有释放。
这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除,路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了,所以无法自动删除。
不可以直接删除这个目录,否则会导致全部数据块丢失。
必须进入hdfs删除
方法如下
hadoop fs -rmr hdfs:////data/
hive中的操作并不是 实时执行的,会有一定的延迟,所以有时执行操作,并不会立即看的到。