【大数据】关于hive中删除操作及HDFS回收站管理腾出空间的实操

一、删除

删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。

查询内、外部表有两个方法:
方法一:
hive shell中执行

describe extended tablename; 

查看表的详细信息,外部表 tableType 字段会显示 EXTERNAL_TABLE,内部表 tableType字段会显示MANAGD_TABLE。

方法二:
在hive shell中执行

desc formatted tablename; 

可以查看表的格式和详细信息,这里可以得到Table Type ,也可以根据Table Type知道表是内部表还是外部表。MANAGED_TABLE内部表,EXTERNAL_TABLE是外部表。

同时可以查看表的location ,直接指定的是hdfs的路径,则是外部表,如果指定的是Hive表数据存放的路径,则是内部表,hive表数据存放的路径在Hive的${HIVE_HOME}/conf/hive-site.xml配置文件中,hive.metastore.warehouse.dir属性指定的路径。

二、Hadoop回收站

Hadoop回收站trash,默认是关闭的。 可以对如下配置进行修改,回收站保留时间可以根据你的hadoop集群的存储空间、删除数据的频率、每天回收站回收的占用来决定。

**1.修改conf/core-site.xml,增加 **

  
      fs.trash.interval  
      1440  
      Number of minutes between trash checkpoints.  
      If zero, the trash feature is disabled.  
        
      

默认单位是分钟。这里我设置的是1小时(60*24=1440)
在hdfs的shell中删除数据后、hive删除表后都会将数据移动到该用户目录下的.Trash目录。

如果要手动清空垃圾回收站有两种方式

1、清空回收站命令:

hdfs dfs -expunge

执行完之后会打一个checkpoint,并不会立即执行,稍后会执行清空回收站操作

2、删除.Trash目录(清理垃圾)

hadoop fs -rmr -skipTrash /user/$USER/.Trash

注意:需要添加参数: -skipTrash 才会完全删除,如果不添加,会放到另外一个.Trash

恢复回收站数据,就是将HDFS中垃圾回收站的数据移回对应表的目录中

例如:

hadoop dfs -mv /user/$USER/.Trash/Current/user/$USER/in /user/hive/warehouse

你可能感兴趣的:(大数据工程师成神之路,hive,hdfs,big,data,回收站,删除)