Hive操作的笔记:如何查Hive表某个分区的最后更新时间等

记录一些自己在工作的一些小功能的代码实现,不断补充记录。

一、如何查Hive表某个分区的最后更新时间。

通过查HDFS可以得知:

1:  进入Hive环境中,查询某个表的HDFS地址

desc formatted app.app_vdp_cate_health_cate1_coinuser_associndex;

2:  进入到地址中

dfs -ls hdfs://ns7/user/mart_vdp/app/vdp_user/app_vdp_cate_health_cate1_coinuser_associndex;

就可以看到某个分区(2020-02-29)的最后更新时间了:

二、Hive Runtime Error while processing writable 报错解决

一个一直很正常的任务忽然报了下面的错,搜了半天没找到合适的答案

2020-04-02 20:26:49 INFO Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing writable {11729, 鞋靴, 11730, 流行男鞋, 8.69440268939523E7, 7.483498622843546E7, 0.16180988700330248, second_0}

最后把hive引擎替换成spark引擎,就可以了。

三、查询HDFS文件的大小(查看占用的磁盘空间)

进入linux环境中,输入命令即可:

hadoop fs -du hdfs://ns7/user/mart_vdp/app/vdp_user/app_vdp_cate_health_cate1_ladong_post/dt=2019-08-31

四、合并小文件

在自己的开发环境下,合并小文件:

hadoop jar /software/servers/bdp_tools/mergefiles-1.7.jar MergeTask -p hdfs://ns15/user/mart_vdp/app/xx -u orc;

五、查看目前的任务

查看带有某个关键词vdp的任务

yarn application -list | grep vdp

看看有多少个任务

 yarn application -list | grep vdp | wc -l

查看带有多个关键词的任务

yarn application -list | grep vdp | grep anshuai7 | wc -l

 

你可能感兴趣的:(大数据)