Hive学习小技能总结

1、查看到hive执行的历史命令:

进入到用户的主目录,使用命令

cat /home/hadoop/.hivehistory

2、执行查询时若想显示表头信息时,可以执行命令

Hive> set hive.cli.print.header=true;
3、hive的执行日志的存储目录在${java.io.tmpdir}/${user.name}/hive.log中,假如使用hadoop用户操作的hive,那么日志文件的存储路径为:/tmp/hadoop/hive.log

4、注意:在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。

外部表和内部表的选择:

    1、如果数据已经存储在HDFS上了,然后需要使用Hive去进行分析,并且该分数据还有可能要使用其他的计算引擎做计算之用,请使用外部表

    2、如果一份数据仅仅只是使用Hive做统计分析,那么可以使用内部表

不管使用内部表和外部表,表的数据存储路径都是可以通过location指定的!

    推荐方式:

        1、创建内部表的时候,最好别指定location,就存储在默认的仓库路径

        2、如果要指定外部路径,那么请创建该表为外部表

5、分桶:

对于每一个表(table)或者分区,Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值hash,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

    把表(或者分区)组织成桶(Bucket)有两个理由:

    1、获得更高的查询处理效率。桶为表加上了额外的结构,Hive在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用Map端连接(Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大减少JOIN的数据量。

    2、使取样(samping)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。










你可能感兴趣的:(大数据,R_记忆犹新的大数据学习之路)