Hive 之内/外表 与 分区表/桶表区别

内表:删表删数据   (hdfs上的文件数据)
外表:删表不删数据(hdfs上的文件数据)

  • 内表
    创建表时没加external,默认是内表

    • 所有的 Table 数据(不包括 External Table)都保存在warehouse这个目录中。

    • 删除表时,元数据与数据都会被删除

    • 创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除

  • 外表
    包含External 的表叫外部表

    • 删除外部表只删除metastore的元数据,不删除hdfs中的表数据

    • 外部表 只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接。当删除一个 外部表 时,仅删除该链接

    • 指向已经在 HDFS 中存在的数据,可以创建 Partition

    • 它和 内部表 在元数据的组织上是相同的,而实际数据的存储则有较大的差异

  • 分区表
    加入分区避免Hive Select查询中扫描整个表内容,会消耗很多时间做没必要的工作。(例如每一天的日志存放在一个分区中,这样根据特定的日期查询)

    一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。

  • 桶表
    对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。Hive也是 针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

    桶是以文件的形式存放在表或者分区的目录下。

    把表(或者分区)组织成桶(Bucket)有两个理由:
    (1)获得更高的查询处理效率。桶为表加上了额外的结构,Hive 在处理有些查询时能利用这个结构。具体而言,连接两个在(包含连接列的)相同列上划分了桶的表,可以使用 Map 端连接 (Map-side join)高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。
    (2)使取样(sampling)更高效。在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便。

你可能感兴趣的:(Hive)