hive数据模型

 

Hive 中所有的数据都存储在 HDFS 中, Hive 中包含以下数据模型: Table External Table Partition Bucket

  1. Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table Hive 中都有一个相应的目录存储数据。例如,一个表 pvs ,它在 HDFS 中的路径为: /wh/pvs ,其中, wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table )都保存在这个目录中。
  2. Partition 对应于数据库中的 Partition 列的密集索引,但是 Hive Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如: pvs 表中包含 ds city 两个 Partition ,则对应于 ds = 20090801, ctry = US HDFS 子目录为: /wh/pvs/ds=20090801/ctry=US ;对应于 ds = 20090801, ctry = CA HDFS 子目录为; /wh/pvs/ds=20090801/ctry=CA
  3. Buckets 对指定列计算 hash ,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。将 user 列分散至 32 bucket ,首先对 user 列的值计算 hash ,对应 hash 值为 0 HDFS 目录为: /wh/pvs/ds=20090801/ctry=US/part-00000 hash 值为 20 HDFS 目录为: /wh/pvs/ds=20090801/ctry=US/part-00020
  4. External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition 。它和 Table 在元数据的组织上是相同的,而实际数据的存储则有较大的差异。
  • Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数 据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。
  • External Table 只有一个过程,加载数据和创建表同时完成( CREATE EXTERNAL TABLE ……LOCATION ),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除 元信息。

你可能感兴趣的:(xml)