Hive内部表和外部表的区别

主要体现在load与drop(是否同时删除元数据与数据)的操作上:

  1. 创建表:

Hive创建内部表时,会将数据移动到数据仓库指向的路径,hive管理数据的生命周期;

Hive创建外部表时,仅记录数据所在的路径,不对数据的位置做任何改变。

  1. 删除表:

Hive删除内部表时,内部表的元数据和数据一起被删除,同时对于一些hive操作不适应于外部表,比如单个查询语句创建表并向表中插入数据。

Hive删除外部表时,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。创建外部表时,甚至不需要知道外部数据是否存在,可以把创建数据推迟到创建表之后才进行。

选择:内部表与外部表没有太大区别。如果所有的数据都由hive处理,则创建内部表;如果数据的处理由hive和其他工具一起处理,则创建外部表。

但是,管理表不方便和其他工作共享数据。例如,假设我们有一份由pig或者其他工具创建并且主要由这一工具使用的数据,同时我们还想使用hive在这份数据上执行一些查询,可是并没有给予Hive对数据的所有权,我们可以创建一个外部表指向这份数据,而并不需要对其具有所有权。

你可能感兴趣的:(大数据,数据仓库,大数据,hive,hadoop,内部表)