神是念着倒

[Hive] 04 - HQL：数据定义（DDL）上-【数据库和表】

环境

宿主机：Windows 10 64_bit
虚拟机：VMware pro 12
- CentOS 7.5 64_bit（1个master、2个slave）
- Hadoop-2.6.5
- MariaDB-5.5.60
- Hive 1.2.2
SecureCRT 7.3

预热

0、关键字、和它们的大小写

1、数据库：创建、使用、修改、删除

----1.0 创建数据库

----1.1 使用数据库

----1.2 修改数据库

2、表的创建、删除、截断，修改表、分区、列

----2.0 创建表

----|----2.0.0 托管表、外部表

----|----2.0.1 对表的存储管理

----|----|------2.0.1.0 文件格式

----|----|------2.0.1.1 行格式和SerDe

----|----2.0.2 分区表

----|----2.0.3 create table as select (CTAS)方式建表

----|----2.0.4 create table like方式创建表

----|----2.0.5 排序的分桶表

----|----2.0.6 倾斜表

----|----2.0.7 临时表

----|----2.0.8 事务性表

----|----2.0.9 约束

----2.1 删除表

----2.2 截断表

----2.3 修改：表、分区、列

----|----2.3.0 alter table修改表的名称、属性、注释、SerDe属性、存储属性、倾斜、存储为目录、约束等

----|----2.3.1 修改分区

----|----2.3.2 修改表或分区

----|----2.3.3 修改列

正文

预热
认识几个有可能常见的缩写词：基于SQL语言的4大分类

DDL（Data Definition Language，数据定义语言），用于创建数据库中的各种对象，如：数据库、表、视图等
DML（Data Manipulation Language，数据操作语言），主要有三种形式：但Hive不支持下方某个操作
1、插入：INSERT
2、更新：UPDATE
3、删除：DELETE
DQL（Data QueryLanguage，数据查询语言），主要是由SELECT子句，FROM子句，WHERE子句组成的查询块：
SELECT <字段名表>
FROM <表或视图名>
WHERE <查询条件>
DCL（Data Control Language，数据控制语言），用于授予或回收访问数据库的某种特权，并控制数据库操纵事务发生的时间及效果，对数据库实行监视等

本文聚焦于HQL DDL。

名词	描述	对应HDFS目录
Database	Hive可包含多个数据库，默认数据库是`default`。存储位置通过`hive-site.xml`的`hive.metastore.warehouse.dir`进行设置	`/user/hive/warehouse`
Table	Hive中表分为：内部表、外部表，每个表对应HDFS上一个目录	`/user/hive/warehouse/[database_name.db]/tables`
Partition	分区，使用某个字段对表进行分区，方便查询、提高效率，每个分区对应HDFS上一个分区目录	`/user/hive/warehouse/[database_name.db]/table/partitions`
Bucket	桶，分区下还可以进行分桶，对表的数据进行更细致的区分，在HDFS上有对应的分桶目录	`/user/hive/warehouse/[database_name.db]/table/partitions/buckets`

上述对应HDFS目录是由hive-site.xml中属性hive.metastore.warehouse.dir配置的。

0、关键字、和它们的大小写

不同的语言，对于如下概念可能会有差异：

	描述
关键字（Keyword）	规定有特殊意义的词。即：在语言中有特定含义，成为语法中一部分的那些字
保留字（Reserved Keyword）	系统留用(可能永远也不会用, 但是你不能用)。也就是说：语言中已经定义过的字，使用者不能再将这些字作为变量名或函数名等使用

在一些语言中，一些保留字可能并没有应用于当前的语法中，这就成了保留字与关键字的区别。

在HQL DDL中，不同的Hive版本，拥有的关键字、保留字、非保留字有略微不同，具体可参考。

如果程序开发者仍想使用保留字作为标识符，需要做以下操作：

将保留字使用引号包围，便表示允许将其作为标识符使用；
设置hive.support.sql11.reserved.keywords=false。默认为true。（Hive-2.1.0及更早版本支持）

在使用关键字、或标识符、甚至表名和列名的过程中，除了Serde、属性名称、Hive0.12.0 及更早版本的索引名外，是不区分大小写的。

在Hive尽量不要Tab键来进行缩进，因为Tab键一般用来关键字补全功能的。所以，用空格缩进（indent）。

1、数据库：创建、使用、修改、删除

在Hive中，数据库的概念本质上仅仅是表的一个目录、或命名空间，它将生产表组织成逻辑组。这个概念对于有很多组、用户的大集群，是很重要的，可以避免表命名冲突。

1.0 创建数据库

语法：

create (database|schema) [if not exists] database_name
[comment database_comment]
[location hdfs_path]
[with dbproperties (property_name=property_value, ...)];

database、schema两者含义相同，用途是一样的，用哪个都行；
if not exists创建数据库时，如果有同名数据库已存在，没有这个子句将抛出错误信息；有这个子句，将不会抛出警告信息，这对于在继续执行之前需要根据需要来实时创建数据库的情况很有用；
comment为database添加描述信息；
location当不写它时，默认是会将数据库存储在由/conf/hive-site.xml中属性hive.metastore.warehouse.dir指定的目录下（HDFS，/user/hive/warehouse）；
with dbproperties为数据库添加一些相关的键值对属性信息，如创建时间、作者等信息。【Hive 0.7起引入】

hive> create schema foo1_db
    > comment "This is my first db foo1_db."
    > with dbproperties ("author"="cyg","date"="2019-06-13");
OK
Time taken: 3.52 seconds
hive> describe schema foo1_db;
OK
foo1_db This is my first db foo1_db.    hdfs://master:9000/user/hive/warehouse/foo1_db.db   root    USER
Time taken: 0.683 seconds, Fetched: 1 row(s)
hive> describe schema extended foo1_db --加上extended会显示dbproperties信息
    > ;
OK
foo1_db This is my first db foo1_db.    hdfs://master:9000/user/hive/warehouse/foo1_db.db       root    USER    {date=2019-06-13, author=cyg}
Time taken: 0.072 seconds, Fetched: 1 row(s)
hive> create schema foo1_db;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Database foo1_db already exists
hive> create schema if not exists foo1_db--不会报错，同时也不会创建一个新的同名的数据库来覆盖旧的;
OK
Time taken: 0.054 seconds

查看数据库存储位置：

[root@master src]# hadoop fs -ls /user/hive/warehouse
drwxr-xr-x   - root supergroup          0 2019-06-13 16:23 /user/hive/warehouse/foo1_db.db

Hive会为每个数据库创建一个目录，目录名以.db结尾。数据库中的表将会以这个目录的子目录形式存储。有个例外，default数据库中的表，这个数据库本身没有自己的目录，所以它的表是直接放在HDFS/user/hive/warehouse下面的。

hive> create schema foo2--通过location修改为非默认的存储位置。需要加上数据库名foo2.db，否则创建不成功。当然这个存储位置还是在HDFS，而不是本地文件系统下。
    > location '/usr/local/src/foo2.db';
OK
Time taken: 0.284 seconds

1.1 使用数据库

语法：

use database_name;
use default;

如果用户没有显示地指定哪个数据库，那么将会使用默认的数据库default。
显示当前所在的数据库名称：

hive> set hive.cli.print.current.db=true;
hive (default)> set hive.cli.print.current.db=false;
hive>

1.2 修改数据库

语法：

alter (database|schema) database_name set dbproperties (property_name=property_value, ...);
alter (database|schema) database_name set owner [user|role] user_or_role;
alter (database|schema) database_name set location hafs_path;

alter database ...set location语句，并不会将数据库的当前目录中的内容移动到新的指定位置。并不改变指定的数据库下的所有表或分区相关联的位置。它只是修改了即将添加到这个数据库中的新表的默认父目录；
alter database ... set owner [user|role] user_or_role;修改数据库的用户或权限；
- 数据库中其他元数据是不可用修改的，包括数据库名和数据库所在的目录位置。

1.3 删除数据库

语法：

drop (database|schema) [if exists] database_name [restrict|cascade];

默认是restrict【限制】，若数据库不为空，将删除失败；
删除包含表的数据库，需加上cascade【级联】。

2、表的创建、删除、截断，修改表、分区、列

Hive的create table语句在遵循SQL语法惯例基础上，具有显著的功能扩展、更广泛的灵活性。例如：可以定义表的数据文件存储在什么位置、使用哪个存储格式，等。

2.0 创建表

语法：

create [temporary] [external] table [if not exists] [db_name.]table_name --temporay是Hive-0.14.0起引入的
[(col_name data_type [comment col_comment], ... [constraint_specification])]
[comment table_comment]
[partitioned by (col_name data_type [comment col_comment], ...)]
[clustered by (col_name, col_name, ...) [sorted by (col_name [asc|desc], ...)] into num_buckets buckets]
[skewed by (col_name, col_name, ...)]  --Hive-0.10.0起引入的
on ((col_value, col_value, ...), (col_value, col_value, ...), ...)
[stored as directories]
[
  [row format row_format]
  [stored as file_format]
  | stored by 'storage.handler.class.name' [with serdepropertied(...)]
] 
[location hdfs_path]
[tblproperties (property_name=property_value, ...)]
[as select_statement]; --这一行不支持外部表

create [temporary] [external] table [if not exists]
[db_name.]table_name
like existing_table_or_view_name
[location hdfs_path];


data_type
  : primitive_type
  | array_type
  | map_type
  | struct_type
  | union_type   --Hive-0.7.0起引入的
 
primitive_type
  : TINYINT
  | SMALLINT
  | INT
  | BIGINT
  | BOOLEAN
  | FLOAT
  | DOUBLE
  | DOUBLE PRECISION  --Hive-2.2.0起引入的
  | STRING
  | BINARY       --Hive-0.8.0起引入的
  | TIMESTAMP   --Hive-0.8.0起引入的
  | DECIMAL     --Hive-0.11.0起引入的
  | DECIMAL(precision, scale)  --Hive-0.13.0起引入的
  | DATE        --Hive-0.12.0起引入的
  | VARCHAR     --Hive-0.12.0起引入的
  | CHAR        --Hive-0.13.0起引入的
 
array_type
  : ARRAY < data_type >
 
map_type
  : MAP < primitive_type, data_type >
 
struct_type
  : STRUCT < col_name : data_type [COMMENT col_comment], ...>
 
union_type
   : UNIONTYPE < data_type, data_type, ... >  -- (Note: Available in Hive 0.7.0 and later)
 
row_format
  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]
        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
        [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)
  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
 
file_format:
  : SEQUENCEFILE
  | TEXTFILE    -- 默认的，依赖hive.default.fileformat配置
  | RCFILE      --Hive-0.6.0起引入的
  | ORC         --Hive-0.11.0起引入的
  | PARQUET     --Hive-0.13.0起引入的
  | AVRO       --Hive-0.14.0起引入的
  | JSONFILE    --Hive-4.0.0起引入的
  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname
 
constraint_specification: --约束和规范
  : [, primary key (col_name, ...) disable novalidate]
    [, constraint constraint_name foreign key (col_name, ...) references table_name(col_name, ...) disable novalidate

create table根据给定的名称创建表。若已存在一个具有相同名称的表、或视图，则会报错（使用if not exists跳过错误）。

表名（table_name）、列名（col_name）不区分大小写。但SERDE、属性名称区分大小写。
表、列的注释（comment），使用单引号包围的字符串。
创建表时，有 or 无external关键字：
- 1 没有external，则认为创建的是托管表（managed table。由Hive管理其数据，这也是托管之意由来），这是默认方式。
- 2 加上external关键字则表明是创建外部表。
- 3 describe extended table_name可查看它是托管表、还是外部表。
- 4 托管表与外部表的区别参考下方。
tblproperties允许使用键值对定义表的元数据。一些预定义的表的属性，如 last_modified_user、last_modified_time，是由Hive自动添加和管理的。其他预定义的表属性可参考。
temporary创建临时表。

2.0.0 托管表、外部表

托管表，也称【内部表】。

对比项	托管表（managed table）	外部表（external table）
语法	`create table tbl_name`，这是缺省情况下的语法	`create external table tbl_name`，加上`external`关键字。
存储位置	缺省情况下，表（元数据、数据，由Hive进程内部管理）存储在`hive.metastore.warehouse.dir`属性指定HDFS目录下，文件路径形如`/user/hive/warehouse/db_name.db/tbl_name/`。可通过在创建表时`location`选项修改存储位置	元数据存放在HDFS目录下，数据（源）在外部，如Azure或远程HDFS。可由Hive之外的进程访问或处理
加载（`load`）数据时的表现？	Hive会把数据移动到仓库目录（`/user/hive/warehouse/db_name.db/managed_tbl_name/`）。Hive不会去检查表目录中的文件是否符合表所声明的schema。若有数据、schema不匹配，只能在查询时发现	不会把数据移动到自己的仓库目录，因为有`external`关键字，Hive就知道数据并不是由自己管理。甚至不会检查外部文件位置是否存在，这是很有用的特性，允许数据推迟到创建表之后进行
删除表（`drop`）时的影响、表现？	托管表/分区被删除时，与该表/分区相关联的元数据、数据，都将被删掉。`drop`时指定`purge`选项，数据会被移动到垃圾文件夹，并保留事先定义的一段时间	删除该表，仅仅是删除表的元数据。因为外部表的文件（数据）存在外部，它不受影响。`/user/hive/warehouse/db_name.db/tbl_name/`下也还有数据（不由Hive管理）。
备注	如果所有处理都需要由Hive完成，应该创建托管表。	当外部表的结构或分区被改变时，可用`msck repair table tbl_name`语句刷新元数据信息。外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

实例：创建一个外部表page_view

create external table page_view(viewTime int, userid bigint,
  page_url string, referrer_url string,
  ip string comment 'IP Address of user',
  country string comment 'country of origination')
comment 'This is the staging page view table'
row format delimited fields terminated by '\054'
stored as textfile
location '';

外部表可以存储于其指定的任何HDFS位置，无需存储在hive.metastore.warehouse.dir属性指定的目录下。但是，必须确保数据按照create语句中指定的分隔符（'\54'，应该是代表6）进行分割。

特别注意：使用分隔符时，尽量使用它的ascii码值，避免报错。

2.0.1 对表的存储管理

Hive 从两个维度对表的存储进行管理：

文件格式（file format）
行格式（row format）和SerDe

2.0.1.0 文件格式

Hive支持内置（bulit-in）、自定义的文件格式。更多关于压缩的表存储格式可参考

内置的存储格式有：详细说明参考

stored as textfile，保存为纯文本文件，这是默认的文件格式，也可由hive.default.fileformat进行其他配置。
其他有：sequencefile、orc、parquet、avro、rcfile、jsonfile（Hive-4.0.0起）、等等。

在create table语句中加上stored as file_format子句完成表存储格式的声明。实例：

hive (foo1_db)> create table raw_sequence (line string)
              > stored as sequencefile;

2.0.1.1 行格式和SerDe

SerDe：序列化、反序列化

创建表时，可以使用自定义SerDe 或本地SerDe。如果没有指定row format 或指定了row format delimited时，那么用的是本地SerDe。

使用serde子句创建自定义SerDe的表。关于SerDe的更多资料可参考：

Hive SerDe
SerDe
HCatalog Storage Formats

指定了row format子句的实例：

row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe'
with serdeproperties
(
"input.regex" = ""
)
stored as textfile

2.0.2 分区表

使用partitioned by子句可创建分区表。一个表可以有一个、或多个分区列，分区列的每个不同值被创建为一个单独的数据目录。

还可结合如下子句提高某些类型查询的性能：

clustered by，以列对表或分区表进行存储
sorted by，以列对数据进行排序

实例：例中page_view表中暂无数据，所以在仓库目录中没有对应的分区表目录。表中具有viewTime、userid等列，并对表进行分区，并将【表数据】存储在序列文件中

create table page_view(viewTime int, userid bigint,
  page_url string, referrer_url string, 
  ip string comment 'IP Address of the User')
comment 'This is the page view table'
partitioned by(dt string, country string)
row format delimited fields terminated by '\001'
stored as sequencefile;

2.0.3 `create table as select` (CTAS)方式建表

CTAS，create table as select的简写。

表也可以通过一个CTAS语句中的查询结果来创建和填充。CTAS创建的表，是原子的。这意味着在填充结果之前，其他用户不会看到该表。因此，其他用户要么会看到具有完整查询结果的表，要么根本不会看到该表。

CTAS语句有两部分：

create部分，取得从select部分产生的模式（schema），并使用表的其他属性（SerDe、存储格式等）创建目标表
select部分，可以是HQL支持的任意select语句

Hive-3.2.0起，CTAS语句可以为目标表定义一个分区规范。

CTAS有两个限制：

目标表不能是一个外部表；
目标表不能是一个桶表。

实例：

create table new_key_value_store
  row format serde "org.apache.hadoop.serde2.columnar.ColumnarSerDe'
  stored as rcfile
as
select (key % 1024) new_key, concat(key, value) key_value_pair
from key_value_store
sort by new_key, key_value_pair;

上方CTAS语句使用从select语句的查询结果派生的schema（new_key Double，key_value_pair String）来创建目标表new_key_value_store。

若select语句没有指定列别名，列名将自动分配为_col0、_col1、_col2等。
另外，新的目标表是用指定的Serde和存储格式创建的，而独立于select语句中的源表。

能够从一个表选择数据到另一个表中是Hive最强大的特性之一。在执行查询时，Hive处理从源格式到目标格式的数据转换。

2.0.4 `create table like`方式创建表

create table like语句可以准确地复制一个现有表的表定义（但不会复制它的数据）。
实例：与CTAS语句创建表不同，下方语句创建了一个名称为empty_key_value_store的新表，除表名之外，所有的细节上都与现表key_value_store的定义完全相同。新表不包含任何行（数据）。

create table empty_key_value_store
like key_value_store [tblproperties (property_name=property_value, ...)];

2.0.5 排序的分桶表

实例：

create table page_view(viewTime int, userid bigint,
  page_url string, referrer_url string,
  ip string comment 'IP Address of the User.'
comment 'This is the page view table'
partitioned by (dt string, country string)
clustered by (userid) sorted by (viewTime) into 32 buckets
row format delimited
  fields terminated by '\001'
  collection items terminated by '\002'
  map keys terminated by '\003'
stored as sequencefile;

page_view表按userid进行分桶（clustered by），并且每个桶中，数据按照viewTime升序排序。这样组织方便用户对集群列做有效的抽样（如userid）。
排序属性（viewTime）允许内部操作符在评估查询时利用已知的数据结构，以提高效率。
map keys、collection by关键字可以使用任何列的列表或映射。
clustered by、sorted by不会影响数据插入表的方式。只会影响数据的读取方式。所以，必须小心正确地插入数据，方法是指定reducers的数量、存储桶的数量等等，并在查询中使用clustered by、sorted by命令，以便在可能的情况下，跳过或包含整个文件。

2.0.6 倾斜表

通常用在一个或多个列具有倾斜值的表中以提高性能。通过指定经常出现严重倾斜的那个值，Hive将自动把这些文件拆分为单独的文件（或桶所在目录下），并在查询时也考虑到倾斜问题。

可以在创建表过程中，在每个表级别上指定这一点。

实例1：一个列有倾斜值

create table list_bucket_single (key string, value string)
skewed by (key) on (1,5,6)
[stored as directories];

展示了一个有3个倾斜值的列；
stored as directories子句指定了以桶方式进行存储。

实例2：两个列有倾斜值

create table list_bucket_multiple (col1 string, col2 int, col3 string)
skewed by (col1, col2) on (('s1', 1), ('s3', 3), ('s13', 13), ('s78', 78))
[stored as directories];

2.0.7 临时表

临时表只对当前会话可见。数据将被存储在用户的临时目录（Hive-1.1.0起，设置hive.exec.temporary.table.storage，临时表的存储策略可设置为memory、ssd或default（参考HDFS Storage Types and Storage Policies）），并在会话结束时删除。

假如创建的一个临时表，它的名称跟一个已经存在的数据库中的永久表的名称相同，那么在当前会话中，这个临时表的任何引用都将解析到临时表，而不是永久表。这样的话，在不删除临时表、或将其重命名为不冲突的名称的情况下，将无法访问当前会话中的原始表。

临时表有以下限制：

不支持分区列
不支持创建索引

实例：

create temporary table list_bucket_multiple (col1 string, col2 int, col3 string);

2.0.8 事务性表

ACID，指数据库事务正确执行的四个基本要素的缩写。包含：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）。一个支持事务（Transaction）的数据库，必须要具有这四种特性，否则在事务过程（Transaction processing）当中无法保证数据的正确性，交易过程极可能达不到交易方的要求。

Hive-4.0才支持。支持与ACID语义操作的表。参考Hive Transactions

实例：

create transactional table transactional_table_test(key string, value string)
partitioned by (ds string)
stored as orc;

2.0.9 约束

Hive-2.1.0起引入。Hive支持对未经验证的主键和外键约束的支持。一些SQL工具在存在约束时，会生成更高效的查询。由于这些约束没有被验证，上游系统需要在加载到Hive之前确保数据的完整性。

实例：

create table pk(id1 integer, id2 integer,
  primary key (id1, id2) disable novalidate);
 
create table fk(id1 integer, id2 integer,
  constraint c1 foreign key (id1, id2) reference pk (id1, id2) disable novalidate);

2.1 删除表

语法：

drop table [if exists] tbl_name [purge];

drop table语句会删除【托管表】的元数据、数据。如果配置了回收站（且未指定purge），数据实际上会移动到.Trash/Current目录。元数据将全丢失了。
删除外部表时，将不会从文件系统中删除表的数据。
删除视图引用的表时，不会发出任何警告信息（视图将无效，必须由用户删除或重新创建）。
purge选项于Hive-0.14.0以引入。若指定了它，表中的数据不会转到.Trash/Current目录，因此，误操作drop下，将无法进行数据恢复。
删除分区可参考Drop Partitions

2.2 截断表

语法：

truncate table tbl_name [parition partition_spec];

partition_spec:
  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

删除表或分区（一个或多个分区）的所有行。当只需删除数据并保留表结构时，可使用truncate语句。

若想对某个现有的文件做尾部的截取（比如为了保留头部关键信息），但同时又不想重新写一个新的文件出来，这个时候我们其实可以采用系统提供的truncate命令。

如果启用了文件系统的垃圾回收，数据将被回收，否则它们会被直接删除（Hive2.2.0起）。目前，目标表应该是本地的或托管表，否则将引发异常。对于分区表，用户可以指定partition_spec一次截断多个分区，或者省略partition_spec截断表中的所有分区。

HIVE 2.3.0起，如果表属性auto.purge设置为true，则当对表发出truncate table命令时，该表的数据不移动到回收站，并且如果误操作发出的truncate table命令也无法恢复数据。这仅适用于托管表（见托管表）。如果托管表的auto.purge属性未设置或设置为false，则可以关闭此行为模式。

2.3 修改：表、分区、列

alter table语句，用于修改现有表的结构：添加列和分区、修改SerDe、添加表和SerDe属性、重命名表本身、修改表中特定分区的属性。

2.3.0 `alter table`修改表的名称、属性、注释、SerDe属性、存储属性、倾斜、存储为目录、约束等

2.3.0.0 重命名

语法：

alter table tbl_name rename to new_tbl_name;

可将表的名称修改为不同的名称。

Hive-0.6以下版本，只是重命名了metastore中的表，而没有移动HDFS位置；
Hive-0.6起，对托管表重命名会移动其HDFS位置；
Hive-2.2.0起，只有当没有用location子句创建的托管表、并且在它的数据库目录下时，重命名表才会移动其HDFS位置。

2.3.0.1 修改表的属性

语法：

alter table tbl_name set tblproperties tbl_properties;

tbl_properties:
  : (property_name=property_value, property_name=property_value, ...)

可以用这个语句向表中添加自己的元数据；
现在，last_modified_user、last_modified_time属性是由Hive自动添加和管理的；
使用describe extended table可查看这些信息。

2.3.0.2 修改表的注释

语法：

alter table tbl_name set tblproperties ('comment'=new_comment);

2.3.0.4 添加SerDe属性

语法：

alter table tbl_name
[partition partition_spec]
set serde serde_class_name
[with serdeproperties serde_properties];

serde_properties:
  : (property_name = property_value, property_name = property_value, ...)

可改变一个表的SerDe，或添加用户定义的元数据到表的SerDe对象；
当Hive初始化该表以序列化和反序列化数据时，SerDe属性将传递给该表的SerDe。因此，用户可以在此存储自定义SerDe所需的任何信息；
properties_name和properties_value都必要加引号。

实例：

alter table tbl_name set serdeproperties ('field.delim' = ',');

2.3.0.5 修改表的存储属性

语法：

alter table tbl_name clustered by (col_name, col_name, ...)
[serde by (col_name, ...)]
into num_buckets buckets;

更改表的物理存储性能；
只会修改Hive的元数据，不会重新组织或格式化现有的数据；
用户应该确保实际数据布局符合元数据定义。

2.3.0.6 修改表的倾斜或存储为目录

倾斜

alter talbe tbl_name skewed by (col_name1, col_name2, ...)
on  ([(col_name1_value, col_name2_value, ...) [, (col_name1_value, col_name2_value), ...])
[stored as directories];

stored as directories选项用于确定是否倾斜表使用列表桶功能，该功能为倾斜值创建子目录。

不倾斜

alter table tbl_name not skewed;

not skewed选项使表不倾斜，并关闭列表桶存储功能(因为列表桶存储表总是倾斜的)。这会影响alter语句之后创建的分区，但对alter语句之前创建的分区没有影响。

不存储为目录

alter table tbl_name not stored as directories;

这将关闭列表桶存储功能，尽管表仍然是倾斜的。

设置倾斜表存储位置

alter table tbl_name set skewed location (col_name1="location1" [, col_name2="location2", ...] );

这将更改列表桶存储位置的映射。

2.3.0.7 修改表的约束

Hive-2.1.0起引入。表约束可通过alter table语句进行添加、删除。

alter table tbl_name add constraint constraint_name primary key (column, ...) disable novalidate;

alter table tbl_name add constraint constraint_name foreign key (column, ...) references tbl_name ((column, ...)) disable novalidate rely;

alter table tbl_name drop constraint constraint_name;

2.3.1 修改分区

分区可以通过在alter table语句中使用partition子句来进行修改：
添加、重命名、交换（移动）、删除、存档（或调档）

Hive1.2起，如果属性hive.typecheck.on.insert设置为true(默认)，分区规范中指定的分区值将被检查、转换和标准化，以符合其列类型。这些值可以是数字字符串。

2.3.1.0 添加分区

alter table tbl_name add [if not exists]
partion partition_spec
[location 'location'] [,partition partition_spec [location 'locaiton'], ...];
 
partition_spec:
  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

只有分区值（location）是字符串时，才需要其被引号包围；
location必须是一个存放内部数据的目录；
add partition更改表的元数据，但不会加载数据；
如果分区的位置不存在数据，查询将不会返回任何结果；
如果表中的已经存在partition_spec的分区，则会引发错误。可以使用if not exists跳过错误。

2.3.1.1 动态分区

使用Hive insert语句（或一个Pig store语句）可以动态地向一个表添加分区。
更多参考。

2.3.1.2 重命名分区

语法：

alter table tbl_name partition partition_spec
rename to partition partition partition_spec;

2.3.1.3 表之间移动分区

Hive-0.12引入。在Hive-1.2.2、1.3.0和2.0.0中支持多个分区。将分区中的数据从一个表移动到另一个具有相同架构且还没有该分区的表。
语法：

-- 从tbl_name1移动1个分区到tbl_name2
alter table tbl_name2 exchange partition (partition_spec) with table tbl_name1;

-- 移动多个分区
alter table tbl_name2 exchange partition (partition_spec1, partition_spec2, ...) with table tbl_name1;

2.3.1.4 恢复分区（msck repair table）

msck，metastore check简写

Hive在它的metastore存储了每个表的分区列表。然而，如果新的分区被直接加入到HDFS（比如：通过使用hadoop fs -put命令），或从HDFS移除，metastore（和Hive）将不知道这些变化，除非用户在分区表上每次新添或删除分区时分别运行alter table tbl_name add/drop partition语句。

不过，用户可以运行一个有repair选项的检查metastore的命令：

msck [repair] tbl_name [add/drop/sync partitions];

它将更新Hive Metastore中关于分区的元数据，用于那些尚未存在此类元数据的分区；
msck命令的默认选项是add partitions。使用此选项，它将向Metastore添加任何存在于HDFS上但不在Metastore中的分区；
drop partitions选项将从Metastore中删除分区信息，对应那些已经从HDFS中删除的分区；
sync partitions 等价于调用add partitions和drop partitions；
当有大量未跟踪分区时，有一项规定可以按批处理方式运行msck repair table，以避免OOME(内存不足错误)。通过为属性hive.msck.repair.batch.size提供配置的批处理大小，它可以在内部批处理中运行。该属性的默认值为0，这意味着它将一次执行所有分区；
不带repair选项的msck命令可用于查找metadata错配的详细信息；
Hive-1.3起，如果分区值中有HDFS目录不允许的字符，msck将抛出异常。在客户端上使用设置hive.msck.path.validation来改变此行为；skip将简单地跳过目录。ignore将尝试创建分区(旧的行为)。这可能成功，也可能不起作用。

2.3.1.5 发现和同步分区

将在Hive-4.0.0引入。自动地发现、同步在Hive Metastore中分区的metadata。

2.3.1.6 分区保留

将在Hive-4.0.0引入。通过表属性partition.retention.period为分区表指定一个保留时间。

2.3.1.7 删除分区

语法：

alter table tbl_name drop [if exists] partition partition_spec [,partition partition_spec, ...]
[ignore protection] -- 不适合Hive-2.0.0以上版本
[purge];--Hive-1.2.0起

此语句将删除表的分区。删除用于该分区中的数据和元数据。如果设置了回收策略，数据实际移动到.Trash /Current目录，除非另外指定purge。但元数据完全丢失。

2.3.1.8 分区存档（解档）：（Un）archive

alter table tbl_name archive partition partition_spec;
alter table tbl_name unarchive partition partition_spec;

归档是一个移动一个分区的文件到一个Hadoop Archive（HAR）的功能。请注意，只是文件的数量减少；HAR不提供任何压缩。

2.3.2 修改表或分区

2.3.2.0 修改表或分区的文件格式

语法：

alter table tbl_name [partition partition_spec] set fileformat file_format;

此语句只更改表的元数据。任何现有数据的转换必须在Hive外完成。

2.3.2.1 修改表或分区的位置

语法：

alter table tbl_name [partition partition_spec] set location "new location";

2.3.2.2 修改表或分区的touch操作

语法：

alter table tbl_name touch [partition partition_spec];

touch关键字可以读取表或分区的元数据，并将其返回。

这个操作具有使前后执行挂钩触发的效果。比如：有一个钩子（hook）记录了所有已修改的表或分区，以及一个直接更改HDFS上文件的外部脚本。因为脚本修改了Hive之外的文件，所以这个修改并不会被钩子（hook）记录下来。外部脚本可以调用touch来触发钩子（hook），并将所述表或分区标记为修改后的表或分区。

另外，可以将可靠的最后修改时间合并起来，以后可能会很有用。touch也将更新那个时间。

注意：如果touch的表或分区不存在，它也不会去创建表或分区。

2.3.2.3 修改表或分区的保护（被删除、访问）

Hive-0.8.0起，在cascade子句加入了no_drop。但这个功能在Hive-2.0.0被丢弃，并有Hive几个可用的安全选项之一替代。

alter table tbl_name [partition partition_spec] enable|disable no drop [cascade];

alter table tbl_name [partition parttion_spec] enable|disable offline;

数据保护可用在任一表或分区级别设置；
启用no drop防止表被删除；
启用offline防止查询表或分区中的数据，但元数据仍然可被访问；
如果在一个表中的任何分区都启用no drop，该表将不能被删除；当然，若是一个表启用了no drop，表中分区是可被删除的，但加了no drop cascade分区是不能被删除的，除非删除分区的命令指定了ignore protection。

2.3.2.4 修改表或分区的compact操作

Hive-0.13.0起，当事务正在被使用，alter table语句可以compact表或分区；
Hive-1.3.0和2.1.0版本，当事务正在被使用，alter table ...compact语句可以加上tblproperties子句，或改变compaction MapReduce job属性，或重写任何其他Hive表的属性

语法：

alter table tbl_name [partition (partition_key = 'partition_value' [, ...])]
compact 'compaction_type'[and wait]
[with overwrite tblproperties ("property"="value" [, ...])];

一般情况下，在使用Hive事务时，不需要请求compact操作，因为系统将检测到它们的需要并自动启动compact操作。
如果关闭了表的compact功能、或在系统不选择的情况下compact表，那么可以使用alter table启动compact操作。
默认情况下，上述语句将compact请求排队，然后返回。
若要查看compact进度，可使用show compactions。
Hive-2.2.0起，and wait可让操作等待compact完成。

2.3.2.4 修改表或分区的的串联（Concatenate）

Hive-0.8.0中，增加了使用串联concatenate命令块级快速合并小型RCFile的支持；
Hive-0.14.0中，添加了使用串联命令条带（stripe）级别合并ORC小文件的支持。

语法：

alter table tbl_name [partition (partition_key = 'partition_value' [, ...])] concatenate;

如果表或分区包含许多小的RCFile或ORC文件，那么上述语句可将它们合并成更大的文件。
对于RCFile，合并发生在块级；对于ORC文件，合并发生在条带（stripe）级，从而避免了数据解压缩、解码的开销。

2.3.2.5 更新表或分区的列

在Hive-3.0.0中引入，让用户可以同步SerDe存储模式信息到metastore。
语法：

alter table tbl_name [partition (partition_key = 'partition_value' [, ...])] update columns;

具有自描述表模式的有SerDes的表在现实中可能有不同的模式，而存储在Hive Metastore中的表也可能有不同的模式。例如，当用户使用模式url或模式文字创建Avro存储表时，模式将被插入到HMS中，然后无论服务器中的url或文字如何更改，模式都不会在HMS中被更改。这可能导致问题，特别是在与其他Apache组件集成时。

更新列功能为用户提供了让在SerDe所做的任何模式更改能同步到HMS的方式。它适用于表和分区一级，而且显然只适用于其模式未被HMS跟踪的表（metastore.serdes.using.metastore.for.schema）。在这些后来SerDe类型使用命令将导致错误。

2.3.3 修改列

2.3.3.0 列名的规则

列名不区分大小写；
Hive-0.12.0及之前的版本中，列名只能包含字母、数字、下划线字符。通过设置hive.support.quoted.identifiers为none，此时，反引号列名将被解释为正则表达式；
Hive-0.13.0起，默认情况下，列名可以在反引号里指定，也可以含有任何Unicode字符，但是，点符号（.）、冒号（:）在查询时会报错。在反引号内指定的任何列名都按字面处理。在反引号字符串中，用双反引号（``）来表示一个反引号字符；
反引号包围符允许使用保留关键字用于列名、表名。

2.3.3.1 修改列名称、类型、位置、注释

语法：

alter table tbl_name [partition partition_spec] change [column]
col_old_name col_new_name column_type
[comment col_comment]
[first|after column_name]
[cascade|restrict];

这个语句允许更改列的名称、数据类型、注释、位置、或它们的组合；
Hive-0.14.0起，引入partition子句；
Hive-1.1.0引入cascade|restrict子句。alter table tbl_name change column结合cascade子句更改表元数据的列、并对所有分区元数据进行相同的更改，这个组合需慎用，因为它将覆盖表或分区相关列的元数据，而不管表或分区的保护模式如何。其中，restrict是默认的，限制仅表中列的元数据发生变化；
更改列的语句只修改配置单元的元数据，并不会修改数据。用户应确保表或分区的实际数据与布局的元数据定义一致。

实例：

create table test_change (a int, b int, c int);

第一次更改：将列名a 改为a1
alter table test_change change a a1 int;

第二次更改：将列名a1改为a2，其数据类型改为string，并把a2列放在b列后面
alter table test_change change a1 a2 string after b;
这样新表的结构是：b int, a2 string, c int

第三次更改：将列名c改为c1，并将其放在第一列
alter table test_change change c c1 int first;
此时新表的结构是：c1 int, b int a2 string

第四次更改：给列a1添加注释
alter table test_change change a1 a1 int comment 'this is column a1'

2.3.3.2 添加和替换列

语法：

alter table tbl_name
[partition partition_spec] --Hive 0.14.0起才支持
add|replace columns  (col_name data_type [comment col_comment], ...)
[cascade|retrict] --Hive 1.1.0起才支持

add columns可将新列添加到现有列之后、分区列之前。这个特性支持Avro的表（Hive 0.14.0起）；
replace columns删除所有现有的列，并增加新的一组列。这只能在表是本地SERDE（DynamicSerDe，MetadataTypedColumnsetSerDe，LazySimpleSerDe和ColumnarSerDe）的情况下完成。replace columns还可以用来删除列。例：alter table test_change replace columns (a int, b int);，将会在test_change的模式中删除列c；
cascade|restrict子句在Hive1.1.0可用。alter table change columns与cascade结合更改表元数据的列，并对所有分区元数据进行相同的更改。restrict是默认的，限制仅表中列的元数据发生变化；
alter table add或replace columns cascade将覆盖表分区的列元数据，无视表或分区的的保护模式。得谨慎使用；
列更改语句只修改配置单元的元数据，并且不会修改数据。用户应确保表或分区的实际数据与布局的元数据定义一致。

2.3.3.3 部分分区规范

Hive 0.14起，用户可以为上述alter列语句提供部分分区规范，类似于动态分区。因此，不必为需要更改的每个分区发出alter列语句：比如下面这样

alter table foo partition (ds='2008-04-08', hr=11)
change columns dec_column_name dec_column_name decimal(38,18);

alter table foo partition (ds='2008-04-08', hr=12)
change columns dec_column_name dec_column_name decimal(38,18);
...

可以使用带有部分分区规范的单个alter语句一次更改许多现有分区：

--在使用alter partition语句时设置hive.exec.dynamic.partition=true以支持动态分区。
set hive.exec.dynamic.partition=true;

-- 将更改表中所有现有 ds='2008-04-08'的分区。要确保清楚正在做什么
alter table foo partition ('2008-04-08', hr)
change column dec_column_name dec_column_name decimal(38,18);

alter table foo partition (ds, hr)
change column dec_column_name dec_column_name decimal(38,18);

类似动态分区，hive.exec.dynamic.partition必须设置为true，以便在alter partition期间启用部分分区规范。也支持这些操作：更改列、添加列、替换列、文件格式、SerDe属性。

[Hive] 05 - HQL：数据定义（DDL）下-【视图、索引、宏、函数等】

参考：
Hive官方手册

你可能感兴趣的:(Hive)

Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
Apache Iceberg数据湖基础 Aurora_NeAr apache
IntroducingApacheIceberg数据湖的演进与挑战传统数据湖（Hive表格式）的缺陷：分区锁定：查询必须显式指定分区字段（如WHEREdt='2025-07-01'）。无原子性：并发写入导致数据覆盖或部分可见。低效元数据：LIST操作扫描全部分区目录（云存储成本高）。Iceberg的革新目标：解耦计算引擎与存储格式（支持Spark/Flink/Trino等）；提供ACID事务、模式
Android导入compile 'com.roughike:bottom-bar:2.3.1'会导致V7包报错
出现问题Error:Executionfailedfortask':app:transformDexArchiveWithExternalLibsDexMergerForDebug'.>java.lang.RuntimeException:java.lang.RuntimeException:com.android.builder.dexing.DexArchiveMergerException:
z-library 镜像网站 0x0007 linux 运维服务器
基于各种你知道的，你不知道的原因，z-library的访问，尤其在国内的访问需要很多手段，没有一劳永逸的方法，只有与时俱进，不忘初心，砥砺前行，永不停歇收集了一些镜像站，随时可能失效，不定期更新：https://annas-archive.org/https://zlib.apphttps://zbook.lol/https://zlibrary.mlhttps://zlib.missuo.me/
各种版本Android Studio下载地址
官网各种AndroidStudio版本：https://developer.android.com/studio/archive，如下：当前（2025-07-05）官方提供的版本最旧的只能到2017年的版本了，有时候想安装旧的版本，比如我在学Gradle时，有教程在讲解时使用的AndroidStudio是较旧的版本，所以我想保持开发环境一样，这时就需要下载到旧的版本，但是官网上已经找不到下载链接了
ubuntu 6.8.0 安装xenomai3.3 ZPC8210 ROS ubuntu linux 运维
通过以下步骤来获取和准备Linux内核6.8.0的源码，并应用Xenomai补丁：1.下载Linux内核6.8.0源码你可以从TheLinuxKernelArchives下载Linux内核6.8.0的源码。以下是具体步骤：访问内核官方网站：打开TheLinuxKernelArchives。找到对应版本的内核：在网站中找到内核6.8.0的下载链接。通常在v6.x目录下。下载源码：下载linux-6.
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
Log Miner 挖挖挖
|LogMiner简介LogMiner是Oracle自Oracle8i以后推出的一个可以分析数据库redolog和archivelog内容的工具，可以通过日志分析所有对数据库的DDL和DML操作，也可以分析出操作的时间与操作时的SCN和进行操作的机器，对于DML操作还可以查询出还原操作的sql。|LogMiner组成源数据库产生LogMiner分析的所有重做日志文件的数据库挖掘数据库是执行LogM
apt-get install E: 无法定位软件包问题欧阳秦穆
在etc/apt的sources.list添加镜像源debhttp://archive.ubuntu.com/ubuntu/trustymainuniverserestrictedmultiverse然后sudoapt-getupdate接着安装就可以了
hive中2种常用的join方式潘达斯奈基~ 大数据 hive hadoop 数据仓库
在最近的项目代码review中，发现之前代码小表关联大表的业务，小表经过过滤后，数据只有400多条，而大表有1600万条，之前的逻辑是使用的是小表join大表，运行时间1小时12分钟；经过优化后，使用了mapjoin的方式，将小表放到内存中，运行时间7分钟。借此机会回顾下hive中2种常用的join方式：MapJoin、ReduceJoin（也叫CommonJoin）应对场景：MapJoin：适用
linux安装java jdk17 ng
1、下载jdk包wget--header=“Cookie:oraclelicense=accept-securebackup-cookie”https://download.oracle.com/java/17/archive/jdk-17.0.10_linux-x64_bin.tar.gz2、解压jdk包：tar-zxvfjdk-17.0.10_linux-x64_bin.tar.gz3、编辑配
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
.NET Framework 3.5 中的功能简介 benben0701 ASP.NET3.x .net windows wcf linq asp.net cryptography
.NETFramework3.5中的功能简介(1)我在前文《.NETFramework版本解析》（http://blog.csdn.net/johnsuna/archive/2008/03/23/2208684.aspx）中提到：.NETFramework3.5=.NETFramework3.0+.NETFramework3.0SP1.NETFramework3.0=.NETFramework2.
ubuntu FreeRadius服务器安装 flowHEHE ubuntu系统安装 ubuntu 服务器
1、获取安装源（1）wgethttps://github.com/FreeRADIUS/freeradius-server/archive/v3.0.x.zip（2）unzipv3.0.x.zip（3）cdfreeradius-server-3.0.x/2、创建ubuntu相关依赖（1）sudoapt-getinstalldevscriptsquiltdebhelperfakerootequivs
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
Python 进攻性渗透测试（一）
原文：annas-archive.org/md5/dccde1d96c9ad81f97529d78e3e69c9b译者：飞龙协议：CCBY-NC-SA4.0序言Python是一种易学的跨平台编程语言，具有无限的第三方库。许多开源黑客工具都是用Python编写的，可以轻松地集成到你的脚本中。本书被分成了清晰的小部分，你可以按照自己的节奏学习，并专注于对你最有兴趣的领域。你将学会如何编写自己的脚本，并
Python 进攻性渗透测试（二）
原文：annas-archive.org/md5/dccde1d96c9ad81f97529d78e3e69c9b译者：飞龙协议：CCBY-NC-SA4.0第四章：追捕我吧！在今天的世界里，绕过和劫持软件在互联网上到处都是。然而，明确的使用和执行方式才是让你成为一名优秀的业余黑客的关键。这可以通过正确选择工具并遵循必要的过程，完美地完成手头的任务来实现。在本章中，我们将涵盖以下主题，帮助你实现这一
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
centos使用wget下载jdk8 任意放逐 centos java linux
首先官网找需要的的jdk版本https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html我这里选择的是弹出下载提示框：勾选点Downloadjdk…这里需要使用一个账号登录，可以自行在网上搜一个账号，我就不给了。然后退回原来的页面下载，用一个能看到下载链接的软件下载，我使用的是idm
Qt Creator 11.0创建ROS2 Humble工程余加木 ROS2 Qt qt 开发语言
QtCreator11.0创建ROS2Humble项目工程安装ROSProjectManager插件创建ROS2项目在src下添加packagegitcloneROS2功能包编译运行安装ROSProjectManager插件安装ROSProjectManager的主要流程参考官方的流程，地址（ros_qtc_plugin）。此处采用二进制安装：sudoaptinstalllibarchive-to
ORACLE 正确删除归档日志的方法俗尘某某程序员记录 oracle 归档日志
ORACLE正确删除归档日志的方法我们都知道在controlfile中记录着每一个archivelog文件的相关信息，当然们在OS下把这些物理文件delete掉后，在我们的controlfile中仍然记录着这些archivelog文件的相关信息，在oracle的OEM管理器中有可视化的日志展现出，当我们手工清除archive目录下的文件后，这些记录并没有被我们从controlfile中清除掉，也就
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
GUI框架：谈谈框架 baozi3026 框架 command mfc button class string
转帖请注明出处http://www.cppblog.com/cexer/archive/2009/11/15/100988.html1开篇废话我喜欢用C++写GUI框架，因为那种成就感是实实在在地能看到的。从毕业到现在写了好多个了，都是实验性质的。什么拳脚飞刀毒暗器，激光核能反物质，不论是旁门左道的阴暗伎俩，还是名门正派的高明手段，只要是C++里有的技术都试过了。这当中接触过很多底层或是高级的技术
2024年Python最新统信UOS_麒麟KYLINOS上安装特定版本python_统信uos安装python 2401_84558914 程序员 python linux 服务器
准备解压…/16-libidn2-dev_2.0.5.1-1+dde_amd64.deb…正在解压libidn2-dev:amd64(2.0.5.1-1+dde)…/var/cache/apt/archives/libidn2-dev_2.0.5.1-1+dde_amd64.deb正在选中未选择的软件包libp11-kit-dev:amd64。准备解压…/17-libp11-kit-dev_0.2
鲲鹏CPU+麒麟操作系统arm环境安装MySQL 运维小乔 mysql 数据库
系统环境背景：CPU：鲲鹏920操作系统：Ky10SP3MySQL版本：8.4.2一、下载MySQL官网地址：https://downloads.mysql.com/archives/community/二：MySQL安装前准备2.1关闭防火墙[root@ky-b~]#systemctlstopfirewalld[root@ky-b~]#systemctldisablefirewalldRemov
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

[Hive] 04 - HQL：数据定义（DDL）上-【数据库和表】

0、关键字、和它们的大小写

1、数据库：创建、使用、修改、删除

1.0 创建数据库

1.1 使用数据库

1.2 修改数据库

1.3 删除数据库

2、表的创建、删除、截断，修改表、分区、列

2.0 创建表

2.0.0 托管表、外部表

2.0.1 对表的存储管理

2.0.1.0 文件格式

2.0.1.1 行格式和SerDe

2.0.2 分区表

2.0.3 create table as select (CTAS)方式建表

2.0.4 create table like方式创建表

2.0.5 排序的分桶表

2.0.6 倾斜表

2.0.7 临时表

2.0.8 事务性表

2.0.9 约束

2.1 删除表

2.2 截断表

2.3 修改：表、分区、列

2.3.0 alter table修改表的名称、属性、注释、SerDe属性、存储属性、倾斜、存储为目录、约束等

2.3.0.0 重命名

2.3.0.1 修改表的属性

2.3.0.2 修改表的注释

2.3.0.4 添加SerDe属性

2.3.0.5 修改表的存储属性

2.3.0.6 修改表的倾斜或存储为目录

2.3.0.7 修改表的约束

2.3.1 修改分区

2.3.1.0 添加分区

2.3.1.1 动态分区

2.3.1.2 重命名分区

2.3.1.3 表之间移动分区

2.3.1.4 恢复分区（msck repair table）

2.3.1.5 发现和同步分区

2.3.1.6 分区保留

2.3.1.7 删除分区

2.3.1.8 分区存档（解档）：（Un）archive

2.3.2 修改表或分区

2.3.2.0 修改表或分区的文件格式

2.3.2.1 修改表或分区的位置

2.3.2.2 修改表或分区的touch操作

2.3.2.3 修改表或分区的保护（被删除、访问）

2.3.2.4 修改表或分区的compact操作

2.3.2.4 修改表或分区的的串联（Concatenate）

2.3.2.5 更新表或分区的列

2.3.3 修改列

2.3.3.0 列名的规则

2.3.3.1 修改列名称、类型、位置、注释

2.3.3.2 添加和替换列

2.3.3.3 部分分区规范

你可能感兴趣的:(Hive)

2.0.3 `create table as select` (CTAS)方式建表

2.0.4 `create table like`方式创建表

2.3.0 `alter table`修改表的名称、属性、注释、SerDe属性、存储属性、倾斜、存储为目录、约束等