目录
前言:
HiveQL语言的基本语法,包括DDL和DML两个方面。
DDL(数据定义语言):
DML(数据操作语言):
Hive高级特性
多种内置函数:
分区和桶:
索引:
视图:
UDF:
此文章在阿为的刺激之下,奋笔疾书而作
创建数据库:CREATE DATABASE database_name;
删除数据库:DROP DATABASE database_name;
创建表:CREATE TABLE table_name (column1 data_type, column2 data_type, ...);
删除表:DROP TABLE table_name;
修改表结构:ALTER TABLE table_name ADD COLUMN column_name data_type;
查看表结构:DESCRIBE table_name;
插入数据:INSERT INTO table_name (column1, column2, ...) VALUES (value1, value2, ...);
查询数据:SELECT column1, column2, ... FROM table_name WHERE condition;
更新数据:UPDATE table_name SET column1 = value1, column2 = value2 WHERE condition;
删除数据:DELETE FROM table_name WHERE condition;
聚合函数:SUM、AVG、COUNT、MAX、MIN等。
Hive的多种内置函数、Hive的分区和桶、Hive的索引、Hive的视图、Hive的UDF等高级特性。
Hive提供了多种内置函数,包括数学函数、字符串函数、日期函数、聚合函数等。例如,ABS、CONCAT、FROM_UNIXTIME、SUM等。
-- 字符串函数
SELECT CONCAT(name,' is ',age,' years old') FROM mytable;
-- 日期函数
SELECT DATE_SUB('2022-01-01', 365) FROM mytable;
-- 数学函数
SELECT ABS(score) FROM mytable;
Hive支持对表进行分区和桶操作,可以提高查询效率。分区是按照某个列的值进行分区,而桶是按照哈希值进行分区。例如,CREATE TABLE table_name (column1 data_type, column2 data_type, ...) PARTITIONED BY (partition_column data_type) CLUSTERED BY (bucket_column) INTO num_buckets BUCKETS;
分区是Hive中管理数据的一种方式,它可以加快数据查询的速度。桶则与分区类似,但桶是在分区内再次划分的,可以让查询更加快速。
-- 创建分区表
CREATE TABLE mytable(
id INT,
name STRING
)
PARTITION BY (age INT, gender STRING);
-- 加载数据到分区表
INSERT INTO mytable PARTITION(age=25, gender='Female') VALUES(1,'Amy');
-- 创建桶表
CREATE TABLE mytable(
id INT,
name STRING,
age INT,
color STRING
)
CLUSTERED BY (age) INTO 3 BUCKETS;
Hive支持对表进行索引操作,可以提高查询效率。可以使用CREATE INDEX语句创建索引,例如,CREATE INDEX index_name ON table_name (column_name);
-- 创建B-Tree索引
CREATE INDEX myindex ON TABLE mytable(age) AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler';
-- 创建Bitmap索引
CREATE INDEX myindex ON TABLE mytable(age) AS 'org.apache.hadoop.hive.ql.index.bitmap.BitmapIndexHandler';
Hive支持创建视图,可以简化查询操作。可以使用CREATE VIEW语句创建视图,例如,CREATE VIEW view_name AS SELECT column1, column2, ... FROM table_name WHERE condition;
-- 创建视图
CREATE VIEW myview AS SELECT id, name FROM mytable;
-- 查询视图
SELECT * FROM myview;
-- 删除视图
DROP VIEW myview;
Hive支持自定义函数,可以根据需要编写自己的函数。可以使用CREATE FUNCTION语句创建UDF,例如,CREATE FUNCTION function_name AS 'class_name' USING JAR 'jar_file_path'; Hive支持用户自定义函数(UDF),可以根据需要编写自己的函数来处理数据。使用方法为编写Java或Python代码并打包为JAR文件,然后将该文件上传到Hive中,并注册UDF函数供使用。
-- 创建UDF
ADD JAR /path/to/udf.jar;
CREATE TEMPORARY FUNCTION myudf AS 'com.example.udf.MyUDF';-- 使用UDF
SELECT myudf(id, name) FROM mytable;