water.wjf

Hadoop之Hive篇

想了解Hadoop整体结构及各框架角色建议飞入这篇文章，写的很好：http://www.open-open.com/lib/view/open1385685943484.html 。以下文章是本人参考各牛人文章总结出，主要是Hive的使用。参考自：http://www.blogjava.net/hengheng123456789/archive/2011/01/05/342354.html

1. Hive是什么

　　Hive是一个基于hadoop的数据仓库。Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

　　Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制分隔符，也允许用户指定数据格式。

　　Hive的特点

　　　　•　可扩展

　　　　　　　　Hive可以自由的扩展集群的规模，一般情况下不需要重启服务

　　　　•　延展性

　　　　　　　　Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

　　　　•　容错

　　　　　　　　良好的容错性，节点出现问题SQL仍可完成执行

　　Hive 与Hadoop的关系：

2. Hive的相关文档

Wiki 页面：https://cwiki.apache.org/confluence/display/Hive/Home
入门指南：http://wiki.apache.org/hadoop/Hive/GettingStarted
查询语言指南：https://cwiki.apache.org/confluence/display/Hive/LanguageManual
Hive指南 https://cwiki.apache.org/confluence/display/Hive/Tutorial

在关于Hadoop的Hive了解上，偶然看到大神viewcode的文章，觉得很好，摘下供读：（转自：http://blog.csdn.net/viewcode/article/details/9230541）

1. hive是针对什么问题提出的？之前有什么解决方案吗？

超大结构化数据集，超出了一般MPP 的存储能力。

MPP海量并行处理数据库的强项在于CPU，实时处理能力强，但其空间比较紧张；而hadoop的存储能强，但cpu的实时处理能力比较弱。Hive是一个基于hadoop的数据仓库。

所以，二者是一个互补的关系。并且，逐渐的，二者会相互融合。

2. hive在数据类型上与普通的SQL有什么区别？

hive除了支持普通的Integer（从8字节到1字节）、Float（float与double）、String 内置类型外

hive还支持 Map、Structure、List，这些复杂的数据类型。

如 list>> 一个嵌套多层的复杂数据结构。

3. hive在语法上与标准的SQL有什么区别？以及原由是什么？

1）多表之间的join操作，只支持等号 = 条件，且语法格式如下：

[sql] view plain copy

1. SELECT t1.a1 as c1, t2.b1 as c2
2. FROM t1 JOIN t2 ON (t1.a2 = t2.b2);

而不是传统的格式：

[sql] view plain copy

1. SELECT t1.a1 as c1, t2.b1 as c2
2. FROM t1, t2
3. WHERE t1.a2 = t2.b2

2）hive不支持将数据插入现有的表或分区中，仅支持覆盖重写整个表，示例如下：

[sql] view plain copy

1. INSERT OVERWRITE TABLE t1
2. SELECT * FROM t2;

3）hive不支持INSERT INTO, UPDATE, DELETE操作，这样的话，就不要很复杂的锁机制来读写数据。

INSERT INTO syntax is only available starting in version 0.8。INSERT INTO就是在表或分区中追加数据。

4）hive支持嵌入mapreduce程序，来处理复杂的逻辑

如：

[sql] view plain copy

1. FROM (
2. MAP doctext USING 'python wc_mapper.py' AS (word, cnt)
3. FROM docs
4. CLUSTER BY word
5. ) a
6. REDUCE word, cnt USING 'python wc_reduce.py';

--doctext: 是输入

--word, cnt: 是map程序的输出

--CLUSTER BY: 将wordhash后，又作为reduce程序的输入

并且map程序、reduce程序可以单独使用，如：

[sql] view plain copy

1. FROM (
2. FROM session_table
3. SELECT sessionid, tstamp, data
4. DISTRIBUTE BY sessionid SORT BY tstamp
5. ) a
6. REDUCE sessionid, tstamp, data USING 'session_reducer.sh';

--DISTRIBUTE BY: 用于给reduce程序分配行数据

5）hive支持将转换后的数据直接写入不同的表，还能写入分区、hdfs和本地目录。

这样能免除多次扫描输入表的开销。

[sql] view plain copy

1. FROM t1
3. INSERT OVERWRITE TABLE t2
4. SELECT t3.c2, count(1)
5. FROM t3
6. WHERE t3.c1 <= 20
7. GROUP BY t3.c2
9. INSERT OVERWRITE DIRECTORY '/output_dir'
10. SELECT t3.c2, avg(t3.c1)
11. FROM t3
12. WHERE t3.c1 > 20 AND t3.c1 <= 30
13. GROUP BY t3.c2
15. INSERT OVERWRITE LOCAL DIRECTORY '/home/dir'
16. SELECT t3.c2, sum(t3.c1)
17. FROM t3
18. WHERE t3.c1 > 30
19. GROUP BY t3.c2;

6） FROM与SELECT/MAP/REDUCE关键字的次序可以调换，这样就能比较方便的处理多个INSERT 操作。示例如上。

4. Hive是如何存放数据的？或者说其数据的组织形式是什么样的？

表是Hive的逻辑数据单元，但是在hdfs的空间内，主要的数据被分为以下三种形式：

1）表：一个表就是hdfs中的一个目录

2）区：表内的一个区就是表的目录下的一个子目录

3）桶：如果有分区，那么桶就是区下的一个单位，如果表内没有区，那么桶直接就是表下的单位，桶一般是文件的形式。

表是否分区，如何添加分区，都可以通过Hive-QL语言完成。通过分区，即目录的存放形式，Hive可以比较容易地完成对分区条件的查询。

桶是Hive的最终的存储形式。在创建表时，用户可以对桶和列进行详细地描述。

并且，Hive支持外部的创建，即将数据存放在hdfs的其他地方。

5. Hive数据的序列化与反序列化，是如何完成的？

1）相关接口：SerDe, LazySerDe，RegexSerDe

2）如何标识一个新行？如何标识一行内列的区分？

这些可以指定简单的ascii字符来完成。这是LazySerDed的方式。

3）对RegexSerDe是采用正则表达式的方式来解析一行内的列数据。

6. Hive支持哪些文件格式？即Hive数据文件会被存放成什么的格式？

Hadoop支持各种数据格式。而Hive的数据格式，在表创建时就可以指定。

Text，Binary都支持，除此之外，列存储的方式能大大提高查询的性能。

以上形式的接口为：TextInputFormat, BinaryInputFormat, RCInputFormat.

7. Hive 的架构形式是什么样的？有哪些组件？

Hive的组件总体上可以分为以下几个部分：对外的界面或接口、中间件或服务端部分、底层驱动、元数据（即hive系统参数数据）

1）对外的接口包括以下几种：命令行CLI，Web界面、JDBC/ODBC接口

2）中间件：包括thrift接口和JDBC/ODBC的服务端，用于整合Hive和其他程序。

3）底层驱动：包括HiveQL编译器，优化器、执行的引擎（执行器）

4）元数据metadata：存放系统参数

1）MetaStore类似于Hive的目录。它存放了有个表、区、列、类型、规则模型的所有信息。并且它可以通过thrift接口进行修改和查询。它为编译器提供高效的服务，所以，它会存放在一个传统的RDBMS，利用关系模型进行管理。这个信息非常重要，所以需要备份，并且支持查询的可扩展性。

2）查询编译器query compiler: HiveQL语句被处理，同传统的数据库编译器一样，都经历以下步骤：

解析parse --> 类型检查和语法分析type check and semantic analysis --> 优化optimization --> 生成物理上的、真正的执行步骤

3）执行引擎execution engine：

根据任务的依赖关系，执行各种mapreduce任务。一个mapreduce任务都被序列化到一个plan.xml文件中，然后加载到 job cache中，并且各部分解析plan.xml(反序列化)，并执行相关操作，将结果放入临时的位置，再由DML转移到指定位置。

8. DDL与metadata的关系？

DDL就是Data Define Language，数据定义语言：常用命令包括：CREATE / ALTER / DROP. 另外还有 SHOW / DESRIBE. 如

hive> CREATE TABLE pokes (foo INT, bar STRING);

hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);

hive> DROP TABLE pokes;

MetaData是一个嵌入式的Derby数据库，它的位置由hive的 javax.jdo.option.ConnectionURL配置来指定。目前，MetaData默认情况下一次只能对一个用户可见。

MetaData可以是JPOX支持的任何数据库。将来，MetaData将会用一个独立的服务器来管理，这样多个节点Node都可以访问它。

MetaData被存储在一个标准的关系型数据库中，Derby就是一个开源、轻型的嵌入式数据库。

9. Hive的常用操作

Comparison

A = B , A <> B , A < B , A <= B , A > B , A >= B ,
A IS NULL , A IS NOT NULL , A LIKE B , NOT A LIKE B ,
A RLIKE B , A REGEXP B

Arithmetic

A + B , A - B , A * B , A / B , A % B

Bit-wise

A & B , A | B , A ^ B, ~A

Logical

A AND B, A && B, A OR B, A || B, NOT A, !A

HIVE 语法是不区分大小写的。

Hive还支持大量的函数。

3. Hive元数据存储

　　Hive 将元数据存储在 RDBMS 中，有三种模式可以连接到数据库：

　　1> Single User Mode：此模式连接到一个 In-memory 的数据库 Derby，一般用于 Unit Test

　　2> Multi User Mode：通过网络连接到一个数据库中，是最经常使用到的模式

　　3> Remote Server Mode：用于非 Java 客户端访问元数据库，在服务器端启动一个 MetaStoreServer，客户端利用 Thrift 协议通过 MetaStoreServer 访问元数据库

4. Hive的数据存储

　　首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。

　　其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External Table，Partition，Bucket。

　　1> Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括 External Table）都保存在这个目录中。

　　2> Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA。

　　3> Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00020。

　　4> External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的差异。

Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。
External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除。

　　由于 Hive 采用了 SQL 的查询语言 HQL，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但是Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。

Hive 和数据库的比较

查询语言	数据存储位置	数据格式	数据更新	索引	执行	执行延迟	可扩展性	数据规模
HQL	HDFS	用户定义	支持	无	MapRedcue	高	高	大
SQL	Raw Device 或者 Local FS	系统决定	不支持	有	Executor	低	低	小

　1> 查询语言。由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。
2> 数据存储位置。Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
3> 数据格式。Hive 中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符（通常为空格、”\\t”、”\\x001″）、行分隔符（”\\n”）以及读取文件数据的方法（Hive 中默认有三个文件格式 TextFile，SequenceFile 以及 RCFile）。由于在加载数据的过程中，不需要从用户数据格式到 Hive 定义的数据格式的转换，因此，Hive 在加载的过程中不会对数据本身进行任何修改，而只是将数据内容复制或者移动到相应的 HDFS 目录中。而在数据库中，不同的数据库有不同的存储引擎，定义了自己的数据格式。所有数据都会按照一定的组织存储，因此，数据库加载数据的过程会比较耗时。
4> 数据更新。由于 Hive 是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive 中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用 INSERT INTO ... VALUES 添加数据，使用 UPDATE ... SET 修改数据。
　5> 索引。之前已经说过，Hive 在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些 Key 建立索引。Hive 要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于 MapReduce 的引入， Hive 可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive 仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了 Hive 不适合在线数据查询。
　6> 执行。Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的（类似 select * from tbl 的查询不需要 MapReduce）。而数据库通常有自己的执行引擎。
　7> 执行延迟。之前提到，Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive 的并行计算显然能体现出优势。
　8> 可扩展性。由于 Hive 是建立在 Hadoop 之上的，因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的（世界上最大的 Hadoop 集群在 Yahoo!，2009年的规模在 4000 台节点左右）。而数据库由于 ACID 语义的严格限制，扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。
　9> 数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

Hive QL

　　Hive 的官方文档中对查询语言有了很详细的描述，请参考：http://wiki.apache.org/hadoop/Hive/LanguageManual ，本文的内容大部分翻译自该页面，期间加入了一些在使用过程中需要注意到的事项。

　　Create Table

　　　　CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常。

　　　　EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

　　　　LIKE 允许用户复制现有的表结构，但是不复制数据。

　　　　用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。

　　　　如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCE 。

　　　　有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行 CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

　　　　表名和列名不区分大小写，SerDe 和属性名区分大小写。表和列的注释是字符串。

　　Drop Table

　　　　删除一个内部表的同时会同时删除表的元数据和数据。删除一个外部表，只删除元数据而保留数据。

　　Alter Table

　　　　Alter table 语句允许用户改变现有表的结构。用户可以增加列/分区，改变serde，增加表和 serde 熟悉，表本身重命名。

　　Add Partitions

ALTER TABLE table_name ADD
partition_spec [ LOCATION 'location1' ]
partition_spec [ LOCATION 'location2' ] ...
partition_spec:
: PARTITION (partition_col = partition_col_value,
partition_col = partiton_col_value, ...)

　　用户可以用 ALTER TABLE ADD PARTITION 来向一个表中增加分区。当分区名是字符串时加引号。

ALTER TABLE page_view ADD
PARTITION (dt='2008-08-08', country='us')
location '/path/to/us/part080808'
PARTITION (dt='2008-08-09', country='us')
location '/path/to/us/part080809';

　　DROP PARTITION

　　　　ALTER TABLE table_name DROP
　　　　partition_spec, partition_spec,...

　　　　用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。

　　　　ALTER TABLE page_view
　　　　DROP PARTITION (dt='2008-08-08', country='us');

　　RENAME TABLE

　　　　ALTER TABLE table_name RENAME TO new_table_name

　　　　这个命令可以让用户为表更名。数据所在的位置和分区名并不改变。换而言之，老的表名并未“释放”，对老表的更改会改变新表的数据。

　　Change Column Name/Type/Position/Comment

　　　　ALTER TABLE table_name CHANGE [COLUMN]
　　　　col_old_name col_new_name column_type
　　　　[COMMENT col_comment]
　　　　[FIRST|AFTER column_name]

　　　　这个命令可以允许用户修改一个列的名称、数据类型、注释或者位置。

　　　　比如：

　　　　　　CREATE TABLE test_change (a int, b int, c int);

　　　　　　ALTER TABLE test_change CHANGE a a1 INT; 将 a 列的名字改为 a1.

　　　　　　ALTER TABLE test_change CHANGE a a1 STRING AFTER b; 将 a 列的名字改为 a1，a 列的数据类型改为 string，并将它放置在列 b 之后。新的表结构为： b int, a1 string, c int.

　　　　　　ALTER TABLE test_change CHANGE b b1 INT FIRST; 会将 b 列的名字修改为 b1, 并将它放在第一列。新表的结构为： b1 int, a string, c int.

　　　　注意：对列的改变只会修改 Hive 的元数据，而不会改变实际数据。用户应该确定保证元数据定义和实际数据结构的一致性。

　　Add/Replace Columns

　　　　ALTER TABLE table_name ADD|REPLACE
　　　　COLUMNS (col_name data_type [COMMENT col_comment], ...)

　　　　ADD COLUMNS 允许用户在当前列的末尾增加新的列，但是在分区列之前。

　　　　REPLACE COLUMNS 删除以后的列，加入新的列。只有在使用 native 的 SerDE（DynamicSerDe or MetadataTypeColumnsetSerDe）的时候才可以这么做。

　　Alter Table Properties

　　　　ALTER TABLE table_name SET TBLPROPERTIES table_properties
　　　　table_properties:
　　　　: (property_name = property_value, property_name = property_value, ... )

　　　　用户可以用这个命令向表中增加 metadata，目前 last_modified_user，last_modified_time 属性都是由 Hive 自动管理的。用户可以向列表中增加自己的属性。可以使用 DESCRIBE EXTENDED TABLE 来获得这些信息。

　　Add Serde Properties

　　　　ALTER TABLE table_name
　　　　SET SERDE serde_class_name
　　　　[WITH SERDEPROPERTIES serde_properties]
　　　　ALTER TABLE table_name
　　　　SET SERDEPROPERTIES serde_properties
　　　　serde_properties:
　　　　: (property_name = property_value,
　　　　property_name = property_value, ... )

　　　　这个命令允许用户向 SerDe 对象增加用户定义的元数据。Hive 为了序列化和反序列化数据，将会初始化 SerDe 属性，并将属性传给表的 SerDe。如此，用户可以为自定义的 SerDe 存储属性。

　　Alter Table File Format and Organization

　　　　ALTER TABLE table_name SET FILEFORMAT file_format
　　　　ALTER TABLE table_name CLUSTERED BY (col_name, col_name, ...)
　　　　[SORTED BY (col_name, ...)] INTO num_buckets BUCKETS

　　　　这个命令修改了表的物理存储属性。

　　Loading files into table

　　　　当数据被加载至表中时，不会对数据进行任何转换。Load 操作只是将数据复制/移动至 Hive 表对应的位置。

　　Syntax:

　　　　LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE]
　　　　INTO TABLE tablename
　　　　[PARTITION (partcol1=val1, partcol2=val2 ...)]

　　Synopsis:

　　　　Load 操作只是单纯的复制/移动操作，将数据文件移动到 Hive 表对应的位置。

- filepath 可以是：
  - 相对路径，例如：project/data1
  - 绝对路径，例如： /user/hive/project/data1
  - 包含模式的完整 URI，例如：hdfs://namenode:9000/user/hive/project/data1
- 加载的目标可以是一个表或者分区。如果表包含分区，必须指定每一个分区的分区名。
- filepath 可以引用一个文件（这种情况下，Hive 会将文件移动到表所对应的目录中）或者是一个目录（在这种情况下，Hive 会将目录中的所有文件移动至表所对应的目录中）。
- 如果指定了 LOCAL，那么：
  - load 命令会去查找本地文件系统中的 filepath。如果发现是相对路径，则路径会被解释为相对于当前用户的当前路径。用户也可以为本地文件指定一个完整的 URI，比如：file:///user/hive/project/data1.
  - load 命令会将 filepath 中的文件复制到目标文件系统中。目标文件系统由表的位置属性决定。被复制的数据文件移动到表的数据对应的位置。
- 如果没有指定 LOCAL 关键字，如果 filepath 指向的是一个完整的 URI，hive 会直接使用这个 URI。否则：
  - 如果没有指定 schema 或者 authority，Hive 会使用在 hadoop 配置文件中定义的 schema 和 authority，fs.default.name 指定了 Namenode 的 URI。
  - 如果路径不是绝对的，Hive 相对于 /user/ 进行解释。
  - Hive 会将 filepath 中指定的文件内容移动到 table （或者 partition）所指定的路径中。
- 如果使用了 OVERWRITE 关键字，则目标表（或者分区）中的内容（如果有）会被删除，然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。
- 如果目标表（分区）已经有一个文件，并且文件名和 filepath 中的文件名冲突，那么现有的文件会被新文件所替代。

　　SELECT

　　Syntax

　　　　SELECT [ALL | DISTINCT] select_expr, select_expr, ...
　　　　FROM table_reference
　　　　[WHERE where_condition]
　　　　[GROUP BY col_list]
　　　　[
　　　　CLUSTER BY col_list
　　　　| [DISTRIBUTE BY col_list]
　　　　[SORT BY col_list]
　　　　]
　　　　[LIMIT number]

- 一个SELECT语句可以是一个union查询或一个子查询的一部分。
- table_reference是查询的输入，可以是一个普通表、一个视图、一个join或一个子查询
- 简单查询。例如，下面这一语句从t1表中查询所有列的信息。

　　　　SELECT * FROM t1

　　WHERE Clause

　　　　where condition 是一个布尔表达式。例如，下面的查询语句只返回销售记录大于 10，且归属地属于美国的销售代表。Hive 不支持在WHERE 子句中的 IN，EXIST 或子查询。

　　　　SELECT * FROM sales WHERE amount > 10 AND region = "US"

　　ALL and DISTINCT Clauses

　　　　使用ALL和DISTINCT选项区分对重复记录的处理。默认是ALL，表示查询所有记录。DISTINCT表示去掉重复的记录。

　　　　hive> SELECT col1, col2 FROM t1
　　　　1 3
　　　　1 3
　　　　1 4
　　　　2 5
　　　　hive> SELECT DISTINCT col1, col2 FROM t1
　　　　1 3
　　　　1 4
　　　　2 5
　　　　hive> SELECT DISTINCT col1 FROM t1
　　　　1
　　　　2

　　基于Partition的查询

　　　　一般 SELECT 查询会扫描整个表（除非是为了抽样查询）。但是如果一个表使用 PARTITIONED BY 子句建表，查询就可以利用分区剪枝（input pruning）的特性，只扫描一个表中它关心的那一部分。Hive 当前的实现是，只有分区断言出现在离 FROM 子句最近的那个WHERE 子句中，才会启用分区剪枝。例如，如果 page_views 表使用 date 列分区，以下语句只会读取分区为‘2008-03-01’的数据。

　　　　SELECT page_views.*
　　　　FROM page_views
　　　　WHERE page_views.date >= '2008-03-01'
　　　　AND page_views.date

　　HAVING Clause

　　　　Hive 现在不支持 HAVING 子句。可以将 HAVING 子句转化为一个字查询，例如：

　　　　SELECT col1 FROM t1 GROUP BY col1 HAVING SUM(col2) > 10

　　　　可以用以下查询来表达：

　　　　SELECT col1 FROM (SELECT col1, SUM(col2) AS col2sum
　　　　FROM t1 GROUP BY col1) t2
　　　　WHERE t2.col2sum > 10

　　LIMIT Clause

　　　　Limit 可以限制查询的记录数。查询的结果是随机选择的。下面的查询语句从 t1 表中随机查询5条记录：

　　　　SELECT * FROM t1 LIMIT 5

　　　　Top k 查询。下面的查询语句查询销售记录最大的 5 个销售代表。

　　　　SET mapred.reduce.tasks = 1
　　　　SELECT * FROM sales SORT BY amount DESC LIMIT 5

　　REGEX Column Specification

　　　　SELECT 语句可以使用正则表达式做列选择，下面的语句查询除了 ds 和 hr 之外的所有列：

　　　　SELECT `(ds|hr)?+.+` FROM sales

　　Join

　　Syntax

　　　　join_table:
　　　　table_reference JOIN table_factor [join_condition]
　　　　| table_reference {LEFT|RIGHT|FULL} [OUTER]
　　　　JOIN table_reference join_condition
　　　　| table_reference LEFT SEMI JOIN
　　　　table_reference join_condition
　　　　table_reference:
　　　　table_factor
　　　　| join_table
　　　　table_factor:
　　　　tbl_name [alias]
　　　　| table_subquery alias
　　　　| ( table_references )
　　　　join_condition:
　　　　ON equality_expression ( AND equality_expression )*
　　　　equality_expression:
　　　　expression = expression

　　　　Hive 只支持等值连接（equality joins）、外连接（outer joins）和（left semi joins???）。Hive 不支持所有非等值的连接，

　　　　因为非等值连接非常难转化到 map/reduce 任务。另外，Hive 支持多于 2 个表的连接。

　　　　写 join 查询时，需要注意几个关键点：
　　　　1. 只支持等值join，例如：

  　　　　SELECT a.* FROM a JOIN b ON (a.id = b.id)
　　　　SELECT a.* FROM a JOIN b
　　　　ON (a.id = b.id AND a.department = b.department)

　　　　是正确的，然而:

  　　　　SELECT a.* FROM a JOIN b ON (a.id  b.id)

　　　　是错误的。

　　　　2. 可以 join 多于 2 个表，例如

  　　　　SELECT a.val, b.val, c.val FROM a JOIN b
　　　　ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

　　　　如果join中多个表的 join key 是同一个，则 join 会被转化为单个 map/reduce 任务，例如：

  　　　　SELECT a.val, b.val, c.val FROM a JOIN b
　　　　ON (a.key = b.key1) JOIN c
　　　　ON (c.key = b.key1)

　　　　被转化为单个 map/reduce 任务，因为 join 中只使用了 b.key1 作为 join key。

　　　　SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1)
　　　　JOIN c ON (c.key = b.key2)

　　　　而这一 join 被转化为 2 个 map/reduce 任务。因为 b.key1 用于第一次 join 条件，而 b.key2 用于第二次 join。

　　　　join 时，每次 map/reduce 任务的逻辑是这样的：reducer 会缓存 join 序列中除了最后一个表的所有表的记录，

　　　　再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中，应该把最大的那个表写在最后

　　　　（否则会因为缓存浪费大量内存）。例如：

 　　　　　　SELECT a.val, b.val, c.val FROM a
　　　　　　JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)

　　　　所有表都使用同一个 join key（使用 1 次 map/reduce 任务计算）。Reduce 端会缓存 a 表和 b 表的记录，然后每次取得一个 c 表的记录就计算一次 join 结果，类似的还有：

 　　　　 SELECT a.val, b.val, c.val FROM a
　　　　　　JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key2)

　　　　这里用了 2 次 map/reduce 任务。第一次缓存 a 表，用 b 表序列化；第二次缓存第一次 map/reduce 任务的结果，然后用 c 表序列化。

　　　　LEFT，RIGHT 和 FULL OUTER 关键字用于处理 join 中空记录的情况，例如：

  　　　　SELECT a.val, b.val FROM a LEFT OUTER
　　　　JOIN b ON (a.key=b.key)

　　　　对应所有 a 表中的记录都有一条记录输出。输出的结果应该是 a.val, b.val，当 a.key=b.key 时，而当 b.key 中找不到等值的

　　　　a.key 记录时也会输出 a.val, NULL。“FROM a LEFT OUTER JOIN b”这句一定要写在同一行——意思是 a 表在 b 表的左边，所以

　　　　a 表中的所有记录都被保留了；“a RIGHT OUTER JOIN b”会保留所有 b 表的记录。OUTER JOIN 语义应该是遵循标准 SQL spec的。

　　　　Join 发生在 WHERE 子句之前。如果你想限制 join 的输出，应该在 WHERE 子句中写过滤条件——或是在 join 子句中写。

　　　　这里面一个容易混淆的问题是表分区的情况：

  　　　　SELECT a.val, b.val FROM a
　　　　LEFT OUTER JOIN b ON (a.key=b.key)
　　　　WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

　　　　会 join a 表到 b 表（OUTER JOIN），列出 a.val 和 b.val 的记录。WHERE 从句中可以使用其他列作为过滤条件。

　　　　但是，如前所述，如果 b 表中找不到对应 a 表的记录，b 表的所有列都会列出 NULL，包括 ds 列。也就是说，join

　　　　会过滤 b 表中不能找到匹配 a 表 join key 的所有记录。这样的话，LEFT OUTER 就使得查询结果与 WHERE 子句无关了。

　　　　解决的办法是在 OUTER JOIN 时使用以下语法：

  　　　　SELECT a.val, b.val FROM a LEFT OUTER JOIN b
　　　　ON (a.key=b.key AND
　　　　b.ds='2009-07-07' AND
　　　　a.ds='2009-07-07')

　　　　这一查询的结果是预先在 join 阶段过滤过的，所以不会存在上述问题。这一逻辑也可以应用于 RIGHT 和 FULL 类型的 join 中。

　　　　Join 是不能交换位置的。无论是 LEFT 还是 RIGHT join，都是左连接的。

  　　　　SELECT a.val1, a.val2, b.val, c.val
　　　　FROM a
　　　　JOIN b ON (a.key = b.key)
　　　　LEFT OUTER JOIN c ON (a.key = c.key)

　　　　先 join a 表到 b 表，丢弃掉所有 join key 中不匹配的记录，然后用这一中间结果和 c 表做 join。这一表述有一个不太明显的问题，

　　　　就是当一个 key 在 a 表和 c 表都存在，但是 b 表中不存在的时候：整个记录在第一次 join，即 a JOIN b 的时候都被丢掉了

　　　　（包括a.val1，a.val2和a.key），然后我们再和 c 表 join 的时候，如果 c.key 与 a.key 或 b.key 相等，就会得到这样的结果：

　　　　NULL, NULL, NULL, c.val。

　　　　LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询，所以你可以用 LEFT SEMI JOIN

　　　　重写你的子查询语句。LEFT SEMI JOIN 的限制是， JOIN 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、

　　　　SELECT 子句或其他地方过滤都不行。

  　　　　SELECT a.key, a.value
　　　　FROM a
　　　　WHERE a.key in
　　　　(SELECT b.key
　　　　FROM B);

　　　　可以被重写为：

   　　　　SELECT a.key, a.val
　　　　FROM a LEFT SEMI JOIN b on (a.key = b.key

Hive 优化

　　　　Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。

　　列裁剪（Column Pruning）

　　　　在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询：

　　　　SELECT a,b FROM T WHERE e

　　　　其中，T 包含 5 个列 (a,b,c,d,e)，列 c，d 将会被忽略，只会读取a, b, e 列

　　　　这个选项默认为真： hive.optimize.cp = true

　　分区裁剪（Partition Pruning）

　　　　在查询的过程中减少不必要的分区。例如，对于下列查询：

　　　　SELECT * FROM (SELECT c1, COUNT(1)
　　　　FROM T GROUP BY c1) subq
　　　　WHERE subq.prtn = 100;
　　　　SELECT * FROM T1 JOIN
　　　　(SELECT * FROM T2) subq ON (T1.c1=subq.c2)
　　　　WHERE subq.prtn = 100;

　　　　会在子查询中就考虑 subq.prtn = 100 条件，从而减少读入的分区数目。

　　　　此选项默认为真：hive.optimize.pruner=true

　　Join

　　　　在使用写有 Join 操作的查询语句时有一条原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生 OOM 错误的几率。对于一条语句中有多个 Join 的情况，如果 Join 的条件相同，比如查询：

　　　　INSERT OVERWRITE TABLE pv_users
　　　　SELECT pv.pageid, u.age FROM page_view p
　　　　JOIN user u ON (pv.userid = u.userid)
　　　　JOIN newuser x ON (u.userid = x.userid);

如果 Join 的 key 相同，不管有多少个表，都会则会合并为一个 Map-Reduce
一个 Map-Reduce 任务，而不是 ‘n’ 个
在做 OUTER JOIN 的时候也是一样

　　　　如果 Join 的条件不相同，比如：

  　　　　INSERT OVERWRITE TABLE pv_users
　　　　SELECT pv.pageid, u.age FROM page_view p
　　　　JOIN user u ON (pv.userid = u.userid)
　　　　JOIN newuser x on (u.age = x.age);

　　Map-Reduce 的任务数目和 Join 操作的数目是对应的，上述查询和以下查询是等价的：

  　　　　INSERT OVERWRITE TABLE tmptable
　　　　SELECT * FROM page_view p JOIN user u
　　　　ON (pv.userid = u.userid);
　　　　INSERT OVERWRITE TABLE pv_users
　　　　SELECT x.pageid, x.age FROM tmptable x
　　　　JOIN newuser y ON (x.age = y.age);

　　Map Join

　　　　Join 操作在 Map 阶段完成，不再需要Reduce，前提条件是需要的数据在 Map 的过程中可以访问到。比如查询：

  　　　　INSERT OVERWRITE TABLE pv_users
　　　　　　SELECT /*+ MAPJOIN(pv) */ pv.pageid, u.age
　　　　　　FROM page_view pv
　　　　　　JOIN user u ON (pv.userid = u.userid);
　　相关的参数为：

hive.join.emit.interval = 1000 How many rows in the right-most join operand Hive should buffer before emitting the join result.
hive.mapjoin.size.key = 10000
hive.mapjoin.cache.numrows = 10000

　　Group By

Map 端部分聚合：
- 并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。
- 基于 Hash
- 参数包括：
- hive.map.aggr = true 是否在 Map 端进行聚合，默认为 True
- hive.groupby.mapaggr.checkinterval = 100000 在 Map 端进行聚合操作的条目数目
有数据倾斜的时候进行负载均衡
- hive.groupby.skewindata = false
- 当选项设定为 true，生成的查询计划会有两个 MR Job。第一个 MR Job 中，Map 的输出结果集合会随机分布到 Reduce 中，每个 Reduce 做部分聚合操作，并输出结果，这样处理的结果是相同的 Group By Key 有可能被分发到不同的 Reduce 中，从而达到负载均衡的目的；第二个 MR Job 再根据预处理的数据结果按照 Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce 中），最后完成最终的聚合操作。

　　合并小文件

　　　　文件数目过多，会给 HDFS 带来压力，并且会影响处理效率，可以通过合并 Map 和 Reduce 的结果文件来消除这样的影响：

- hive.merge.mapfiles = true 是否和并 Map 输出文件，默认为 True
- hive.merge.mapredfiles = false 是否合并 Reduce 输出文件，默认为 False
- hive.merge.size.per.task = 256*1000*1000 合并文件的大小

　　Hive 的扩展特性
　　　　...

你可能感兴趣的:(Hadoop之Hive篇)

上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
Kafka系列之：Dead Letter Queue死信队列DLQ 快乐骑行^_^ Kafka Kafka系列 Dead Letter Queue 死信队列 DLQ
Kafka系列之：DeadLetterQueue死信队列DLQ一、死信队列二、参数errors.tolerance三、创建死信队列主题四、在启用安全性的情况下使用死信队列更多内容请阅读博主这篇博客：Kafka系列之：KafkaConnect深入探讨-错误处理和死信队列一、死信队列死信队列（DLQ）仅适用于接收器连接器。当一条记录以JSON格式到达接收器连接器时，但接收器连接器配置期望另一种格式，如
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
AI 图像编辑提示词参考之：背景替换
在AI图像编辑中（以FluxKontext为例），“替换背景”（BackgroundReplacement）是提升图像表现力的关键手段之一。但背景更换不仅仅是简单的视觉置换，更重要的是：确保人物主体外观不变，并与新背景在色温、色调、光影等方面自然融合。只有这样，最终图像才会呈现出“原本拍摄于该背景环境”的真实感。建议使用以下结构组织提示词：Replacethebackgroundwith[新背景]
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
Ajax之核心语法详解 AA-代码批发V哥 Ajax/Axios ajax
Ajax之核心语法详解一、Ajax的核心原理与优势1.1什么是Ajax？1.2Ajax的优势二、XMLHttpRequest：Ajax的核心对象2.1XHR的基本使用流程2.2核心属性与事件解析2.2.1`readyState`：请求状态2.2.2`status`：HTTP状态码2.2.3响应数据属性2.2.4常用事件三、HTTP请求方法与数据传递3.1GET请求：获取数据3.2POST请求：提交
JavaScript之DOM操作与事件处理详解 AA-代码批发V哥 JavaScript javascript
JavaScript之DOM操作与事件处理详解一、DOM基础：理解文档对象模型二、DOM元素的获取与访问2.1基础获取方法2.2集合的区别与注意事项三、DOM元素的创建与修改3.1创建与插入元素3.2修改元素属性与样式3.2.1属性操作3.2.2样式操作3.3元素内容的修改四、DOM元素的删除与替换4.1删除元素4.2替换元素五、事件处理：实现页面交互5.1事件绑定的三种方式5.1.1HTML属性
V少JS基础班之第五弹 V少在逆向 JS基础班 javascript 开发语言 ecmascript
文章目录一、前言二、本节涉及知识点三、重点内容1-函数的定义2-函数的构成1.函数参数详解1）参数个数不固定2）默认参数3）arguments对象（类数组）4）剩余参数（Rest参数）5）函数参数是按值传递的6）解构参数传递7）参数校验技巧（JavaScript没有类型限制，需要手动校验）2.函数返回值详解3-函数的分类1-函数声明式：2-函数表达式：3-箭头函数：4-构造函数：5-IIFE：6-
Javaweb学习之Vue模板语法（三）不要数手指啦 vue.js 学习前端
目录学习资料前情回顾本期介绍（vue模板语法）文本插值Vue的Attribute绑定使用JavaScript表达式综合实例代码：学习资料Vue.js-渐进式JavaScript框架|Vue.js(vuejs.org)前情回顾项目的创建大家可以看这篇文章Vue学习之项目的创建-CSDN博客本期介绍（vue模板语法）首先，找到我们编写代码的地方找到自己项目的src文件夹，打开之后点击component
Vue框架之模板语法全面解析 AA-代码批发V哥 Vue vue.js
Vue框架之模板语法全面解析一、模板语法的核心思想二、插值表达式：数据渲染的基础2.1基本用法：渲染文本2.2纯HTML渲染：`v-html`指令2.3一次性插值：`v-once`指令三、指令系统：控制DOM的行为3.1条件渲染：`v-if`与`v-show`3.1.1`v-if`：动态创建/销毁元素3.1.2`v-else`与`v-else-if`：条件分支3.1.3`v-show`：动态显示/
【Android】安卓四大组件之广播接收器（Broadcast Receiver）：从基础到进阶 m0_59734531 Android android java Boradcast 安卓四大组件
在Android开发中，广播接收器（BroadcastReceiver）是一个非常重要的组件，它能帮助应用接收来自系统或其他应用的事件通知，实现跨组件、跨应用的通信。大家可以把广播接收器想象成一个“收音机”。它的作用是监听系统或应用发出的“广播消息”，并在收到消息后执行相应的操作。（一）基础概念BroadcastReceiver用于监听系统或应用发出的广播事件，实现跨组件通信。其特点是发送方无需关
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
上位机知识篇---文件系统 Atticus-Orion 上位机知识篇文件系统 windows linux FAT NTFS ext4 ZFS
文章目录前言1.FAT（FileAllocationTable）版本FAT12FAT16FAT32优势兼容性好简单轻量适合小文件存储劣势不支持大文件性能较差缺乏高级功能使用场景2.NTFS（NewTechnologyFileSystem）优势支持大文件和大分区高性能日记功能权限控制劣势兼容性差不适合嵌入式设备使用场景3.exFAT（ExtendedFileAllocationTable）优势支持大
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Hadoop之Hive篇

1. hive是针对什么问题提出的？ 之前有什么解决方案吗？

2. hive在数据类型上与普通的SQL有什么区别？

3. hive在语法上与标准的SQL有什么区别？ 以及原由是什么？

4. Hive是如何存放数据的？或者说其数据的组织形式是什么样的？

5. Hive数据的序列化与反序列化，是如何完成的？

6. Hive支持哪些文件格式？即Hive数据文件会被存放成什么的格式？

7. Hive 的架构形式是什么样的？有哪些组件？

8. DDL与metadata的关系？

9. Hive的常用操作

查询语言

数据存储位置

数据格式

数据更新

索引

执行

执行延迟

可扩展性

数据规模

HQL

SQL

Loading files into table

SELECT

Join

列裁剪（Column Pruning）

分区裁剪（Partition Pruning）

Join

Map Join

Group By

合并小文件

你可能感兴趣的:(Hadoop之Hive篇)

1. hive是针对什么问题提出的？之前有什么解决方案吗？

3. hive在语法上与标准的SQL有什么区别？以及原由是什么？

　　Loading files into table

　　SELECT

　　Join

　　列裁剪（Column Pruning）

　　分区裁剪（Partition Pruning）

　　Join

　　Map Join

　　Group By

　　合并小文件