fx67ll

2023 Hive 面试宝典

先说一些废话

总结一下Hive面试宝典，方便读者快速过一遍Hive面试所需要的知识点

Hive的介绍

Hive和Hadoop的关系

Hive利用hdfs存储数据，利用MapReduce查询数据
Hive的数据存储在hdfs上，简单的说Hive就是hdfs的简单一种映射，比如：Hive的一张表映射hdfs上的一个文件，Hive的一个数据库就映射为hdfs上的文件夹
Hive是一个计算框架，他是MapReduce的一种封装，实际上他的底层还是MR，Hive就是用人们熟悉的sql对数据进行分析的
Hive执行程序是运行在Yarn上的

Hive的特点

Hive可以自由的扩展集群的规模，一般情况下不需要重启服务（世界上最大的Hadoop集群在Yahoo!，2009年的规模在4000台节点左右）
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数（可能会引申自定义函数）
良好的容错性，节点出现问题SQL仍可完成执行（可能会拓展数据倾斜相关问题，或者直接问你你工作中有没有遇到这样的问题）

Hive的缺点

Hive的HQL表达能力有限。迭代式算法无法表达；数据挖掘方面不擅长
Hive的效率比较低。Hive自动生成的MapReduce作业，通常情况下不够智能化；Hive调优比较困难，粒度较粗
Hive执行延迟
- Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高
- 另外一个导致 Hive 执行延迟高的因素是 MapReduce框架，由于MapReduce 本身具有较高的延迟，因此在利用MapReduce 执行Hive查询时，也会有较高的延迟
- 相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势

Hive常见的应用场景

日志分析：大部分互联网公司使用Hive进行日志分析，包括百度、淘宝等
- 统计网站一个时间段内的pv、uv
- 多维度数据分析
海量结构化数据离线分析

Hive和mysql的区别

Hive采用了类SQL的查询语言HQL（hive query language），除了HQL之外，其余无任何相似的地方，Hive是为了数据仓库设计的
存储位置：Hive在Hadoop上；mysql将数据存储在设备或本地系统中
数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD
索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；mysql有索引，适合在线查询数据
执行：Hive底层是MarReduce；mysql底层是执行引擎
可扩展性：Hive：大数据量，慢慢扩去吧；mysql:相对就很少了

Hive的架构

# Hive架构简易示意

Meta Store -> 
Client (CLI/JDBC/WebGUI + 
		Driver/驱动 + 
		SQL Parser/解析器 + 
		Physical Plan/编译器 + 
		QueryOptimizer/优化器 + 
		Execution/执行器) ->
MapReduce ->
HDFS

用户接口：Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）
- 其中最常用的是 CLI shell 命令行，CLI 启动的时候，会同时启动一个Hive副本
- WUI 是通过浏览器访问 Hive，默认端口是9999
- Client 是Hive的客户端，，在启动 Client模式的时候，需要指出 Hive Server 所在节点，并且在该节点启动 Hive Server
- JDBC/ODBC用 JAVA 实现，与传统数据库 JDBC 类似
元数据存储：通常是存储在关系数据库如 mysql , derby中
- Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等
解释器、编译器、优化器、执行器
- 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成
- 生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行（注意！！！包含*的查询，比如select * from tbl不会生成MapRedcue任务）
- ===============================================================
- 解析器（parser）：将查询字符串转化为解析树表达式
- ===============================================================
- 编译器（physical plan）：分为语义分析器（semantic analyzer）和 逻辑策略生成器（logical plan generator）
- 语义分析器（semantic analyzer）：将解析树表达式转换为基于块（block-based）的内部查询表达式
- 逻辑策略生成器（logical plan generator）：将内部查询表达式转换为逻辑策略，这些策略由逻辑操作树组成
- ===============================================================
- 优化器（optimizer）：通过逻辑策略构造多途径并以不同方式重写

Hive的数据

Hive的数据模型

Hive中所有的数据都存储在hdfs中，没有专门的数据存储格式（可支持TextFile，SequenceFile，ParquetFile，RCFILE等）
只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据
Hive中包含以下数据模型：DB、Table、External Table、Partition、Bucket
- DB：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
- Table：在hdfs中表现所属db目录下一个文件夹，普通表删除表后，hdfs上的文件都删了
- External Table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径，外部表删除后，hdfs上的文件没有删除，只是把文件删除了
- Partition：在hdfs中表现为table目录下的子目录
- Bucket：桶在hdfs中表现为同一个表目录下根据hash散列之后的多个文件，会根据不同的文件把数据放到不同的文件中

Hive的底层如何存储Null值

Null在Hive底层默认是用’\N’来存储的
能够经过alter table test SET SERDEPROPERTIES('serialization.null.format' = 'a');来修改

Hive中元数据`metadata`和元数据商店`metastore`的作用

metadata即元数据，元数据包含用Hive创建的database、tabel等的元信息，元数据存储在关系型数据库(RDBMS)中，如derby、mysql等
metastore的作用是：客户端连接metastore服务，metastore再去连接mysql数据库来存取元数据，
有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道mysql数据库的用户名和密码，只需要连接metastore服务即可

Hive有哪些保存元数据`metadata`的方式

内嵌模式：将元数据保存在本地内嵌的derby数据库中，内嵌的derby数据库每次只能访问一个数据文件，也就意味着它不支持多会话连接，适用于用来实验，不适用于生产环境
本地模式：将元数据保存在本地独立的数据库中（一般是mysql），这可以支持多会话连接
远程模式：把元数据保存在远程独立的mysql数据库中，避免每个客户端都去安装mysql数据库
需要注意的是：内存数据库derby，安装小，但是数据存在内存，不稳定。mysql数据库，数据存储模式可以自己设置，持久化好，查看方便

Hive元数据存储方式中，本地模式和远程模式的区别

本地元存储和远程元存储都采用外部数据库来存储元数据
本地元存储不需要单独起metastore服务，用的是跟Hive在同一个进程里的metastore服务
远程元存储需要单独起metastore服务，然后每个客户端都在配置文件里配置连接到该metastore服务，远程元存储的metastore服务和Hive运行在不同的进程

Hive的数据类型

基本数据类型，因为Hive的底层是用java开发，所以基本数据类型和java保持一致
- 整型 tinyint(字节整型) / smallint(短整型) / int(整型) / bigint(长整型)，分别占用1/2/4/8个字节，等价于java的 byte/short/int/long
- 浮点型 float(浮点型) / double(双精度浮点型)，分别占用4/8个字节，等价于java的 float/double
- 字符型 string，等价于数据库的 varchar，可变字符串，理论上可以存储2GB的字节
- 布尔型 boolean，等价于java的 boolean
复杂数据类型
- array/map，等价于java的array/map
- struct，等价于c语言中的struct
类型转换
- Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换
- 例如某表达式使用 int 类型，tinyint 会自动转换为 int 类型
- 但是 Hive 不会进行反向转化，例如，某表达式使用 tinyint 类型，int 不会自动转换为 tinyint 类型，它会返回错误，除非使用 CAST 操作
- ===============================================================
- 可以使用 CAST 操作显示进行数据类型转换
- 例如 CAST(‘1’ AS INT) 将把字符串’1’ 转换成整数 1
- 如果强制类型转换失败，如执行 CAST(‘X’ AS INT)，表达式返回空值 NULL

Hive的隐式类型转换规则

任何整数类型都可以隐式地转换为一个范围更广的类型，如 tinyint 可以转换成 int，int 可以转换成 bigint
所有整数类型、float 和 string 类型都可以隐式地转换成 double
tinyint、smallint、int 都可以转换为 float
boolean 类型不可以转换为任何其它的类型

Hive数据存储所使用的文件格式

默认是TextFile文件格式
- 文本格式，Hive的默认格式，数据不压缩，磁盘开销大、数据解析开销大
- 对应的Hive API为：org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTextOutputFormat;
- 可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但是使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作
RCFile文件格式
- RCFile是一种行列存储相结合的存储方式，先将数据按行进行分块再按列式存储，保证同一条记录在一个块上，避免读取多个块，有利于数据压缩和快速进行列存储
- 对应Hive API为：org.apache.hadoop.hive.ql.io.RCFileInputFormat和org.apache.hadoop.hive.ql.io.RCFileOutputFormat;

ORCFile文件格式

数据按行分块，每块按照列存储，不是真正意义上的列存储，可以理解为分段列存储
用于降低Hadoop数据存储空间和加速Hive查询速度
ORCfile特点是压缩比比较高，压缩快，快速列存取，是RCfile的改良版本，相比RCfile能够更好的压缩，更快的查询
需要注意的是ORC在读写时候需要消耗额外的CPU资源来压缩和解压缩，当然这部分的CPU消耗是非常少的
优点：

每个task只输出单个文件，减少namenode负载；
支持各种复杂的数据类型，比如：datetime，decima以及复杂类型struct、list、map；
文件中存储了一些轻量级的索引数据；
基于数据类型的块模式压缩：integer类型的列用行程长度编码，string类型的列使用字典编码；
用多个相互独立的recordReaders并行读相同的文件
无需扫描markers即可分割文件
绑定读写所需内存
metadata存储用protocol buffers，支持添加和删除列

SequenceFile文件格式
- Hadoop提供的二进制文件，Hadoop支持的标准文件
- 数据直接序列化到文件中，SequenceFile文件不能直接查看，可以通过Hadoop fs -text查看
- SequenceFile具有使用方便、可分割、可压缩、可进行切片，压缩支持NONE、RECORD、BLOCK（优先）
- 对应Hive API：org.apache.hadoop.mapred.SequenceFileInputFormat和org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat;
Parquet文件格式
- 二进制存储，面向分析性的存储格式
- 能够很好的压缩，同时减少大量的表扫描和反序列化的时间，有很好的查询性能，支持有限的模式演进，但是写速度通常比较慢
- Parquet文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的
总结
- TextFile 存储空间消耗比较大，并且压缩的text无法分割和合并查询的效率最低，可以直接存储，加载数据的速度最高
- SequenceFile 存储空间消耗最大，压缩的文件可以分割和合并，查询效率高
- ORCFile / RCFile 存储空间最小，查询的效率最高，加载的速度最低
- Parquet 格式是列式存储，有很好的压缩性能和表扫描功能
- SequenceFile / ORCFile / RCFile 格式的表不能直接从本地文件导入数据，数据要先导入到TextFile格式的表中，
  然后再从TextFile表中导入到SequenceFile/ORCFile/RCFile表中

Hive中使用的压缩算法

我们原始数据使用的是LZO的压缩格式，因为原始数据比较大，所以选择了支持切割的LZO压缩
清洗过的数据存到DWD层，我们在DWS中需要对清洗后的数据进行分析，所以我们DWD层使用的存储格式是Parquet，压缩格式是Snappy
之前我们压缩还遇到过一个问题，当时之前的项目中使用的是Snappy+ORC存储，后来我发现使用Snappy+ORC 存储比ORC单独存储还多占用了近一半的空间
后来我又对各个压缩格式及存储格式的结合做了一个测试，最终单独使用ORC存储节省了大量的空间
Snappy压缩格式
- 其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4，在不同的测试场景中，会有差异，这仅仅是一个大概的排名情况
- bzip2、zlib、gzip、deflate可以保证最小的压缩，但在运算中过于消耗时间
- 从压缩性能上来看：lz4 > lzo > snappy > deflate > gzip > bzip2，其中lz4、lzo、snappy压缩和解压缩速度快，压缩比低
- 所以一般在生产环境中，经常会采用lz4、lzo、snappy压缩，以保证运算效率

什么是数据可分割

在考虑如何压缩那些将由MapReduce处理的数据时，考虑压缩格式是否支持分割是很重要的。
考虑存储在HDFS中的未压缩的文件，其大小为1GB，HDFS的块大小为64MB，所以该文件将被存储为16块。
将此文件用作输入的MapReduce作业会创建1个输人分片（split，也称为“分块”。对于block，我们统一称为“块”。）
每个分片都被作为一个独立map任务的输入单独进行处理
现在假设，该文件是一个gzip格式的压缩文件，压缩后的大小为1GB。和前面一样，HDFS将此文件存储为16块。
然而，针对每一块创建一个分块是没有用的，因为不可能从gzip数据流中的任意点开始读取，map任务也不可能独立于其他分块只读取一个分块中的数据。
gzip格式使用DEFLATE来存储压缩过的数据，DEFLATE将数据作为一系列压缩过的块进行存储。
问题是，每块的开始没有指定用户在数据流中任意点定位到下一个块的起始位置，而是其自身与数据流同步。
因此，gzip不支持分割(块)机制。
在这种情况下，MapReduce不分割gzip格式的文件，因为它知道输入是gzip压缩格式的(通过文件扩展名得知)，而gzip压缩机制不支持分割机制。
因此一个map任务将处理16个HDFS块，且大都不是map的本地数据。
与此同时，因为map任务少，所以作业分割的粒度不够细，从而导致运行时间变长。

关于压缩模式说明

压缩模式评价：

可使用以下三种标准对压缩方式进行评价：
压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好。
压缩时间：越快越好。
已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更好的并行化。

压缩模式对比

BZip2有最高的压缩比但也会带来更高的CPU开销，Gzip较BZip2次之。
如果基于磁盘利用率和I/O考虑，这两个压缩算法都是比较有吸引力的算法。
LZO和Snappy算法有更快的解压缩速度，如果更关注压缩、解压速度，它们都是不错的选择。 
LZO和Snappy在压缩数据上的速度大致相当，但Snappy算法在解压速度上要较LZO更快。
Hadoop的会将大文件分割成HDFS block(默认64MB)大小的splits分片，每个分片对应一个Mapper程序。
在这几个压缩算法中 BZip2、LZO、Snappy压缩是可分割的，Gzip则不支持分割。

Hive的安装与使用

当前版本请阅读以下参考资料，后期再行完善

hive的安装和使用
Hive入门及常用指令
更多进阶内容请自行百度拓展查阅

如何在Hive中集成HBase

将Hbase的客户端jar拷贝至Hive/lib目录下
修改hive/conf下的hive-site.xml配置文件，添加如下属性：
```
	hbase.zookeeper.quorum
	hadoop
```
启动Hive，创建表管理表hbase_table_1，指定数据存储在Hbase表中，主要是通过stored by HBaseStorageHandler类来实现
往Hive表hbase_table_1表中插入数据

如何通过 HiveSQL 来直接读写 HBase

当前版本请阅读以下参考资料，后期再行完善

如何整合hive和hbase
HiveHbase集成实践
更多进阶内容请自行百度拓展查阅

Hive的分区和分桶

Hive的分区分桶都是数据存储和组织的策略，分区类似文件的分类归档，分桶类似于传统数据库的索引

什么是Hive分区

Hive中数据库，表，及分区都是在HDFS存储的一个抽象
Hive中的一个分区对应的就是HDFS的一个目录，目录名就是分区字段
声明分区表 PARTITIONED BY (name string)，分区键不能和任何列重名
声明数据要导入的分区 PARTITION(name="fx67ll")
查看分区 SHOW PARTITIONAS
根据分区查询 WHERE name = "fx67ll"

指定切分格式

ROW FORMAT DELIMITED
# 每个字段之间由[ , ]分割
FIELDS TERMINATED BY ','
# 字段是Array形式，元素与元素之间由[ - ]分割
COLLECTION ITEMS TERMINATED BY '-'
# 字段是K-V形式，每组K-V对内部由[ : ]分割
MAP KEYS TERMINATED BY ':';

Hive分区的优点

如果一个表中有大量的数据，我们全部拿出来做查词的功能，耗时比较长，查询较慢，
使用了分区，就可以做到用到了那个分区就拿那个分区中的数据方便了查询，提高了查词的效率
横向分配数据，使得负载更为均衡

Hive分区的缺点

容易造成过多的小分区，过多的目录
如果分区策略不佳，容易导致分区数据不均衡，造成数据倾斜

什么是Hive分桶

分桶是相对分区进行更细粒度的划分，分桶将整个数据内容按照某列属性值得hash值进行区分，类似于关系型数据的索引
如要安装id属性分为3个桶，就是对id属性值的hash值对3取摸，按照取模结果对数据分桶，
如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件
分桶之前要执行命令 set hive.enforce.bucketing = true
声明分桶表 CLUSTERED BY(id) INTO 3 BUCKETS

关于Hive索引的说明

即从3.0开始索引已经被移除，有一些可替代的方案可能与索引类似：
- 具有自动重写的物化视图可以产生非常相似的结果，Hive2.3.0增加了对物化视图视图的支持
- 使用列式文件格式（(Parquet、ORC）–他们可以进行选择性扫描；甚至可以跳过整个文件/块。很显然，例如我们创建表时使用的ORC格式就已经具有了索引的功能
Hive为什么删除了索引：
- 由于Hive是针对海量数据存储的，创建索引需要占用大量的空间，最主要的是Hive索引无法自动进行刷新，也就是当新的数据加入时候，无法为这些数据自动加入索引

Hive分桶的优点

分桶字段需要根据业务进行设定，可以解决数据倾斜问题，主要是在关联join的时候通过map端更快的连接
能够提供类似的哈希的快速响应，比分区更快

Hive分桶的缺点

需要在建表时规划好分桶策略，需要手动加载数据到分桶表
本质是空间换时间，时间换效率，所以在加载数据到表的时候有空间和时间上的消耗

Hive中静态分区和动态分区的区别

静态分区与动态分区的主要区别在于静态分区是手动指定，而动态分区是通过数据来进行判断
详细来说，静态分区的列实在编译时期，通过用户传递来决定的；动态分区只有在SQL执行时才能决定
查询和写入的时候，静态分区键要用 = 指定分区值；动态分区只需要给出分出分区键名称
一张表可同时被静态和动态分区键分区，只是动态分区键需要放在静态分区建的后面，因为HDFS上的动态分区目录下不能包含静态分区的子目录

Hive动态分区的参数设定

开启动态分区

# 开启动态分区功能，默认false  
set hive.exec.dynamic.partition = true  
# 允许所有分区都是动态的，否则必须有静态分区字段，默认strict  
set hive.exec.dynamic.partition.mode = nonstrict

动态分区参数调优

# 每个mapper或reducer可以允许创建的最大动态分区个数，默认是100，超出则会报错  
set hive.exec.max.dynamic.partitions.pernode = 1000
# 一个动态分区语句可以创建的最大动态分区个数，默认是1000，超出报错
set hive.exec.max.dynamic.partitions = 10000  
# 全局可以创建的最大文件个数，默认是10000，超出报错  
set hive.exec.max.created.files =100000

Hive的内部表和外部表

什么是Hive的内部表和外部表

没有external修饰，表数据保存在Hive默认的路径下，数据完全由Hive管理，删除表时元数据(metadata)和表数据都会一起删除
有external修饰，表数据保存在HDFS上，该位置由用户指定，删除表时，只会删除表的元数据(metadata)

Hive内部表和外部表的区别是什么

内部表数据由Hive自身管理，外部表数据由HDFS管理
内部表数据存储的位置是hive.metastore.warehouse.dir，默认是 /user/hive/warehouse
外部表数据的存储位置由自己制定，如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里
删除内部表会直接删除元数据(metadata)及存储数据
删除外部表仅仅会删除元数据(metadata)，HDFS上的文件并不会被删除
对内部表的修改会将修改直接同步给元数据(metadata)，而对外部表的表结构和分区进行修改，则需要修复 MSCK REPAIR TABLE table_name

生产环境中为什么建议使用外部表

因为外部表不会加载数据到Hive，减少数据传输，数据还能共享
Hive不会修改数据，所以无需担心数据的损坏
删除表时，只删除表结构，不删除数据

Hive SQL

Hive中的SQL如何转化成MapReduce任务的

Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树
遍历抽象语法树抽象出查询的基本组成单元 QueryBlock
遍历QueryBlock ，翻译为执行操作树OperatorTree
逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量
遍厉OperatorTree，翻译为MapReduce任务
物理层优化器进行MapReduce任务的变换，生成最终的执行计划

什么情况下Hive不走MapReduce任务

Hive中如何查询A表中B表不存在的数据

题目：A、B两表，找出ID字段中，存在A表，但是不存在B表的数据。A表总共13w数据，去重后大约3W条数据，B表有2W条数据，且B表的ID字段有索引

select * from  B
where (select count(1) as num from A where A.ID = B.ID) = 0

Hive中有哪些连接查询以及如何使用

当前版本请阅读以下参考资料，后期再行完善

Hive——join的使用
更多进阶内容请自行百度拓展查阅

Hive中左连接和内连接的区别

内连接：连接的键匹配上就连接，没有匹配上就过滤掉
左连接：以左表为基准，与右表做关联，关联上则连接，右表关联不上的则为null

Hive中左连接的底层原理

参考下面Hive查询的时候on和where有什么区别的理解二

Hive查询的时候 ON 和 WHERE 有什么区别

共同点

on先执行，where后执行
并且where是对连接之后的结果进行的查询条件

第一种理解方式

条件不为主表条件的时候，放在on和where的后面一样
条件为主表条件的时候，放在on后面，结果为主表全量，放在where后面的时候为主表条件筛选过后的全量

1. select * from a left join b on a.id = b.id and a.dt=20181115;
2. select * from a left join b on a.id = b.id and b.dt=20181115;
3. select * from a join b on a.id = b.id and a.dt=20181115;
4. select * from a left join b on a.id = b.id  where a.dt=20181115;
sql1: 如果是left join 在on上写主表a的条件不会生效，全表扫描。
sql2: 如果是left join 在on上写副表b的条件会生效，但是语义与写到where 条件不同
sql3: 如果是inner join 在on上写主表a、副表b的条件都会生效
sql4: 建议这么写，大家写sql大部分的语义都是先过滤数据然后再join，所以在不了解join on+条件的情况下，条件尽量别写在on后，
直接写到where后就ok了，如果where条件后写b表的过滤条件，就变成了先left join出结果再按照b条件过滤数据

第二种理解方式

on是在生成连接表的起作用的，where是生成连接表之后对连接表再进行过滤
当使用left join时，无论on的条件是否满足，都会返回左表的所有记录，对于满足的条件的记录，两个表对应的记录会连接起来，对于不满足条件的记录，那右表字段全部是null
当使用right join时，类似，只不过是全部返回右表的所有记录
当使用inner join时，功能与where完全相同

经过亲测后，更加深了对on和where的理解，得出以下结论：

1.ON后的条件如果有过滤主表的条件，则结果对于不符合该条件的主表数据也会原条数保留，只是不匹配右表数据而已。对于on后面对右表的过滤条件，连接时会用该条件直接过滤右表数据后再和左边进行左连接。总之，对于不满足on后面的所有条件的数据，左表会在结果数据中原条数保留数据，只是不匹配右表数据而已。不满足条件的右表数据各字段会直接以NULL连接主表。
2.ON后对左表的筛选条件对于结果行数会被忽略，但会影响结果中的匹配右表数据，因为只有符合左表条件的数据才会去和符合条件的右表数据进行匹配，不符合条件的左表数据会保留在最后结果中，但匹配的右表数据都是NULL.因此，对于需要过滤左表数据的话，需要把过滤条件放到where后面。
3.ON后的左表条件（单独对左表进行的筛选条件）对于结果行数无影响，还是会返回所有左表的数据，但和右表匹配数据时，系统只会拿左表符合条件（ON后的对左表过滤条件）的数据去和右表符合条件（ON后的对右表过滤条件）的数据进行匹配抓取数据，而不符合条件的左表数据还是会出现在结果列表中，只是对应的右表数据都是NULL。
4.ON后的右表条件（单独对右表进行的筛选条件）会先对右表进行数据筛选后再和左表做连接查询，对结果行数有影响（当左表对右表是一对多时），但不会影响左表的显示行数，然后拿符合条件的右表数据去和符合条件的左表数据进行匹配。
5.Where还是对连接后的数据进行过滤筛选，这个无异议。
6.匹配数据时无论左右表，都是拿符合ON后的过滤条件去做数据匹配，不符合的会保留左表数据，用NULL填充右表数据。

综上得出，ON后面对于左表的过滤条件，在最后结果行数中会被忽略，并不会先去过滤左表数据再连接查询，但是ON后的右表条件会先过滤右表数据再连接左表进行查询。
连接查询时，都是用符合ON后的左右表的过滤条件的数据进行连接查询，只有符合左右表过滤条件的数据才能正确匹配，剩下的左表数据会正常出现在结果集中，但匹配的右表数据是NULL。因此对于左表的过滤条件切记要放到Where后，对于右表的过滤条件要看情况了。如果需要先过滤右表数据就把条件放到ON后面即可。

Hive 函数

关于 UDF/UDAF/UDTF 的提问

如何使用UDF/UDAF/UDTF
为什么使用UDF/UDAF/UDTF
你写过什么样的UDF/UDAF/UDTF
Hive自定义函数实现了什么函数
上述四个问题自行参考资料并结合工作中实际场景来作答，没有标准答案

Hive中如何去重

第一种方式：使用 `DISTINCT`

对select 后面所有字段去重，并不能只对一列去重
当DISTINCT应用到多个字段的时候，DISTINCT必须放在开头，其应用的范围是其后面的所有字段，而不只是紧挨着它的一个字段，而且DISTINCT只能放到所有字段的前面
DISTINCT对NULL是不进行过滤的，即返回的结果中是包含NULL值的
聚合函数中的DISTINCT,如count()会过滤掉为NULL

第二种方式：使用 `GROUP BY`

对GROUP BY后面所有字段去重，并不能只对一列去重

第三种方式：使用 `ROW_NUMBER() OVER` 窗口函数

参考资料一：一种巧妙的hive sql数据去重方法
参考资料二：Hive–数据去重及row_number()
参考资料三：Hive(十一)–数据去重及row_number()

Hive中排序函数的使用方式及区别

order by 会对输入做全局排序，为保证全局的排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，则sort by只保证每个reducer的输出有序，不保证全局有序。
distribute by 字段 根据指定的字段将数据分到不同的reducer，且分发算法是hash散列，常用sort by结合使用，Hive要求distribute by语句要写在sort by语句之前。
cluster by 字段 除了具有distribute by的功能(既可以把数据分到不同的reduce)外，还会对该字段进行排序。但是排序只能是倒序排序，不能指定排序规则为asc或者desc
因此：
- 当数据量规模较大时，不使用 order by，使用用 distribute by + sort by
- 如果 distribute by 和 sort by 字段是同一个时，此时，cluster by = distribute by + sort by

Hive中部分高频函数 ———— `split` / `coalesce` / `collect list` / `collect set`

Hive ———— split
Hive ———— coalesce
Hive ———— collect list/collect set

Hive常用函数

Hive常用的函数总结
Hive函数大全

Hive 运维

如何监控一个提交后的Hive状态

使用java代码提交Hive，通过HiveStatement获取日志数据并解析出application_id
就可以通过application_id去yarn上查看运行状态

Hive 优化

该模块请参考我关于Hive优化的文章

点击访问 ————> Hive在工作中的调优总结
点击访问 ————> HiveSQL工作实战总结

我是 fx67ll.com，如果您发现本文有什么错误，欢迎在评论区讨论指正，感谢您的阅读！
如果您喜欢这篇文章，欢迎访问我的本文github仓库地址，为我点一颗Star，Thanks~
转发请注明参考文章地址，非常感谢！！！

你可能感兴趣的:(大数据开发文档,hive,面试,hadoop)

Java开发高级工程师面试，etcd：一款比Redis更骚的分布式锁的实现方式 m0_60732427 程序员面试 java 后端
Watch机制支持Watch某个固定的key，也支持Watch一个范围（前缀机制）。当被Watch的key或范围发生变化，客户端将收到通知；在实现分布式锁时，如果抢锁失败，可通过Prefix机制返回的Key-Value列表获得Revision比自己小且相差最小的key（称为pre-key），对pre-key进行监听，因为只有它释放锁，自己才能获得锁，如果Watch到pre-key的DELETE事件
数据分析面试全攻略：业务分析能力篇代码CC 数据分析（包括各种面试题）面试数据分析面试 python sql
前言：业务分析能力考察重点在数据分析岗位面试中，业务分析能力是区分初级与中高级候选人的核心要素。本篇将从指标设计、异常分析、用户增长三大模块，解析业务分析能力提升路径。一、指标设计：用数据定义业务价值1.1用户留存分析体系留存率计算模型定义公式：次日留存率=第2天活跃用户数/首日新增用户数×100%7日留存率=第8天活跃用户数/首日新增用户数×100%SQL计算模板：WITHfirst_login
数据集与云计算：云端数据集的管理与应用 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1大数据时代的数据挑战步入21世纪，我们见证了信息技术的爆炸式增长，数据以前所未有的速度产生、存储和使用。从社交媒体互动到科学研究，从电子商务交易到物联网传感器，各行各业都被海量数据所淹没。这种数据爆炸式增长带来了前所未有的机遇和挑战。1.1.1机遇：数据驱动型决策数据的激增为企业和组织提供了前所未有的洞察力。通过分析和理解这些数据，我们可以识别趋势、预测未来行为并做出更明智的决策
面试必备：Kafka高频面试题及答案解析江-小北面试 kafka 职场和发展
本文，已收录于，我的技术网站aijiangsir.com，有大厂完整面经，工作技术，架构师成长之路，等经验分享Kafka中的ProducerAPI是如何工作的？Kafka中的ProducerAPI允许应用程序发布一流的数据到一个或多个Kafka主题。它的工作原理包括：1、创建Producer实例：通过配置Producer的各种属性（如服务器地址、序列化方式等）来创建Producer实例。2、发送消
AI 大模型应用数据中心建设：数据中心成本优化杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AI大模型应用数据中心建设：数据中心成本优化1.背景介绍在人工智能（AI）和大模型应用的快速发展中，数据中心（DataCenter）成为了一个至关重要的组成部分。无论是进行深度学习模型的训练，还是大模型应用的推理，数据中心都需要提供充足的计算资源、存储空间和网络带宽。随着AI模型和大数据量的增长，数据中心的建设和管理成本逐渐成为AI技术落地和应用的核心挑战之一。为了优化数据中心成本，同时保持高性能
Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
Vue中Scoped的原理及深度解析喜欢代码的新之助 vue.js 前端 javascript
Vue中Scoped的原理及深度解析前言回想起几年前初入职场时，面对面试官的提问“Vue中Scoped的原理是什么？”时，我的回答虽然勉强过关，但内心却充满了不确定。那时，我对知识的理解还停留在表面，只能依靠死记硬背。如今，经过几年的开发经验积累，再次审视这个问题，我有了更深入的理解。CSS常见模块化方案在前端开发中，CSS模块化是一个重要的话题。常见的CSS模块化方案包括：BEM方案：通过.bl
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
CCF-GESP Python一级考试全解析：网络协议+编程技能双突破奕澄羽邦 python 网络协议开发语言
第一章CCF-GESP考试全景透视1.1认证体系权威性中国计算机学会（CCF）主办的GESP编程能力等级认证，是国内首个面向青少年的编程能力标准化评估体系。Python一级考试作为入门级认证，主要考察考生对计算机基础逻辑、编程工具使用及网络基础概念的掌握程度，证书受教育部认可，为后续人工智能、大数据等领域学习奠定基石。1.2考试内容三维度编程语言：Python语法基础（变量、循环、条件判断）、函数
2024年大数据最新图解curator如何实现zookeeper分布式锁_curator 锁(3) 2401_84183802 程序员分布式大数据 zookeeper
三、Zookeeper分布式锁概述1、Zookeeper分布式锁实现思路2、Zookeeper分布式锁解决的问题3、Zookeeper分布式锁优缺点？四、InterProcessMute实现分布式锁原理1、加锁流程（acquire()方法）0）加锁流程图1）internalLock()LockDatainternalLock()方法逻辑2）LockInternals#attemptLock()--
Linux(Centos 7.6)命令详解：unzip 豆是浪个 linux centos 运维
1.命令作用unzip用于在一个ZIP存档压缩文件中进行陈列/检测/提取文件(list,testandextractcompressedfilesinaZIParchive)；unzip命令是Linux系统中用于解压缩ZIP格式压缩文件的常用工具。它能够快速、方便地将ZIP文件解压到当前目录或指定目录。2.命令语法Usage:unzip[-Z][-opts[modifiers]]file[.zip
Linux(Centos 7.6)命令详解：zip 豆是浪个 linux 运维服务器
1.命令作用打包和压缩(存档)文件(packageandcompress(archive)files)；该程序用于打包一组文件进行分发；存档文件；通过临时压缩未使用的文件或目录来节省磁盘空间；且压缩文件可以在Linux、Windows和macOS中轻松提取。2.命令语法usage:zip[-options][-bpath][-tmmddyyyy][-nsuffixes][zipfilelist][
物联网通过数字孪生技术实现设备状态的实时仿真和优化小赖同学啊智能硬件物联网
数字孪生（DigitalTwin）是一种通过虚拟模型实时映射和仿真物理设备状态的技术。它结合了物联网（IoT）、大数据、人工智能（AI）和仿真技术，能够实现对设备状态的实时监控、预测和优化。以下是数字孪生技术在设备状态实时仿真和优化中的应用及实现路径：一、数字孪生的核心概念1.物理实体实际的设备或系统（如工厂设备、风力发电机、汽车）。2.虚拟模型物理实体的数字化表示，通常包括几何模型、行为模型和数
Python GUI测试实战：Selenium与PyQt的联合应用步入烟尘 Python超入门指南全册 python selenium pyqt
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
面试被问 SQL 注入一脸懵？一文读懂 SQL 注入攻防全攻略大模型大数据攻城狮数据库 sql C++面试 java面试后端面试 sql注入 sql优化
目录SQL注入概述定义与原理常见类型攻击技术指标注入点识别绕过防御机制数据提取方法防范措施参数化查询输入验证与过滤最小权限原则检测与监控漏洞扫描实时监控SQL注入概述定义与原理SQL注入是一种极具破坏力的网络攻击技术。想象一下，Web应用程序就像是一座大厦，而数据库则是大厦里存放重要文件的保险柜。正常情况下，用户通过Web应用程序向数据库发送请求，就如同员工拿着正确的钥匙去保险柜取文件。但攻击者利
数据湖架构与实时数仓实践：Hudi、Iceberg、Kafka + Flink + Spark 晴天彩虹雨架构 kafka flink 数据仓库
1.引言：数据湖与数据仓库的融合趋势在大数据时代，传统的数据仓库（DataWarehouse,DW）因其强一致性和高效查询能力，一直是企业数据分析的核心。然而，随着数据量和数据类型的爆炸式增长，传统数据仓库的存储成本和数据管理难度逐渐增加。为了解决这些问题，数据湖（DataLake）概念应运而生。数据湖能够存储原始数据，支持半结构化和非结构化数据，提供更灵活的计算框架，但其缺乏事务管理和数据一致性
笔试题6：销售区域业绩对比 clownAdam 大数据笔试题数据库 sql 大数据面试笔试数据分析
2025年3月某运营商大数据笔试题（真实）并附有解答和解析说明笔试题6销售区域业绩对比：有一份销售业绩数据文件regional_sales.csv，包含字段：region（销售区域）、product_category（产品类别）、sales_amount（销售金额）。请使用SQL完成以下任务：统计每个销售区域各类产品的总销售金额，结果按销售区域和产品类别排序。找出每个销售区域销售金额最高的产品类别
《闭包：从柯里化到内存泄漏，开发中的双刃剑》 hyyyyy！面试精选 javascript 开发语言 ecmascript 前端
鼠鼠在旁观了一些面试后觉得，闭包这个知识点经常被面试官提到，所以我想在这里做一些总结。闭包的定义闭包（Closure）是指一个函数与其引用环境（lexicalenvironment）的组合。具体来说：函数内部定义的函数（内部函数）可以访问外部函数的变量。即使外部函数已经执行完毕，内部函数仍能保留对外部函数作用域的引用，从而“记住”这些变量。用我们自己的话说就是，内部函数可以访问到外部函数但是外部函
Laravel如何实现MySQL分库分表的功能？使用场景是什么？底层原理是什么？快点好好学习吧 Laravel laravel mysql php
一、MySQL分库分表的定义1.核心定义分库（Sharding）：将数据分散到多个数据库中，以减轻单个数据库的压力。分表（Partitioning）：将一个大表拆分为多个小表，通常基于某种规则（如用户ID或时间戳）。目的：提高系统的扩展性、性能和可用性。二、使用场景1.常见使用场景高并发系统：数据量巨大且访问频率高的场景（如电商平台、社交网络）。大数据存储：单表数据量超过千万甚至亿级时，需要分表以
掌握SQL调优的艺术——从理论到实践的全方位指南 Hey! Hey! sql 数据库
在面试中提到SQL优化时，通常会涉及以下几个方面：索引优化：这是最直接也是最常见的优化手段。通过为查询条件、排序字段等创建合适的索引，可以显著提升查询效率。例如，在WHERE子句和JOIN条件中使用的列应该被索引。避免全表扫描：尽量减少或避免不必要的全表扫描。可以通过使用索引来实现这一点。如果必须进行全表扫描，确保它是在小表上执行的，并且该操作不会频繁发生。精简返回的数据量：只选择需要的字段而不是
大厂面试必考！C++ 多态底层原理 + 虚函数表，5 分钟看懂！后端c++
前言：大家好，我是小康。今天我们聊聊C++多态的底层原理。不少初学者对多态可能停留在“用虚函数表实现”这几个字，但真搞懂这几个字背后的故事了吗？如果你看完这篇文章，能直接拍着桌子说：“原来是这么回事儿！太简单了吧！”那我今天的目标就达成了。学技术不能只会用，底层的原理更要懂。尤其是多态，它可是C++的灵魂之一。今天，我们就用简单有趣的方式，拆解清楚多态的底层到底是怎么工作的。用不了多长时间，你就能
Hadoop的mapreduce的执行过程画纸仁大数据 hadoop mapreduce 大数据
一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
探秘开源项目 MapReduce：分布式计算的新篇章褚知茉Jade
探秘开源项目MapReduce：分布式计算的新篇章去发现同类优质开源项目:https://gitcode.com/在大数据处理领域，一个名字始终熠熠生辉，那就是。这是一个由Google提出的并被广泛应用的编程模型，用于大规模数据集的并行计算。本文将带你深入了解这一开源实现的魅力，分析其技术原理，探讨它的应用场景，并揭示它独特的特性。项目简介该项目是ChubbyJiang对原始GoogleMapRe
基于Python的微博舆情分析与可视化系统【附源码】 AI博士小张 python 数据分析数据库
基于Python的微博舆情分析与可视化系统摘要研究背景及意义一、数据流程总体架构二、详细处理流程与代码实现1.数据采集模块2.数据清洗与预处理3.情感分析与特征工程4.舆情分析模型5.可视化呈现三、性能优化要点摘要基于Python的微博舆情分析与可视化系统旨在利用大数据和自然语言处理技术，实时抓取、分析微博平台上的用户言论，并通过可视化手段揭示舆情的动态演变规律。系统采用Python技术栈，结合网
MapReduce：分布式计算的基石 Earth explosion mapreduce 大数据
MapReduce是一种用于处理和生成大数据集的编程模型，以及一个用于执行该模型的关联实现。它使得在大型商用硬件集群（数千台机器）上进行并行处理海量数据成为可能。本文将深入探讨MapReduce的核心概念、工作原理、应用场景以及一些高级主题。核心概念：分而治之MapReduce的核心思想是“分而治之”。它将复杂的计算任务分解成两个主要阶段：Map阶段和Reduce阶段。Map阶段:输入数据被分割成
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
不懂 TCP 三次握手、四次挥手？面试官：回去等通知吧 c++
抛开术语，用最通俗易懂的方式，让你彻底理解TCP的握手与挥手！开篇：你以为你懂TCP？其实……来，问几个简单的问题：1️⃣为什么是"三次"握手？两次不行吗？四次多余吗？2️⃣为什么是"四次"挥手？两次不行吗？3️⃣你知道TCP握手和挥手的整个流程吗？每一步到底是在干嘛吗？如果这些问题你还不能完全确定，那你一定要继续往下看。今天用最直白、最好玩的方式，带你彻底搞懂TCP的握手与挥手！微信搜索【跟着小
后端面试八股文骚套路之Redis CS指南 java redis
本期推出八股文骚套路之Redis，目前Redis也是后端技术栈中的一员大将，后端面试过程中对Redis的考察也越来越多。不过在后端面试过程中对Redis的要求没有像MySQL那么高（就是面试官问你Redis，你直接否定三连，这是啥？没听说过！我不会！问题也不是太大）。不过还是我在之前面试八股文系列的文章中所提到的，大家在准备后端面试时，后端技术栈中除了Java基础外至少还要有两到三项做到熟悉，作为
区块链大数据平台搭建系列（二）：如何搭建以太坊RPC节点 WuJiWeb3 从0到1搭建区块链大数据平台 rpc web3 big data kafka 数据仓库 github
Erigon是Ethereum（执行客户端）的一个实现，效率高，用Go编写。这里我们将采用Erigon进行搭建生产环境的以太坊RPC节点。环境准备1.系统要求操作系统：Ubuntu20.04或更高版本。硬件要求：由于Erigon会存储大量区块链数据，需要至少2TB的NVMeSSD磁盘、32GB或更多的内存（推荐64GB），以及8核CPU或更高的配置以提高性能。2.安装必需的软件包运行以下命令来安装
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

2023 Hive 面试宝典

先说一些废话

Hive的介绍

Hive和Hadoop的关系

Hive的特点

Hive的缺点

Hive常见的应用场景

Hive和mysql的区别

Hive的架构

Hive的数据

Hive的数据模型

Hive的底层如何存储Null值

Hive中元数据metadata和元数据商店metastore的作用

Hive有哪些保存元数据metadata的方式

Hive元数据存储方式中，本地模式和远程模式的区别

Hive的数据类型

Hive的隐式类型转换规则

Hive数据存储所使用的文件格式

Hive中使用的压缩算法

什么是数据可分割

关于压缩模式说明

Hive的安装与使用

当前版本请阅读以下参考资料，后期再行完善

如何在Hive中集成HBase

如何通过 HiveSQL 来直接读写 HBase

当前版本请阅读以下参考资料，后期再行完善

Hive的分区和分桶

什么是Hive分区

Hive分区的优点

Hive分区的缺点

什么是Hive分桶

关于Hive索引的说明

Hive分桶的优点

Hive分桶的缺点

Hive中静态分区和动态分区的区别

Hive动态分区的参数设定

Hive的内部表和外部表

什么是Hive的内部表和外部表

Hive内部表和外部表的区别是什么

生产环境中为什么建议使用外部表

Hive SQL

Hive中的SQL如何转化成MapReduce任务的

什么情况下Hive不走MapReduce任务

Hive中如何查询A表中B表不存在的数据

Hive中有哪些连接查询以及如何使用

当前版本请阅读以下参考资料，后期再行完善

Hive中左连接和内连接的区别

Hive中左连接的底层原理

Hive查询的时候 ON 和 WHERE 有什么区别

共同点

第一种理解方式

第二种理解方式

Hive 函数

关于 UDF/UDAF/UDTF 的提问

Hive中如何去重

第一种方式：使用 DISTINCT

第二种方式：使用 GROUP BY

第三种方式：使用 ROW_NUMBER() OVER 窗口函数

Hive中排序函数的使用方式及区别

Hive中部分高频函数 ———— split / coalesce / collect list / collect set

Hive常用函数

Hive 运维

如何监控一个提交后的Hive状态

Hive 优化

你可能感兴趣的:(大数据开发文档,hive,面试,hadoop)

Hive中元数据`metadata`和元数据商店`metastore`的作用

Hive有哪些保存元数据`metadata`的方式

第一种方式：使用 `DISTINCT`

第二种方式：使用 `GROUP BY`

第三种方式：使用 `ROW_NUMBER() OVER` 窗口函数

Hive中部分高频函数 ———— `split` / `coalesce` / `collect list` / `collect set`