jialun0116

超全面试汇总——Hive 超详细!!!带答案!!!持续更新中~

Hive面试总结

- 什么是 Hive ？
- Hive结构描述
- Hive的优势
- 内部表、外部表、分区表、分桶表
- hive中排序的种类和适用场景
- 动态分区和静态分区的区别 + 使用场景
- hive 语句执行顺序
- Hive的几种存储方式
- 列式存储的好处
- HQL转化为MapReduce的过程
- Hive 和关系型数据库的区别
- Hive和HBase的对比区别
- Hive 小文件问题及解决
- Hive调优及优化
- - 列裁剪和分区裁剪
  - 谓词下推
  - 聚合类group by操作，发生数据倾斜
  - Join 优化
  - 设置合理的map reduce的task数量
  - sort by代替order by
  - group by代替distinct
  - 优化SQL处理join数据倾斜
  - 选择使用Tez引擎
  - 本地执行和并发执行
  - 严格模式 (hive.mapred.mode = strict)
- Hive数据倾斜如何定位 + 怎么解决
- Hive中MR(map reduce)、Tez和Spark执行引擎对比
- 为什么任务执行的时候只有一个reduce？
- Hive有索引么
- Hive为什么有分区
- 如何使用分区
- 分区注意事项
- 为什么要分桶？
- 分桶的意义
- 如何使用分桶
- 分区分桶表举例
- Hive函数
- hive中split、coalesce及collect_list函数的用法
- 使用过Hive解析JSON串吗

什么是 Hive ？

Hive 是基于 Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL），提供快速开发的能力。Hive本质是将SQL转换为 MapReduce的任务进行运算，减少开发人员的学习成本，功能扩展很方便。：
hive存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的文件，HQL就是用sql语法来写的mr程序
数据仓库是大多数企业“试水”大数据的首选切入点，因为数据仓库主要编程语言还是 SQL，而在大数据平台上，不论是 Hive 还是 SparkSQL，都是通过高度标准化的 SQL 来进行开发，这对于很多从传统数据仓库向大数据转型的开发人员和团队来说，是一种较为平滑的过渡。

Hive结构描述

Hive构建在Hadoop的HDFS和MapReduce之上，用于管理和查询结构化/非结构化数据的数据仓库。
使用HQL作为查询接口，使用HDFS作为底层存储，使用MapReduce作为执行层
用户接口：包括 CLI,JDBC,ODBC和 WUI
- 其中最常用的是 CLI，CLI启动的时候，会同时启动一个 Hive 副本
- Client 是 Hive 的客户端，用户连接至 Hive Server。在启动 Client 模式的时候，需要指出 Hive Server 所在节点，并且在该节点启动 Hive Server。
- WUI 是通过浏览器访问 Hive。
Hive内部执行流程：解释器、编译器、优化器、执行器
- 解析器（解析SQL语句）、编译器（把SQL语句编译成MapReduce程序）、优化器（优化MapReduce程序）、执行器（将MapReduce程序运行的结果提交到HDFS）
- 从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行
元数据存储。通常是存储在关系数据库如 mysql, derby 中
- Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。Hive 元数据默认存储在 derby 数据库，不支持多客户端访问，所以将元数据存储在 MySQL 等数据库，支持多客户端访问。
Hadoop：用 HDFS 进行存储，利用 MapReduce 进行计算
- Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成少数HiveSQL语句不会转化为MapReduce作业，直接从DataNode上获取数据后按照顺序输出。（包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 任务）

Hive的优势

Hive拥有统一的元数据管理，所以和Spark、Impala等SQL引擎是通用的。通用是指，在拥有了统一的metastore之后，在Hive中创建一张表，在Spark/Impala中是能用的，只需要共用元数据，就可以切换SQL引擎，涉及到了Spark sql和Hive On Spark
可用SQL轻松访问数据，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析。
使存储的数据结构化
支持MapReduce计算引擎、Spark和Tez分布式计算引擎
数据的存储格式多样 Hive中不仅可以使用逗号和制表符分隔值（CSV/TSV）文本文件，还可以使用Sequence File、RC、ORC、Parquet
数据离线处理日志分析

内部表、外部表、分区表、分桶表

内部表：create table
- 创建内部表时，没有特别指定，则默认创建的表都是管理表manage table（也称内部表），会将数据移动到数据仓库指向的路径；不共享数据
- hive.metastore.warehouse.dir（默认：/user/hive/warehouse），
- 删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，
外部表 ：create external table
- 当一份数据需要被共享时，可以创建一个外部表指向这份数据。
- 若创建外部表，仅记录数据所在的路径通常在：/user/username/hive/warehouse/文件夹
- 而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。
分区表
- 分区表使用的是表外字段，需要指定字段类型，并通过关键字partitioned by(partition_name string)声明，但是分区划分粒度较粗 。
- 将数据按区域划分开，查询时不用扫描无关的数据，加快查询速度。
分桶表
- 分桶使用的是表内字段，已经知道字段类型，不需要再指定。通过关键字 clustered by(column_name) into … buckets声明。分桶是更细粒度的划分、管理数据，可以对表进行先分区再分桶的划分策
- 分桶最大的优势就是：用于数据取样，可以起到优化加速的作用。
- 对分桶字段求哈希值，用哈希值与分桶的数量取余，余几，这个数据就放在那个桶内

hive中排序的种类和适用场景

order by 全局排序
- 会对输入做全局排序，因此只有一个reducer(多个reducer无法保证全局有序）,所以当输入的数据规模较大时，会导致计算的时间较长
- 与数据库中 order by的区别在于在 hive 的严格模式下(hive.mapred.mode = strict)下，必须指定 limit ，否则执行会报错！
sort by 每个MapReduce排序
- 不是全局排序，其在数据进入reducer前完成排序，单个有序。
- sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序
- 不受 hive.mapred.mode 是否为strict ,nostrict 的影响，使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=）
distribute by 每个分区排序：
- 按照指定的字段对数据进行划分输出到不同的reduce中。
- distribute by类似 MR 中 partition（自定义分区），进行分区，某个特定行应该到哪个 reducer ，通常是为了进行后续的聚集操作
distribute by + sort by：
- 分桶，保证同一字段值只存在一个结果文件当中，结合 sort by 保证每个 reduceTask 结果有序
- distribute by 和 sort by 的常见使用场景有：
  1. Map输出的文件大小不均
  2. Reduce输出文件不均
  3. 小文件过多
  4. 文件超大
cluster by：
- 对同一字段分桶并排序，不能和 sort by 连用，除了具有 distribute by 的功能外还兼具 sort by 的功能。
- 但是排序只能是升序排序，不能像distribute by 一样去指定排序的规则为 ASC 或者 DESC 。

动态分区和静态分区的区别 + 使用场景

静态分区：
- 表的分区数量和分区值是固定的。静态分区需要手动指定，列是在编译时期通过用户传递来决定的。
- 需要提前知道所有分区。适用于分区定义得早且数量少的用例，不适用于生产。
动态分区：
- 是基于查询参数的位置去推断分区的名称，只有在 SQL 执行时才能确定，会根据数据自动的创建新的分区。
- 应用场景：有很多分区，无法提前预估新分区，动态分区是合适的，一般用于生产环境。

hive 语句执行顺序

from … where … select … group by … having … order by … limit …
注意事项
- 使用分区剪裁、列剪裁，分区一定要加
- 少用 COUNT DISTINCT，group by 代替 distinct
- 是否存在多对多的关联
- 连接表时使用相同的关键词，这样只会产生一个 job
- 减少每个阶段的数据量，只选出需要的，在 join 表前就进行过滤
- 大表放后面
- 谓词下推：where 谓词逻辑都尽可能提前执行，减少下游处理的数据量
- sort by 代替 order by
mysql执行顺序
- from… where…group by… having… select … order by… limit …

Hive的几种存储方式

Text File format : 默认格式，数据不做压缩，磁盘开销大，数据解析开销大。
Sequence File format
- SequenceFile 是 Hadoop API 提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点
- SequenceFile 支持三种压缩选择：NONE, RECORD, BLOCK。 Record 压缩率低，一般建议使用 BLOCK 压缩。
面向行：在一起存储的同一行数据是连续存储
RCfile format : RCFILE 是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个 record 在一个块上，避免读一个记录需要读取多个 block。其次，块数据列式存储，有利于数据压缩和快速的列存取。RCFile 目前没有性能优势，只有存储上能省 10% 的空间。
Parquet :
- 列式数据存储。查询比较快
- Parquet支持嵌套的数据模型，每一个数据模型的schema包含多个字段，每一个字段有三个属性：重复次数、数据类型和字段名
- 二进制方式存储的，是不可以直接读取和修改的
AVRO : avro Schema 数据序列化。
ORC : 对RCFile做了一些优化，支持各种复杂的数据类型 性能比较好
- ORC 将行的集合存储在一个文件中，并且集合内的行数据将以列式存储。采用列式格式，压缩非常容易，从而降低了大量的存储成本。
- 当查询时，会查询特定列而不是查询整行，因为记录是以列式存储的。
- ORC 会基于列创建索引，当查询的时候会很快。
- ORC文件也是以二进制方式存储的，所以是不可以直接读取

列式存储的好处

查询的时候不需要扫描全部的数据，而只需要读取每次查询涉及的列，这样可以将I/O消耗降低N倍，另外可以保存每一列的统计信息(min、max、sum等)，实现部分的谓词下推。
由于每一列的成员都是同构的，可以针对不同的数据类型使用更高效的数据压缩算法，进一步减小I/O。
由于每一列的成员的同构性，可以使用更加适合CPU pipeline的编码方式，减小CPU的缓存失效。

HQL转化为MapReduce的过程

Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL转化为抽象语法树AST Tree
- HiveLexerX，HiveParser分别是Antlr对语法文件Hive.g编译后自动生成的词法解析和语法解析类
遍历AST Tree，抽象出查询的基本组成单元QueryBlock
- QueryBlock是一条SQL最基本的组成单元，包括三个部分：输入源，计算过程，输出。简单来讲一个QueryBlock就是一个子查询
遍历QueryBlock，翻译为执行操作树OperatorTree
- Hive最终生成的MapReduce任务，Map阶段和Reduce阶段均由OperatorTree组成。逻辑操作符，就是在Map阶段或者Reduce阶段完成单一特定的操作。
逻辑层优化器进行OperatorTree变换，减少mapreduce job，减少shuffle数据量
- 谓词下推、合并线性的OperatorTree中partition/sort key相同的reduce （from (select key,value from src group bu key, value）s select s.key group by s.key;
- Map端聚合
遍历OperatorTree，翻译为MapReduce任务
物理层优化器进行MapReduce任务的变换，生成最终的执行计划

Hive 和关系型数据库的区别

适用范围不同： Hive时效性、延时性比较高，主要进行离线的大数据分析；数据库主要用在在线系统
规模不同： Hive数据规模大，优势在于处理大数据集
查询语言不同： HQL 和 SQL
存储位置不同： HDFS 和本地
执行方式： Hive执行MapReduce ， Mysq执行Executor
数据格式：Hive在加载数据的过程中不需要格式的转换，不会对数据本身进行修改 ；数据库中，不同数据库有不同存储引擎，加载的时候较慢

Hive和HBase的对比区别

Hive 数据仓库，Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询。
Hbase 数据库，面向列存储的非关系型数据库
Hive 适用于离线的数据分析和清洗，延迟较高
Hbase 适用于单表非关系型数据的存储，不适合做关联查询，延迟低适合在线业务
Hive 存储的数据依旧在DataNode上，编写的HQL语句会转换成MapReduce代码执行
HBase 数据持久存储放在DataNode上，以region的形式管理

Hive 小文件问题及解决

小文件如何产生的
- 动态分区插入数据，产生大量的小文件，从而导致map数量剧增；
- 倒入数据时产生，每执行一次 insert 时hive中至少产生一个文件，文件数量=MapTask数量*分区数，insert 导入时至少会有一个MapTask。像有的业务需要每10分钟就要把数据同步到 hive 中，这样产生的文件就会很多。
- ```
-- 通过load方式加载数据
load data local inpath '/export/score' overwrite into table A   -- 导入文件夹
-- 通过查询方式加载数据
insert overwrite table A  select s_id,c_name,s_score from B;
```
- reduce数量越多，小文件也越多（reduce的个数和输出文件是对应的）；
- 数据源本身就包含大量的小文件。
造成的影响
- Hive的角度小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。
- HDFS文件元数据存储在NameNode 的内存中，在内存空间有限的情况下，文件过多会影响NameNode 的寿命，同时影响计算引擎的任务数量，比如每个小的文件都会生成一个Map任务。
如何解决
- 使用 hive 自带的 concatenate 命令，自动合并小文件 alter table A concatenate;
  - concatenate 命令只支持 RCFILE 和 ORC 文件类型。
  - 使用concatenate命令合并小文件时不能指定合并后的文件数量，
- 一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
  set mapred.min.split.size.per.node
```
 -- 设置map输入合并小文件的相关参数：
 set mapred.min.split.size.per.node
 -- 每个Map最小输入大小(这个值决定了合并后文件的数量)
 set mapred.min.split.size=256000000;  
 
 -- 设置map端输出进行合并，默认为true
 set hive.merge.mapfiles = true;
 -- 设置reduce端输出进行合并，默认为false
 set hive.merge.mapredfiles = true
 -- hive的查询结果输出是否进行压缩
 set hive.exec.compress.output=true;
 -- MapReduce Job的结果输出是否使用压缩
 set mapreduce.output.fileoutputformat.compress=true;
```
- 使用Sequencefile作为表存储格式，不要用textfile，在一定程度上可以减少小文件；
- 减少reduce的数量（可以使用参数进行控制）；set mapreduce.job.reduces=10;
- 少用动态分区，用时记得按distribute by分区；

Hive调优及优化

-- map端聚合
set hive.map.aggr=true
-- map端自动负载均衡
set hive.groupby.skewindata = true
-- 小文件合并
set mapred.min.split.size= 256000000 -- 256M
-- 设置reduce个数
set mapred.reduce.tasks=10
-- 开启严格模式
set hive.mapred.mode = strict

列裁剪和分区裁剪

在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT * Hive中与列裁剪优化相关的配置项是hive.optimize.cp
分区裁剪就是只读取需要的分区，与分区裁剪优化相关的则是hive.optimize.pruner

谓词下推

SELECT * FROM stu as t 
LEFT JOIN course as t1
ON t.id=t2.stu_id
WHERE t.age=18;

上面语句是否具有优化的空间？如何优化？

SELECT * FROM (SELECT * FROM stu WHERE age=18) as t 
LEFT JOIN course AS t1 on t.id=t1.stu_id

解决方案：
- 采用谓词下推的技术，提早进行过滤有可能减少必须在数据库分区之间传递的数据量
- 所谓谓词下推就是通过嵌套的方式，将底层查询语句尽量推到数据底层去过滤，这样在上层应用中就可以使用更少的数据量来查询，这种SQL技巧被称为谓词下推(Predicate pushdown)

聚合类group by操作，发生数据倾斜

map段部分聚合
- 开启Map端聚合参数设置set hive.map.aggr=true
- 在Map端进行聚合操作的条目数目set hive.grouby.mapaggr.checkinterval=100000
有数据倾斜的时候进行负载均衡（默认是false）
- set hive.groupby.skewindata = true
- 阶段拆分-两阶段聚合 需要聚合的key前加一个随机数的前后缀，这样就均匀了，之后再按照原始的key聚合一次
- 生成的查询计划有两个 MapReduce 任务。在第一个 MapReduce 中，map 的输出结果集合会随机分布到 reduce 中， 每个 reduce 做部分聚合操作，并输出结果。相同的 GroupB Key 有可能分发到不同的 reduce 中，从而达到负载均衡的目的；第二个 MapReduce 任务再根据预处理的数据结果按照 Group By Key 分布到 reduce 中（这个过程可以保证相同的 Group By Key 分布到同一个 reduce 中），最后完成最终的聚合操作。

假设 key = 水果
select count(substr(a.tmp,1,2)) as key
from(
	select concat(key,'_',cast(round(10*rand())+1 as string)) tmp
	from table
	group by tmp
)a
group by key

Join 优化

build table（小表）前置
- Hive在解析带join的SQL语句时，会默认将最后一个表作为probe table，将前面的表作为build table并试图将它们读进内存。如果表顺序写反，probe table在前面，引发OOM的风险就高了。
- 在维度建模数据仓库中，事实表就是probe table，维度表就是build table。假设现在要将日历记录事实表和记录项编码维度表来join 维度表在前，事实表在后
Reduce join 改为Map join
- 在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理
- 适用于小表和大表 join，将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量；接着对另外RDD执行map类算子，在算子函数内，从Broadcast变量中获取较小RDD 的全量数据，与当前RDD的每一条数据按照连接key进行比对，如果连接key相同的话，那么就将两个RDD的数据用你需要的方式连接起来。
- 设置自动选择MapJoin set hive.auto.convert.join = true;默认为true

设置合理的map reduce的task数量

map阶段优化。使单个map任务处理合适的数据量；
- map的数量不是越多越好，如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费 。而且，同时可执行的map数是受限的
- mapred.min.split.size: 指的是数据的最小分割单元大小；min的默认值是1B
- mapred.max.split.size: max的默认值是256MB
- 小文件问题：
  - 如果一个任务有很多小文件（远远小于块大小128M），则每个小文件也会当做一个块，用一个map任务来完成。
  - 而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，比如有一个127M的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。
- 当input的文件任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。
reduce阶段优化
- 启动和初始化reduce也会消耗时间和资源；
- 另外，有多少个reduce，就会有个多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
- 如果Reduce设置的过小，那么单个Reduce处理的数据将会加大，很可能会引起OOM异常
- 处理大数据量利用合适的Reduce数；使单个Reduce任务处理数据量大小要合适；
- set mapred.reduce.tasks=10; 就是10个如果是-1 就会估算
  - hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G）
  - hive.exec.reducers.max（每个任务最大的reduce数，默认为999）
  - 计算reducer数的公式很简单N=min（参数2，总输入数据量/参数1）
- 调整hive.exec.reducers.bytes.per.reducer参数的值每个reduce处理数据量；
- 什么情况下只有一个reduce；
  - 没有group by的汇总，
  - 用了Order by
  - 有笛卡尔积。

sort by代替order by

HiveSQL中的order by与其他SQL方言中的功能一样，就是将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会长时间计算不完。
如果使用sort by，那么还是会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key，往往还要配合distribute by一同使用。如果不加distribute by的话，map端数据就会随机分配到reducer。
举个例子，假如要以UID为key，以上传时间倒序、记录类型倒序输出记录数据：

select uid,upload_time,event_type,record_data
from calendar_record_log
where pt_date >= 20190201 and pt_date <= 20190224
distribute by uid
sort by upload_time desc,event_type desc;

group by代替distinct

原因：distinct会将列中所有的数据保存到内存中 ，极有可能发生内存溢出
采用sum() group by的方式来替换count(distinct) 完成计算。
解决方案 ：可以考虑使用Group By 或者 ROW_NUMBER() OVER(PARTITION BY col) 方式代替COUNT(DISTINCT col)

select count(distinct a) from calendar_record_log 
where pt_date >= 20190101;

-- 但是这样写会启动两个MR job（单纯distinct只会启动一个），
-- 所以要确保数据量大到启动job的overhead远小于计算耗时，才考虑这种方法。
select count(1) from (
	select uid from calendar_record_log
	where pt_date >= 20190101
	group by uid
) t;

-- 用group by方式同时统计多个列？下面是解决方法：
select t.a,sum(t.b),count(t.c),count(t.d) from (
  select a,b,null c,null d from some_table
  union all
  select a,0 b,c,null d from some_table group by a,c
  union all
  select a,0 b,null c,d from some_table group by a,d
) t;

优化SQL处理join数据倾斜

处理掉字段中带有空值的数据

原因：一个表内有许多空值时会导致MapReduce过程中,空成为一个key值,对应的会有大量的value值, 而一个key的value会一起到达reduce造成内存不足

1.在查询的时候，过滤掉所有为NULL的数据，比如：
create table res_tbl as  
select n.* from 
(select * from res where id is not null ) n 
left join org_tbl o on n.id = o.id;

2.查询出空值并给其赋上随机数,避免了key值为空（数据倾斜中常用的一种技巧）
create table res_tbl as
select n.* from res n 
full join org_tbl o 
on case when n.id is null then concat('hive', rand()) else n.id end = o.id;

单独处理倾斜key
- 一般来讲倾斜的key都很少，我们可以将它们抽样出来，对应的行单独存入临时表中，然后打上一个较小的随机数前缀（比如0~9），最后再进行聚合。SQL语句与上面的相仿，不再赘述。
不同数据类型，这种情况不太常见，主要出现在相同业务含义的列发生过逻辑上的变化时。不转换类型，计算key的hash值时默认是以int型做的，这就导致所有“真正的”string型key都分配到一个reducer上。所以要注意类型转换
- ```
select a.uid,a.event_type,b.record_data
from calendar_record_log a
left outer join (
select uid,event_type from calendar_record_log_2
where pt_date = 20190228
) b on a.uid = b.uid and b.event_type = cast(a.event_type as string)
where a.pt_date = 20190228
```

选择使用Tez引擎

Tez: 是基于Hadoop Yarn之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。它把Ｍap/Reduce过程拆分成若干个子过程，同时可以把多个Ｍap/Reduce任务组合成一个较大的DAG任务，减少了Ｍap/Reduce之间的文件存储。同时合理组合其子过程，也可以减少任务的运行时间
设置 hive.execution.engine = tez;通过上述设置，执行的每个HIVE查询都将利用Tez, 当然，也可以选择使用spark作为计算引擎

本地执行和并发执行

set hive.exec.mode.local.auto=true;  //开启本地mr
set hive.exec.parallel=true //可以开启并发执行。

严格模式 (hive.mapred.mode = strict)

对于分区表，用户不允许扫描所有分区
使用了order by语句的查询，要求必须使用limit语句
限制笛卡尔积的查询

参考：博客1 博客2

Hive数据倾斜如何定位 + 怎么解决

Hive 中数据倾斜的基本表现
- 一般都发生在 Sql 中 group by 和 join on 上，而且和数据逻辑绑定比较深。
- 任务进度长时间维持在99%（或100%），查看任务监控页面**，发现只有少量（1个或几个）reduce子任务未完成**。因为其处理的数据量和其他reduce差异过大
如何产生
- key的分布不均匀或者说某些key太集中
- 业务数据自身的特性，例如不同数据类型关联产生数据倾斜
- SQL语句导致的数据倾斜
如何解决
- 开启map端combiner set hive.map.aggr = true
- 开启数据倾斜时负载均衡 set hive.groupby.skewindata = true
- 控制空值分布 将为空的key转变为字符串加随机数或纯随机数，将因空值而造成倾斜的数据分配到多个Reducer
- SQL语句调整
  - 选用join key 分布最均匀的表作为驱动表。做好列裁剪和filter操作，以达到两表join的时候，数据量相对变小的效果。
  - 大小表Join：使用map join让小的维度表（1000条以下的记录条数）先进内存。在Map端完成Reduce
  - 大表Join大表：把空值的Key变成一个字符串加上一个随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终的结果
  - count distinct大量相同特殊值：count distinct 时，将值为空的情况单独处理，如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union。

Hive中MR(map reduce)、Tez和Spark执行引擎对比

MapReduce是一种编程模型，用于大规模数据集，分为映射和归约 ，大数据量下优势明显，读写HDFS次数多
Tez是Apache开源的支持DAG(有向图)作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，把多个MR任务组合成一个较大的DAG任务，减少文件存储并可以优化子过程
Spark基于map reduce算法实现的分布式计算，Job中间输出和结果可以保存在内存中，不需要读写HDFS，以DAG方式处理数据，数据量比较大的时候比较吃内存
Spark和Tez的区别：
- Spark与Tez都是以DAG方式处理数据
- Spark更像是一个通用的计算引擎，可以同时作为批式和流式的处理引擎，提供内存计算，实时流处理，机器学习等多种计算方式，适合迭代计算。tez作为一个框架工具，特定为hive和pig提供批量计算
- Spark属于内存计算，支持多种运行模式，可以跑在standalone，yarn上；而Tez只能跑在yarn上；
- Tez能够及时的释放资源，重用container，节省调度时间，对内存的资源要求率不高；而spark如果存在迭代计算时，container一直占用资源；
使用场景：
- 如果数据需要快速处理而且资源充足，则可以选择Spark；如果资源是瓶颈，则可以使用Tez；

为什么任务执行的时候只有一个reduce？

原因：
- 使用了Order by （Order By是会进行全局排序）
- 直接COUNT(1),没有加GROUP BY，比如：有笛卡尔积操作 SELECT COUNT(1) FROM tbl WHERE pt=’201909’
解决方案：
- 避免使用全局排序，可以使用sort by进行局部排序
- 使用GROUP BY进行统计，不会进行全局排序，比如：SELECT pt,COUNT(1) FROM tbl WHERE pt=’201909’ group by pt;
Hive有索引么
- Hive支持索引，但不支持主键或者外键。Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。
- 适用场景：适用于不更新的静态字段。以免总是重建索引数据。每次建立、更新数据后，都要重建索引以构建索引表
- hive在指定列上建立索引，会产生一张索引表（Hive的一张物理表），里面的字段包括，索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量
- 很少用索引

Hive为什么有分区

随着系统运行时间增长，表的数据量越来越大，使用分区技术可以指定条件，缩小数据扫描的范围，避免hive全表扫描，提升查询效率
可以将用户的整个表的数据划分到多个子目录，
根据业务，通常按照年月日、地区等分区

如何使用分区

PARTITION BY(col_name data_type)
hive的分区字段使用的是表外字段。而mysql使用的是表内字段。
hive的分区名区分大小写
hive的分区本质是在表目录下面创建目录，但是该分区字段是一个伪列，不真实存在于数据中
一张表可以有一个或者多个分区，分区下面也可以有一个或者多个分区
双分区partitioned by (date_time string,type string），在文件系统中的表现为date_time为一个文件夹，type为date_time的子文件夹。
动态分区列必须在 SELECT 语句中的最后一个列中指定，且顺序与它们在 PARTITION() 子句中出现的顺序相同。
动态分区需要开启 set hive.exec.dynamic.partition = true; hive.exec.dynamic.parition.mode=nonstrict;

-- 创建静态分区 数据加载到指定的分区
create table if not exists part1(
  uid int,
  uname string,
  uage int
)PARTITION BY (country string)
row format delimiterd fileds terminated by ',';
(stored as ORC| SequenceFile) ORC、 SequenceFile都是存储方式
(loacation 地址)

-- 导入数据 需要指定分区 数据未知，根据分区值确定创建分区
load data local inpath '/usr/loacl/xxx'
into table part1 partition(country='China');

-- 开启动态分区 默认为false，不开启
set hive.exec.dynamic.partition=true;
hive.exec.dynamic.parition.mode=nonstrict;
-- 创建动态双分区
create table if not exists dt_part1(
  uid int,
  uname string,
  uage int
)
PARTITIONED BY (year string,month string)
row format delimited fields terminated by ',';
-- 在文件系统中的表现为date_time为一个文件夹，type为date_time的子文件夹。

-- 追加写入数据
insert into dy_part1 partition(year,month)
select * from part_tmp;
-- 覆盖写入数据
insert overwrite dy_part1 partition(year,month)
select * from part_tmp;

-- 混合分区
create table if not exists dy_part2(
	uid int,
	uname string,
	uage int
)
PARTITIONED BY (year string,month string)
row format delimited fields terminated by ',';
-- 插入数据
insert into dy_part2 partition(year='2018',month)
select uid,uname,uage,month from part_tmp；

-- 多个范围分区键
create table test_demo (value int)
partitioned by range (id1 INT, id2 INT, id3 INT)
(
-- id1在(--∞,5]之间，id2在(-∞,105]之间，id3在(-∞,205]之间
  partition p5_105_205 VALUES LESS THAN (5, 105, 205),
  -- id1在(--∞,5]之间，id2在(-∞,115]之间，id3在(-∞,+∞]之间
  partition p5_115_max VALUES LESS THAN (5, 115, MAXVALUE)
)

-- 查看分区数据
select * from part1 where country = 'China';

-- 显示分区
show partitions part1;
-- 增加分区
alter table part1 add partition(country = 'india') partition(country = 'America');
-- 增加分区并设置数据
alter table part1 add partition(country = 'xxx')
location 'user/hive/warehouse/xxx'
-- 修改分区的存储路径 hdfs路径必须是全路径
alter table part1 partition(country='Vietnam') 
set location 'hdfs://hadoop01:9000/user/hive/warehouse/brz.db/part1/country=Vietnam'
-- 删除分区
alter table part1 drop partition(country = 'india')

-- 手动向hdfs中创建分区目录，添加数据，创建好hive的外表之后，无法加载数据，
-- 元数据中没有相应的记录
msck repair table tablename

分区注意事项

hive的分区使用的表外字段，分区字段是一个伪列但是可以查询过滤。
分区使用的是表外字段，分桶使用的是表内字段
分区字段不建议使用中文
不太建议使用动态分区。因为动态分区将会使用mapreduce来查询数据，如果分区数量过多将导致namenode和yarn的资源瓶颈。所以建议动态分区前也尽可能之前预知分区数量。
分区属性的修改均可以使用手动元数据和hdfs的数据内容
在hive中的数据是存储在hdfs中的,我们知道hdfs中的数据是不允许修改只能追加的，那么在hive中执行数据修改的命令时，就只能先找到对应的文件，读取后执行修改操作，然后重新写一份文件。如果文件比较大，就需要大量的IO读写。在hive中采用了分桶的策略，只需要找到文件存放对应的桶，然后读取再修改写入即可。

为什么要分桶？

单个分区或者表中的数据量越来越大，当分区不能更细粒的划分数据时，所以会采用分桶技术将数据更细粒度的划分和管理。

分桶的意义

分桶是更细粒度的划分、管理数据，更多用来做数据抽样、JOIN操作
大表在JOIN的时候，效率低下。如果对两个表先分别按id分桶，那么相同id都会归入一个桶。那么此时再进行JOIN的时候是按照桶来JOIN的，那么大大减少了JOIN的数量。
对数据抽样的时候，也不需要扫描整个文件。只需要对每个分区按照相同规则抽取一部分数据即可。
原始数据中加入一些额外的结构，这些结构可以用于高效的查询，例如，基于ID的分桶可以使得用户的查询非常的块。

如何使用分桶

定义：
- clustered by (uid) – 指定分桶的字段
- sorted by (uid desc) – 指定数据的排序规则，表示预期的数据就是以这里设置的字段以及排序规则来进行存储
- into x buckets 放进几个桶里
- 分区使用的是表外字段，分桶使用的是表内字段
- 分桶数和reduce数对应一个文件对应一个分桶
- hash 值为 20 的 HDFS 目录为：/ warehouse /app/dt =20100801/ctry=US/part-00020
导入数据
- 导入数据有两种，一种是通过文件导入，但是并不会真正的分桶,load data只是把文件上传到表所在的HDFS目录下。并没有做其他操作；一种是通过从其他表插入的方式导入数据，这种方式才能真正的分桶 insert … select；
- cluster by (uid) – 指定getPartition以哪个字段来进行hash散列，并且排序字段也是指定的字段，默认以正序进行排序
- distribute by(uid) – 指定getPartition以哪个字段来进行hash散列
- sort by(uid asc) – 指定排序字段，以及排序规则，更灵活的方式，这种数据获取方式可以分别指定getPartition的字段和sort的字段
- 方式1
  - 打开enforce bucketing开关,设置强制分桶属性 set hive.enforce.bucketing=true 2.x版本不需要
  - 设置reduces数为-1： hive.enforce.bucketing为true时，reduce要设为-1；
  - insert overwrite table buc1 select uid,uname,uage from buc_temp;
  - 得到的分桶对应的文件，数据是无序的，也就是 sorted by 或 sort by无效）
- 方式2
  - 关闭强制分桶 set hive.enforce.bucketing = false
  - 将reducer个数设置为目标表的桶数，并在 SELECT 语句中用 DISTRIBUTE BY
    – 对查询结果按目标表的分桶键分进reducer中。
  - set mapred.reduce.tasks = num_buckets
  - insert into table buc1 select uid,uname,uage from buc_temp distribute by (uid) sort by (uage desc);
- cluster by (uid)与distribute by(uid) sort by (uid asc)结果是一样的
抽样语句：tablesample（bucket x out of y）
- y必须是table总共bucket数的倍数或者因子。
- 例如：table总共分了64份，当y=32时，抽取2(64/32)个bucket的数据，当y=128时，抽取1/2(64/128)个bucket的数据。x表示从哪个bucket开始抽取。
- 例如：table总共bucket数为32，tablesample(bucket 3 out of 16)表示总共抽取2(32/16)个bucket的数据，分别为第3个bucket和第19(3+16)个bucket的数据。
- select * from table_name tablesample(n percent) 抽出n%的数据全表扫描
- 如果在 TABLESAMPLE 子句中指定的列与 CLUSTERED BY 子句中的列相匹配，则 TABLESAMPLE 只扫描表中要求的哈希分区【就是具体的桶】

--创建一个分桶表 并且指定排序字段及排序规则
create table if not exists buc1(
  uid int,
  uname string,
  uage int
)
distribute by (uid) 
sorted by(uid desc) into 4 buckets
row format delimited fields terminated by ',';

-- cluster by (uid)指定getPartition以哪个字段来进行hash散列，并且排序字段也是指定的字段，默认以正序进行排序
-- distribute by(uid) – 指定getPartition以哪个字段来进行hash散列

-- 加载数据 方式1
-- 打开enforce bucketing开关,设置强制分桶属性
set hive.enforce.bucketing=true
set mapred.reduce.tasks = -1
insert overwrite table buc1
select uid,uname,uage from buc_temp
sort by (uid);

-- 加载数据 方式2
-- 将reducer个数设置为目标表的桶数，并在 SELECT 语句中用 DISTRIBUTE BY 
-- 对查询结果按目标表的分桶键分进reducer中。
set hive.enforce.bucketing = false
set mapred.reduce.tasks = num_buckets
insert into table buc1
select uid,uname,uage from buc_temp
distribute by (uid) sort by (uage desc);

-- 查看表结构
desc formatted tablename;

-- 分桶查询结果
select * from buc1 cluster by (uid);
'''
	采样 TABLESAMPLE(BUCKET x OUT OF y) 
	x：表示从哪个 bucket 开始抽取数据 y：必须为该表总 bucket 数的倍数或因子
'''
-- 查询第几桶 取出 uid % 4 == 0的数据
select * from buc1 tablesample(bucket 1 out of 4 on uid); 
-- 查询uid 为奇数
select * from buc1 tablesample(bucket 2 out of 2 on uid)
-- 随机查询三条数据
select * from part_tmp order by rand() limit 3;

select * from part_tmp tablesample(0.1 percent) ;

分区分桶表举例

例子也可参考 https://www.studytime.xin/article/hive-partition-and-bucket.html

-- 按照性别进行分区（1男2女），在分区中按照uid的奇偶进行分桶：
-- 分区使用的是表外字段，分桶使用的是表内字段
1 gyy1 1
2 gyy2 2
3 gyy3 2
4 gyy4 1
5 gyy5 2
6 gyy6 1
7 gyy7 1
8 gyy8 2
9 gyy9 1
10 gyy10 1
11 gyy11 2
12 gyy12 1

-- 创建带有分区的分桶表
create table if not exists stus(
	uid int,
	uname string
)
partitioned by(sex int)
clustered by(uid) into 2 buckets
row format delimited filed terminated by ' ';
-- 创建临时表
create table if not exists stu_temp(
	uid int,
	uname string,
	usex int
)
row format delimited fields terminated by ' ';

-- 临时表中添加数据
load data local inpath '/usr/local/hivedata/stu.dat' into table stu_temp
-- 分桶表中加数据
insert into table stus partition(sex)
select uid,uname,usex from stu_temp
cluster by (uid);

-- 查询性别为女性的、并且学号为奇数的学生：
select * from stus tablesample(bucket 2 out of 2 on uid)
where sex=2;

Hive函数

关系函数： <= 、 >= 、 IS NULL 、IS NOT NULL、LIKE
日期函数： to_date、 year 、month 、second 、weekofyear、 datediff时间比较
条件函数： IF CASE
字符串函数：length、 reverse、 substr 截取字符串、lower、 trim去空格、CONCAT 字符串拼接
统计函数：
Hive的SQL还可以通过用户定义的函数（UDF），用户定义的聚合（UDAF）和用户定义的表函数（UDTF）进行扩展。
UDF、UDAF、UDTF的区别：
- UDF（User-Defined-Function）一进一出
- UDAF（User-Defined Aggregation Funcation）聚集函数，多进一出
- UDTF（User-Defined Table-Generating Functions）一进多出，如lateral view explore()

hive中split、coalesce及collect_list函数的用法

split将字符串转化为数组，即：split(‘a,b,c,d’ , ‘,’) ==> [“a”,“b”,“c”,“d”]。

coalesce(T v1, T v2, …) 返回参数中的第一个非空值；如果所有值都为 NULL，那么返回NULL。

collect_list列出该字段所有的值，不去重 select collect_list(id) from table。

使用过Hive解析JSON串吗

hive 处理json数据总体来说有两个方向的路走
- 将json以字符串的方式整个入Hive表，然后通过使用UDF函数解析已经导入到hive中的数据，比如使用LATERAL VIEW json_tuple的方法，获取所需要的列名。
- 在导入之前将json拆成各个字段，导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。

你可能感兴趣的:(面试,面经,Hive,数据仓库,大数据,数据库,hive,hadoop)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Shader面试题100道之（81-100）还是大剑师兰特 #Shader 综合教程100+大剑师 shader面试题 shader教程
Shader面试题（第81-100题）以下是第81到第100道Shader相关的面试题及答案：81.Unity中如何实现屏幕空间的热扭曲效果（HeatDistortion）？热扭曲效果可以通过GrabPass抓取当前屏幕图像，然后在片段着色器中使用噪声或动态UV偏移模拟空气扰动，再结合一个透明通道控制扭曲强度来实现。82.Shader中如何实现物体轮廓高亮（OutlineHighlight）？轮廓
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
无面试无offer? 你需要AI 求职co-pilot的帮助!
大家好啊，我写的开源免费求职AIco-pilot工具发布了v3.0.0，欢迎大家参与、使用!https://github.com/weicanie/prisma-ai一、项目介绍开源免费的求职co-pilot，自动化简历准备至offer到手的整个流程。优化您的项目、定制您的简历、为您匹配工作，并帮助您做好面试准备。二、核心价值prisma-ai旨在解决求职者在准备简历和寻找工作时最头疼的3个问题:
OkHttp3源码解析--设计模式，android开发实习面试题
this.cache=builder.cache;}//构造者publicstaticfinalclassBuilder{Cachecache;…//构造cache属性值publicBuildercache(@NullableCachecache){this.cache=cache;returnthis;}//在build方法中真正创建OkHttpClient对象，并传入前面构造的属性值publi
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
面试官：Spring 如何控制 Bean 的加载顺序？
在大多数情况下，我们不需要手动控制Bean的加载顺序，因为Spring的IoC容器足够智能。核心原则：依赖驱动加载SpringIoC容器会构建一个依赖关系图（DependencyGraph）。如果BeanA依赖于BeanB（例如，A的构造函数需要一个B类型的参数），Spring会保证在创建BeanA之前，BeanB已经被完全创建和初始化好了。@ServicepublicclassServiceA{
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户