雷神乐乐

Hive学习——企业级调优

一、计算资源调优

(一)Yarn资源配置——集群

1.Yarn配置说明

(1)yarn.nodemanager.resource.memory-mb

(2)yarn.nodemanager.resource.cpu-vcores

(3)yarn.scheduler.maximum-allocation-mb

(4)yarn.scheduler.minimum-allocation-mb

(二)MapReduce资源配置

二、SQL执行计划调优

(一)Explain查看执行计划(终点)

1.基本语法

2.案例

(二)分组聚合调优

1.优化说明

2.分组聚合优化案例

(三)Join优化

1.JOIN算法概述

2.Map Join

3.Bucket Map Join

4.Sort Merge Bucket Map Join

5.Hive-join优化总结

(四)数据倾斜(重要)

1.数据倾斜概述

2.分组聚合导致的数据倾斜

(1)Map-Side聚合

(2)Skew-GroupBy优化

(3)优化案例

2.Join导致的数据倾斜

(1)map join——适用于大表 join 小表时存在数据倾斜的场景

(2)skew join——适用于大表 join 大表时存在数据倾斜的场景

(3)调整SQL语句——适用于大表 join 大表时存在数据倾斜的场景

(4)优化案例

(五)任务并行度

1.Map端并行度——一般不用调

(1)查询的表中存在大量小文件

(2)map端有复杂的查询逻辑

2.Reduce端并行度

(六)小文件合并

1.Map端输入文件合并

2.Reduce输出文件合并

3.优化案例

(七)CBO优化

1.CBO优化说明

2.优化案例

(八)谓词(where过滤)下推

(九)矢量化(向量化)查询

(十)Fetch抓取

1.Fetch说明

2.优化案例

(十一)本地模式

(十二)并行执行

(十三)严格模式——全局配置较多

1.分区表使用分区过滤——防止全表扫描

2.使用order by必须有limit过滤——防止全局排序

3.限制笛卡尔积查询——防止出现不可控的情况

一、计算资源调优

(一)Yarn资源配置——集群

1.Yarn配置说明

SQL跑得慢可能是资源没给够，需要多分配内存或CPU等资源。需要调整的Yarn参数均与CPU、内存等资源有关，核心配置参数如下：

(1)yarn.nodemanager.resource.memory-mb

该参数的含义是，一个NodeManager节点分配给Container使用的内存，默认为8G。该参数的配置，取决于NodeManager所在节点的总内存容量和该节点运行的其他服务的数量。例如服务器内存为128G，通常情况下可以配置为内存的1/2~2/3，也可以根据实际情况进行配置。内存设置过大，可能会导致yarn无法启动。

考虑上述因素，此处可将该参数设置为64G，如下：


    yarn.nodemanager.resource.memory-mb
    65536

(2)yarn.nodemanager.resource.cpu-vcores

该参数的含义是，一个NodeManager节点分配给Container使用的CPU核数。该参数的配置，同样取决于NodeManager所在节点的总CPU核数和该节点运行的其他服务。

考虑上述因素，此处可将该参数设置为16。CPU与内存一般情况下通常是1:4的配置关系。


    yarn.nodemanager.resource.cpu-vcores
    16

(3)yarn.scheduler.maximum-allocation-mb

例如给mapper申请的内存是10G，yarn给Container的最大内存为8G，yarn给Conatiner的最小内存为4G，10<(8+4)，这样就会导致mapper内存无法申请，因为超过了yarn给mapper内存的规定大小。最大值可以稍微调大，最小值可以稍微调小。

该参数的含义是，单个Container能够使用的最大内存。推荐配置如下：


    yarn.scheduler.maximum-allocation-mb
    16384

(4)yarn.scheduler.minimum-allocation-mb

该参数的含义是，单个Container能够使用的最小内存，推荐配置如下：


    yarn.scheduler.minimum-allocation-mb
    512

hadoop102 hadoop103 hadoop104的虚拟内存设置为16G，电脑实际内存为64G

(二)MapReduce资源配置

如果电脑内存是32G，那么集群的每个节点推荐设置为8G，三个节点，一共8*3=24G，要留一些内存给Windows

yarn-site.xml中的物理内存也要进行相应的修改，要<8G，例如调成6G=6*1024=6144

对应的最大最小内存也要查看是否超出范围

二、SQL执行计划调优

(一)Explain查看执行计划(终点)

Explain查看执行计划：一条SQL语句翻译成了几个map，几个reduce，map和reduce分别做了哪些事情。

1.基本语法

EXPLAIN [FORMATTED | EXTENDED | DEPENDENCY] query-sql

注：FORMATTED、EXTENDED、DEPENDENCY关键字为可选项，各自作用如下。

FORMATTED：将执行计划以JSON字符串的形式输出

EXTENDED：输出执行计划中的额外信息，通常是读写的文件名等信息

DEPENDENCY：输出执行计划读取的表及分区

常见的Operator及其作用如下：

TableScan：表扫描操作，通常map端第一个操作肯定是表扫描操作

Select Operator：选取操作

Group By Operator：分组聚合操作

Reduce Output Operator：输出到 reduce 操作

Filter Operator：过滤操作

Join Operator：join 操作

File Output Operator：文件输出操作

Fetch Operator 客户端获取数据操作

2.案例

explain select product_id,
       count(*)
from order_detail
group by product_id;

STAGE DEPENDENCIES:
  Stage-1 is a root stage
  Stage-0 depends on stages: Stage-1
""
STAGE PLANS:
  Stage: Stage-1
    Map Reduce
      Map Operator Tree:
          TableScan
            alias: order_detail
            Statistics: Num rows: 13066777 Data size: 11760099340 Basic stats: COMPLETE Column stats: NONE
            Select Operator
              expressions: product_id (type: string)
              outputColumnNames: product_id
              Statistics: Num rows: 13066777 Data size: 11760099340 Basic stats: COMPLETE Column stats: NONE
              Group By Operator
                aggregations: count()
                keys: product_id (type: string)
                mode: hash
"                outputColumnNames: _col0, _col1"
                Statistics: Num rows: 13066777 Data size: 11760099340 Basic stats: COMPLETE Column stats: NONE
                Reduce Output Operator
                  key expressions: _col0 (type: string)
                  sort order: +
                  Map-reduce partition columns: _col0 (type: string)
                  Statistics: Num rows: 13066777 Data size: 11760099340 Basic stats: COMPLETE Column stats: NONE
                  value expressions: _col1 (type: bigint)
      Execution mode: vectorized
      Reduce Operator Tree:
        Group By Operator
          aggregations: count(VALUE._col0)
          keys: KEY._col0 (type: string)
          mode: mergepartial
"          outputColumnNames: _col0, _col1"
          Statistics: Num rows: 6533388 Data size: 5880049219 Basic stats: COMPLETE Column stats: NONE
          File Output Operator
            compressed: false
            Statistics: Num rows: 6533388 Data size: 5880049219 Basic stats: COMPLETE Column stats: NONE
            table:
                input format: org.apache.hadoop.mapred.SequenceFileInputFormat
                output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat
                serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
""
  Stage: Stage-0
    Fetch Operator
      limit: -1
      Processor Tree:
        ListSink
""

explain dependency
select product_id,
       count(*)
from order_detail
group by product_id;

{
    "input_tables":[
        {
            "tablename":"db_hive2@order_info",
            "tabletype":"MANAGED_TABLE"
        }
    ],
    "input_partitions":[
    ]
}

(二)分组聚合调优

1.优化说明

--启用map-side聚合
set hive.map.aggr=true;
--用于检测源表数据是否适合进行map-side聚合。

检测的方法是：先对若干条数据进行map-side聚合，若聚合后的条数和聚合前的条数比值小于该值，则认为该表适合进行map-side聚合；否则，认为该表数据不适合进行map-side聚合，后续数据便不再进行map-side聚合。
set hive.map.aggr.hash.min.reduction=0.5;
--用于检测源表是否适合map-side聚合的条数。
set hive.groupby.mapaggr.checkinterval=100000;
--map-side聚合所用的hash table，占用map task堆内存的最大比例，若超出该值，则会对hash table进行一次flush。
set hive.map.aggr.hash.force.flush.memory.threshold=0.9;
        如果根据id分组是不切实际的，因为每行的id都不一样，按照表中重复的数据进行聚合，才有意义。
        总结：group by 不重复的字段越小，越适合聚合，不重复的字段越大，越不适合聚合。
        如果想让map去做更多的聚合，需要将hive.map.aggr.hash.min.reduction=0.5的值设置为更大，如果值设置为1，所有的都会强制走map聚合。

2.分组聚合优化案例

代码：

explain formatted 
select 
       product_id,
       count(*)
from order_detail
group by product_id;

-- 优化前：

set hive.map.aggr=false;--(2m16s)
下图可以看到，map端接收的所有数据几乎全部都输出到reduce端

-- 优化后：

set hive.map.aggr=true;-- (1m43s)
set hive.map.aggr.hash.min.reduction=1;--(1m23s)
如果输出的mapreduce>分组字段的行数(product_id=100w)，就说明此处发生flush的次数过多。解决办法：1.flush阈值调大

2.map端的总内存调大set mapreduce.map.memery.mb

mapper端的Group By Operator在内存当中维护一个hash表，然后对数据进行聚合；

reduce端对每一个mapper发送过来的部分的部分聚合的结果进行最终的合并。

(三)Join优化

1.JOIN算法概述

(1)Common Join

Common Join通过一个MapReduce Job完成一个join操作。Map端负责读取join操作所需表的数据，并按照关联字段进行分区，通过Shuffle，将其发送到Reduce端，相同key的数据在Reduce端完成最终的Join操作。

需要注意的是，sql语句中的join操作和执行计划中的Common Join任务并非一对一的关系，一个sql语句中的相邻的且关联字段相同的多个join操作可以合并为一个Common Join任务。

-- 例如：

-- 关联字段相同是一个Common Join任务实现，也就是可通过一个Map Reduce任务实现。
select 
    a.val, 
    b.val, 
    c.val 
from a 
join b on (a.key = b.key1) 
join c on (c.key = b.key1)
-- 关联字段各不相同，需要两个Common Join任务实现，也就是可通过两个Map Reduce任务实现。
select 
    a.val, 
    b.val, 
    c.val 
from a 
join b on (a.key = b.key1) 
join c on (c.key = b.key2)
如果多表关联的字段是一样的，都是id，那么就启动一个mapreduce，shuffle的时候就按照同一个字段来进行shuffle；如果多表关联的字段不一样，那么不同的mapper分区字段不同，只能先去做一个common join，然后和c表做下一次join操作，这时就会启动两个mapreduce。

(2)Map Join——Map端完成关联操作

适用场景：大表join小表

一个join由map阶段的两个job完成，即在map端完成关联操作

两个job执行流程：

第一个job读取小表数据→将小表只作为hash表→上传至HDFS→

第二个job从HDFS上读取小表数据→缓存在Map Task内存中→扫描大表数据→

完成关联操作

(3)Bucket Map Join

适用场景：大表join大表，大表join小表

核心思想：参与join的表均为分桶表，且关联字段为分桶字段，且其中一张表的分桶数量是另外一张表分桶数量的整数倍，就能保证参与join的两张表的分桶之间具有明确的关联关系，所以就可以在两表的分桶间进行Map Join操作了。这样一来，第二个Job的Map端就无需再缓存小表的全表数据了，而只需缓存其所需的分桶即可。

(4)Sort Merge Bucket Map Join（简称SMB Map Join）

SMB Map Join要求，参与join的表均为分桶表，且需保证分桶内的数据是有序的，且分桶字段、排序字段和关联字段为相同字段，且其中一张表的分桶数量是另外一张表分桶数量的整数倍。两个分桶之间的join实现原理为Sort Merge Join算法。Sort Merge Join需要在两张按照关联字段排好序的表中进行。

Hive中的SMB Map Join就是对两个分桶的数据按照上述思路进行Join操作。可以看出，SMB Map Join与Bucket Map Join相比，在进行Join操作时，Map端是无需对整个Bucket构建hash table，也无需在Map端缓存整个Bucket数据的，每个Mapper只需按顺序逐个key读取两个分桶的数据进行join即可。

2.Map Join

--启动Map Join自动转换
set hive.auto.convert.join=true;
一个Common Join operator转为Map Join operator的判断条件,若该Common Join相关的表中,存在n-1张表的已知大小总和<=该值,则生成一个Map Join计划,此时可能存在多种n-1张表的组合均满足该条件,则hive会为每种满足条件的组合均生成一个Map Join计划,同时还会保留原有的Common Join计划作为后备(back up)计划,实际运行时,优先执行Map Join计划，若不能执行成功，则启动Common Join后备计划。

-- 没有条件计划的小表总和的阈值
set hive.mapjoin.smalltable.filesize=250000;
--开启无条件转Map Join
set hive.auto.convert.join.noconditionaltask=true;
--无条件转Map Join时的小表之和阈值,若一个Common Join operator相关的表中，存在n-1张表的大小总和<=该值,此时hive便不会再为每种n-1张表的组合均生成Map Join计划,同时也不会保留Common Join作为后备计划。而是只生成一个最优的Map Join计划。

-- 有条件计划的小表总和的阈值
set hive.auto.convert.join.noconditionaltask.size=10000000;

判断逻辑：

针对的是执行计划中的Common Join Task，而不是SQL语句中的join语句，SQL中的join与执行计划中的join task不是一一对应，因为join on的字段有可能相同，也有可能不同。

1.总开关：hive.auto.convert.join

        false执行common join;

        true(默认值)执行自动将common join转换为map join

2.寻找大表候选人：a left join b时，a表是大表候选人；a right join b时，b表时大表候选人；a inner join b时，a表和b表都有可能是大表候选人；a full join b时，走common join。

3.是否不考虑条件任务：hive.auto.convert.join.noconditionaltask

        条件任务不是所有场景都需要，如果参与join的表的大小在编译阶段不知道，这时就可以考虑设置条件任务，执行后备的计划；如果参与join的表的大表在编译阶段是知道的，这时条件任务无需考虑。

        (1)如果不需要条件任务设置为true：

        核心判断逻辑：没有条件任务意味着没有后备计划(即back up计划)，此时要保证大表候选人之外的小白的大小均已知，且其小表总和<内存中能够放下的小表总和的阈值(即hive.auto.convert.join.noconditionaltask.size，其作用与hive.mappjoin.smalltable.filesize相同)，此时，才会生成最优map join计划(即将三张表进行inner join关联时，将最大的表设置为大表，将最小的两张表设置为小表)，此时map端所需内存最小。即使设置了不需要条件任务，但是有些表的大小仍是未知的，也不会生成map join计划，还是会生成Conditional Task。

        生成了最优的map join计划之后，还会进行优化：如果多表关联使用的是不同的关联方法，那么就会生成两个map join，例如a left join b，b right join c；a表(大表)和b表会生成一个新的表m，开启一个map join，m表和c表进行关联，也会生成一个map join，且b表和c表的大小是已知的，并且其总和<小表总和的阈值(hive.auto.convert.join.noconditionaltask.size)，此时，就会将两个map join合并为一个任务，就能够完成两个common join的任务。如果b表+c表>阈值，两个map join就不会进行合并，还保持原有的map join计划。

        (2)如果不需要条件任务设置为false：即开启条件任务

        核心的判断逻辑：尝试以每个大表候选人作为大表，生成map join计划，然后利用有限的信息去排除一些一定不能成功的执行计划，判断方法：如果某大表候选人大小已知，且Join的小表总和>设置好的小表总和的阈值(hive.mappjoin.smalltable.filesize)，则对应的map join计划就不会生成。如果有map join计划生成，那么就会生成Conditional Task，并将所有map join计划和原油的common join计划加入其任务列表，common join作为back up计划，有back up计划是因为留下来的map join计划也不一定能成功，因为上面只判断了一定不能成功的执行计划。最终执行计划在运行时决定。

案例：

explain formatted select *
from order_detail od
         join product_info product on od.product_id = product.id
         join province_info province on od.province_id = province.id;

优化前：(7min+)

-- 优化前，采用common join
-- 总开关关闭
set hive.auto.convert.join=false;
-- 优化前的执行计划：两张表进行关联，得到一个新表，然后这个新表和第三张表进行关联，得出结果。

-- 其中一个reduce迟迟不完成，可能是发生了数据倾斜，数据分布不均匀，大量的数据跑到第一个reduce中，该reduce接收的数据很多，处理的时间就会长。

-- reduce的个数是由hive根据数据量估算出来的，没有默认值，也可以设置

优化思路：

必须基于SQL中关联的表的大小来考虑应当采用哪种join算法。

-- 查看表的详细信息语法：
desc formatted table_name partition(partition_col='partition');

-- 首先查看order_detail表的信息
desc formatted order_detail;-- 大表
-- 29行：totalSize=1176009934/1024/1024/1024~= 1GB       

-- product_info表的信息
desc formatted product_info;-- 小表
-- 21行：totalSize=25285707/1024/1024~=25MB

-- province_info表的信息
desc formatted province_info;-- 小表
-- 19行：totalSize=369KB

优化方案一：(4min+)

-- 启动map join自动转换
set hive.auto.convert.join=true;

-- 不使用无条件转Map Join即开启条件任务对应map join逻辑图的右侧
set hive.auto.convert.join.noconditionaltask=false;

-- 调整hive.mapjoin.smalltable.filesize参数，使其>=product_info
set hive.mapjoin.smalltable.filesize=25285707;
-- 方案一的执行计划十分复杂

只有map没有reduce说明走的是map join，对应上图的stage-8，因为stage-12是本地任务，本地任务是不会把资源提交到yarn上的。

接下来跑的是stage-5：将product_info当成小表，扫描前两个表join的输出结果

优化方案二：(2min+)——最优执行计划

set hive.auto.convert.join=true;
set hive.auto.convert.join.noconditionaltask=true;-- 使用无条件转换
set hive.auto.convert.join.noconditionaltask.size=25286076;
-- 调整小表阈值=关联的两张小表之和(product_info+province_info)
-- 目的是可以将两个map join进行合并
--执行计划：两个map join进行了合并，形成最优map join计划

-- 这个方案计算效率最高，但需要的内存也是最多的。

优化方案三：(4min+)与方案一类似

set hive.auto.convert.join=true;
set hive.auto.convert.join.noconditionaltask=true;-- 使用无条件转换
set hive.auto.convert.join.noconditionaltask.size=25285707;-- 设置为小表中较大表(product_info)的大小
-- 这样可直接将两个Common Join operator转为Map Join operator
-- 但不会将两个Map Join的任务合并
-- 该方案计算效率比方案二低，但需要的内存也更少。

-- 执行计划

province_info和order_info表先做第一次的map join，然后product_info和前两张表join的结果再进行map join，完成输出。

说明：

hive.mapjoin.smalltable.filesize
hive.auto.convert.join.noconditionaltask.size
这两个参数要根据HDFS存储文件的大小来判断，最终要根据map端的总内存来配置，例如map端的内存设置为4G，阈值设置为1G是不可行的，因为这1G是文件的大小，文件在磁盘中占用的空间和文件加载到内存当中是不一样的，文件加载到内存当中有一个解序列化的过程，也可能是一个个对象，所以文件的大小要远远<文件加载到内存当中的大小。

如果总内存为4G，要拿出1G用来缓存小表，阈值如果也设置为1G，相当于在内存上缓存乘以10的大小，所以，文件大小如果是1G，那么阈值要除以10，即100MB。

3.Bucket Map Join

不支持自动转换

select *
from (
         select *
         from order_detail
         where dt = '2020-06-14'
     ) od
         join(
    select *
    from payment_detail
    where dt = '2020-06-14'
) pd
             on od.id = pd.order_detail_id;

优化前：

set hive.auto.convert.join=false;
-- 执行计划：执行一个普通的common join

优化后：

-- 使用bucket map join,参与join的表必须均为分桶表，且关联字段为分桶字段，且其中一张表的分桶数量是另外一张表分桶数量的整数倍

-- 查看两张表的大小
desc formatted order_detail;-- 1G
desc formatted payment_detail;-- 320MB+

-- 首先需要依据源表创建两个分桶表，order_detail建议分16个bucket，payment_detail建议分8个bucket，注意分桶个数的倍数关系以及分桶字段。

-- 订单表分桶
create table order_detail_bucketed
(
    id           string comment '订单id',
    user_id      string comment '用户id',
    product_id   string comment '商品id',
    province_id  string comment '省份id',
    create_time  string comment '下单时间',
    product_num  int comment '商品件数',
    total_amount decimal(16, 2) comment '下单金额'
)
    clustered by (id) into 16 buckets
    row format delimited fields terminated by '\t';
-- 加载数据
insert overwrite table order_detail_bucketed
select id,
       user_id,
       product_id,
       province_id,
       create_time,
       product_num,
       total_amount
from order_detail
where dt = '2020-06-14';


-- 支付表分桶设置为小表
create table payment_detail_bucketed
(
    id              string comment '支付id',
    order_detail_id string comment '订单明细id',
    user_id         string comment '用户id',
    payment_time    string comment '支付时间',
    total_amount    decimal(16, 2) comment '支付金额'
)
    clustered by (order_detail_id) into 8 buckets
    row format delimited fields terminated by '\t';
-- 加载数据
insert overwrite table payment_detail_bucketed
select id,
       order_detail_id,
       user_id,
       payment_time,
       total_amount
from payment_detail
where dt = '2020-06-14';

-- 然后设置以下参数：

--关闭cbo优化，cbo会导致hint信息被忽略，需将如下参数修改为false
set hive.cbo.enable=false;
--map join hint默认会被忽略(因为已经过时)，需将如下参数修改为false
set hive.ignore.mapjoin.hint=false;
--启用bucket map join优化功能,默认不启用，需将如下参数修改为true
set hive.optimize.bucketmapjoin = true;
-- 支付表分桶为小表(320MB+)，每个桶都要缓存到map task中，分为8个桶，所以每个桶大概是320MB/8=40MB(文件大小)
-- 加载到内存中为40MB*10=400MB，map端内存默认为1024MB，1024>400，所以可以放得下

-- 重写sql语句

explain extended select /*+ mapjoin(pd) */
    *
from order_detail_bucketed od
join payment_detail_bucketed pd on od.id = pd.order_detail_id;

-- 优化后的执行计划

4.Sort Merge Bucket Map Join

不需要设置小表阈值，也不需要考虑内存的大小

触发Sort Merge Bucket Map Join前提条件：

1.保证参与join的表均为分桶表，且关联字段为分桶字段，且其中一张表的分桶数量是另外一张表分桶数量的整数倍；

2.设置以下的参数：
--启动Sort Merge Bucket Map Join优化
set hive.optimize.bucketmapjoin.sortedmerge=true;
--使用自动转换SMB Join
set hive.auto.convert.sortmerge.join=true;

5.Hive-join优化总结

不需要每个SQL语句都配置参数，通常是全局配置参数。

Map join的配置：大表 join 小表
-- 下面两条要进行全局设置，即在hive-site.xml文件中
set hive.auto.convert.join=true;
set hive.auto.convert.join.noconditionaltask=true;

-- 下面两条的参数取决于map端的缓存容量，最好是map端总内存的1/2~2/3，记得要除以10
-- 例如map端内存3G，要配置2G来缓存文件，那么下面的参数就要2/10=200MB;
set hive.mapjoin.smalltable.filesize=200MB*1024;
set hive.auto.convert.join.noconditionaltask.size=200MB*1024;
如果只有单条的SQL语句执行时间比其他SQL语句执行时间要长很多，那么就要针对改条SQL语句单独配置参数。

Bucket Map Join的配置：大表 join 大表

考虑分几个桶，也取决于map端的内存
--关闭cbo优化，cbo会导致hint信息被忽略
set hive.cbo.enable=false;
--map join hint默认会被忽略(因为已经过时)，需将如下参数设置为false
set hive.ignore.mapjoin.hint=false;
--启用bucket map join优化功能
set hive.optimize.bucketmapjoin = true;
SMB Map Join的配置：大表 join 大表

也要分桶，然后设置下面的参数
--启动Sort Merge Bucket Map Join优化
set hive.optimize.bucketmapjoin.sortedmerge=true;
--使用自动转换SMB Join
set hive.auto.convert.sortmerge.join=true;
调研需求，设计架构，开发过程中分析出哪些数据量大，哪些数据量小，提前考虑好数据倾斜的问题，一个reduce能够做完就尽量不要用多个reduce；

设置合理的mapreduce的task数量，在处理数据时测试和监控，基于数据量的大小计算map 、reduce的物理内存，压缩分区，查看是否有数据倾斜的发生，如果有数据倾斜，那么要查看哪些字段的数据会有数据倾斜的发生。

(四)数据倾斜(重要)

1.数据倾斜概述

一条SQL语句的执行需要跑一个map reduce，使用分区字段恰好是分布不均的字段，就会导致在shuffle阶段，大量相同的数据被发往同一个reduce，进而导致该reduce所需的时间远远超过其他reduce，成为整个任务的瓶颈。

业务中不怕数据量大，可以控制并行度，就怕数据倾斜，以为此时并行度即使再大，大量相同的数据仍然会被发往同一个reduce。

2.分组聚合导致的数据倾斜

如果group by分组字段的值分布不均，就可能导致大量相同的key进入同一个reduce，从而导致数据倾斜问题。解决分组聚合导致的数据倾斜问题有以下两种解决思路：

(1)Map-Side聚合

参考(二)1

set hive.map.aggr=true;
set hive.map.aggr.hash.min.reduction=0.5;
set hive.map.aggr.hash.force.flush.memory.threshold=0.9;

(2)Skew-GroupBy优化

Skew-GroupBy的原理是启动两个MR任务，第一个MR按照随机数分区，将数据分散发送到Reduce，完成部分聚合，第二个MR按照分组字段分区，完成最终聚合。相关参数如下：

--启用分组聚合数据倾斜优化
set hive.groupby.skewindata=true;

(3)优化案例

-- 查询每个省份的订单数
-- 表中province_id 99%的数据为1，此时就会有数据倾斜
select
    province_id,
    count(*)
from order_detail
group by province_id;

优化前：

set hive.map.aggr=false;
set hive.groupby.skewindata=false;
其他的reduce任务都完成，只有一个没有完成，发生了数据倾斜。

方案一在map端维护了hash表，比较耗费内存，如果达到map端的阈值，就会flush一次，当数据量很大，而map端的阈值又相对较小，就会flush很多次。

优化后：

-- 方案一：

--启用map-side聚合
set hive.map.aggr=true;
--关闭skew-groupby
set hive.groupby.skewindata=false;
此时每个reduce执行时间是均匀的，没有发生数据倾斜

-- 方案二：

--关闭map-side聚合
set hive.map.aggr=false;
--启用skew-groupby
set hive.groupby.skewindata=true;
此时每个reduce的运行时间相对均匀，但比方案一的时间要长一些

但是方案二比方案一相对好一些，不考虑内存，把数据打散再聚合。

2.Join导致的数据倾斜

前文提到过，未经优化的join操作，默认是使用common join算法，也就是通过一个MapReduce Job完成计算。Map端负责读取join操作所需表的数据，并按照关联字段进行分区，通过Shuffle，将其发送到Reduce端，相同key的数据在Reduce端完成最终的Join操作。

如果关联字段的值分布不均，就可能导致大量相同的key进入同一Reduce，从而导致数据倾斜问题。由join导致的数据倾斜问题，有如下三种解决方案：

(1)map join——适用于大表 join 小表时存在数据倾斜的场景

使用map join算法，join操作仅在map端就能完成，没有shuffle操作，没有reduce阶段，自然不会产生reduce端的数据倾斜。该方案适用于大表join小表时发生数据倾斜的场景。相关参数如下：参考前文二、(二)

--启动Map Join自动转换
set hive.auto.convert.join=true;
-- 小表阈值
set hive.mapjoin.smalltable.filesize=250000;
--开启无条件转Map Join
set hive.auto.convert.join.noconditionaltask=true;
-- 小表阈值
set hive.auto.convert.join.noconditionaltask.size=10000000;

(2)skew join——适用于大表 join 大表时存在数据倾斜的场景

skew join的原理是，为倾斜的大key单独启动一个map join任务进行计算，其余key进行正常的common join。原理图如下：

        原理解释：

        A表joinB表，A表中K1的数据量远大于其他的key，存在数据倾斜，当reduce端检测到数据倾斜的key，就不会完成key的join操作，会将A表中的k1和B表中的k1数据写到HDFS上，此时HDFS中就会产生两个文件：一个是来自A表的k1数据，一个是来自B表的k1数据，两表一大一小，对B表中的k1缓存到每一个map中，A表中的k1均匀地被切片，每一个mapper负责一个切片，就不会有数据倾斜的问题了。



        相关参数：

--启用skew join优化
set hive.optimize.skewjoin=true;
--触发skew join的阈值，若某个key的行数超过该参数值，则触发
set hive.skewjoin.key=100000;
注：这种方案对参与join的源表大小没有要求，但是对两表中倾斜的key的数据量有要求，要求一张表中的倾斜key的数据量比较小（方便走mapjoin）。

(3)调整SQL语句——适用于大表 join 大表时存在数据倾斜的场景

若参与join的两表均为大表，其中一张表的数据是倾斜的，此时也可通过以下方式对SQL语句进行相应的调整。假设原始SQL语句如下：A，B两表均为大表，且其中一张表的数据是倾斜的。

初始化代码：

select
    *
from A
join B
on A.id=B.id;

优化前：

优化后：

select
    *
from(
    select --打散操作
        concat(id,'_',cast(rand()*2 as int)) id,
        -- select cast(rand() * 2 as int);‘
        -- 0或1，将倾斜的key分成两部分，一部分id_0，另一部分id_1

        value
    from A
)ta
join(
    select --扩容操作
        concat(id,'_',0) id,
        value
    from B
    union all
    select
        concat(id,'_',1) id,
        value
    from B
)tb
on ta.id=tb.id;

(4)优化案例

-- 优化前：

set hive.auto.convert.join=false;
-- hive中的map join自动转换是默认开启的，
-- 若想看到数据倾斜的现象，需要先将hive.auto.convert.join参数设置为false。
set hive.optimize.skewjoin=false;
-- skew join也要关闭

select
    *
from order_detail od
join province_info pi
on od.province_id=pi.id;
执行计划：

执行common join，由一个map reduce完成，一个读取order_detail表，一个读取province_info表，在reduce端完成join操作。

这里有一个reduce迟迟未完成，发生了数据倾斜。

-- 优化后：

-- 方案一：map join

set hive.auto.convert.join=true;
只有map，没有reduce，没有发生数据倾斜

-- 方案二：skew join

set hive.auto.convert.join=false;-- 关闭map join
set hive.optimize.skewjoin=true;-- 开启skew join
执行计划：

该sql在yarn上最终启动了两个mr任务，而且第二个任务只有map没有reduce阶段，说明第二个任务是对倾斜的key进行了map join。

(五)任务并行度

对于一个分布式的计算任务而言，设置一个合适的并行度十分重要。Hive的计算任务由MapReduce完成，故并行度的调整需要分为Map端和Reduce端。

1.Map端并行度——一般不用调

(1)查询的表中存在大量小文件

-- 默认是开启的
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

(2)map端有复杂的查询逻辑

若SQL语句中有正则替换、json解析等复杂耗时的查询逻辑时，map端的计算会相对慢一些。若想加快计算速度，在计算资源充足的情况下，可考虑增大map端的并行度，令map task多一些，每个map task计算的数据少一些。

--一个切片的最大值
set mapreduce.input.fileinputformat.split.maxsize=256000000;

2.Reduce端并行度

Reduce端的并行度，也就是Reduce个数。相对来说，更需要关注。Reduce端的并行度，可由用户自己指定，也可由Hive自行根据该MR Job输入的文件大小进行估算。

Reduce端的并行度的相关参数如下：

--指定Reduce端并行度，默认值为-1，表示用户未指定
set mapreduce.job.reduces;
--Reduce端并行度最大值
set hive.exec.reducers.max;
--单个Reduce Task计算的数据量，用于估算Reduce并行度
set hive.exec.reducers.bytes.per.reducer;

优化案例：

select
    province_id,
    count(*)
from order_detail
group by province_id;

-- 优化前：

刷新所有的参数

开启了5个reduce，5个Reduce端实际一共会接收170（34*5）条记录，理论上Reduce端并行度设置为1就足够了。这种情况下，用户可通过以下参数，自行设置Reduce端并行度为1。

-- 优化后：

--指定Reduce端并行度，默认值为-1，表示用户未指定
set mapreduce.job.reduces=1;
这样，一个reduce就可以接收170条记录，节省资源。

(六)小文件合并

1.Map端输入文件合并

合并Map端输入的小文件，是指将多个小文件划分到一个切片中，进而由一个Map Task去处理。目的是防止为单个小文件启动一个Map Task，浪费计算资源。相关参数为：

--可将多个小文件切片，合并为一个切片，进而由一个map任务处理
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

2.Reduce输出文件合并

合并Reduce端输出的小文件，是指将多个小文件合并成大文件。目的是减少HDFS小文件数量。其原理是根据计算任务输出文件的平均大小进行判断，如果任务输出文件的平均大小<触发小文件合并任务的阈值，就会去进行相应的合并。相关参数为：

--开启合并map，针对只有map的计算输出小文件任务
set hive.merge.mapfiles=true;-- 默认为false
--开启合并map reduce任务输出的小文件，如果reduce端输出有小文件就会触发
set hive.merge.mapredfiles=true;-- 默认为false
--合并后的文件大小
set hive.merge.size.per.task=256000000;
--触发小文件合并任务的阈值，若某计算任务输出的文件平均大小低于该值，则触发合并
set hive.merge.smallfiles.avgsize=16000000;

3.优化案例

-- 优化前：

drop table if exists order_amount_by_province;
create table order_amount_by_province
(
    province_id  string comment '省份id',
    order_amount decimal(16, 2) comment '订单金额'
)
    location '/order_amount_by_province';

insert overwrite table order_amount_by_province
select province_id,
       sum(total_amount)
from order_detail
group by province_id;

有几个reduce，就会产生几个文件，在并行度设置那一节我们已知select语句会产生5个reduce，因此，会产生5个小文件。

-- 优化后：

-- 方案一：合理设置任务的Reduce端并行度

若将上述计算任务的并行度设置为1，就能保证其输出结果只有一个文件。

set mapreduce.job.reduces=1;

-- 方案二：启用Hive合并小文件优化

-- 开启合并map reduce任务输出的小文件
set hive.merge.mapredfiles=true;

-- 合并后的文件大小(不进行设置，使用默认值即可)
set hive.merge.size.per.task=256000000;

-- 触发小文件合并任务的阈值，若某计算任务输出的文件平均大小低于该值，则触发合并
-- (不进行设置，使用默认值即可)
set hive.merge.smallfiles.avgsize=16000000;

(七)CBO优化

1.CBO优化说明

CBO是指Cost based Optimizer，即基于计算成本的优化。

在Hive中，计算成本模型考虑到了：数据的行数、CPU、本地IO、HDFS IO、网络IO等方面。Hive会计算同一SQL语句的不同执行计划的计算成本，并选出成本最低的执行计划。目前CBO在hive的MR引擎下主要用于join的优化，例如多表join的join顺序。相关参数为：

--是否启用cbo优化
set hive.cbo.enable=true;

2.优化案例

select
    *
from order_detail od
join product_info product on od.product_id=product.id
join province_info province on od.province_id=province.id;

-- 优化前：

--关闭cbo优化 
set hive.cbo.enable=false;

--为了测试效果更加直观，关闭map join自动转换
set hive.auto.convert.join=false;
与SQL语句中join的顺序一致

大表(order_info)与大表(product_info)进行join，结果有更大的可能性是一个大表。

-- 优化后：

-- 与SQL语句中join的顺序不一致，先是order_info与province_info进行关联，形成一个新表，然后新表与product_info进行关联。

上面两张图的差异主要体现在middle result的优化。

大表(order_info)与小表(province_info)进行关联，有更大的可能性产生一个小表，从而使整个计算任务的数据量减小，也就是使计算成本变小。

(八)谓词(where过滤)下推

1.谓词下推优化说明

谓词下推（predicate pushdown）是指，尽量将过滤操作前移，以减少后续计算步骤的数据量。相关参数为：
--是否启动谓词下推（predicate pushdown）优化
set hive.optimize.ppd = true;
需要注意的是：CBO优化也会完成一部分的谓词下推优化工作，因为在执行计划中，谓词越靠前，整个计划的计算成本就会越低。

2.优化案例

select
    *
from order_detail
join province_info
where order_detail.province_id='2';

-- 优化前：

--是否启动谓词下推（predicate pushdown）优化
set hive.optimize.ppd = false;

--为了测试效果更加直观，关闭cbo优化
set hive.cbo.enable=false;

执行计划：

先对order_info和province_info进行关联，关联后再进行过滤，效率低。

-- 优化后：

-- 方案一：谓词下推

--是否启动谓词下推（predicate pushdown）优化
set hive.optimize.ppd = true;

--为了测试效果更加直观，关闭cbo优化
set hive.cbo.enable=false;
执行计划：

先将order_detail.province_id='2'的数据过滤出来，形成一个新表，然后再与province_info进行关联。

-- 方案二：修改SQL语句，先过滤，再进行join操作

select *
from (select *
      from order_detail
      where product_id = '2'
     ) t1
         join province_info;
执行计划：与谓词下推差异不大，所以hive中的子查询并不会影响性能。

(九)矢量化(向量化)查询

Hive的矢量化查询优化，依赖于CPU的矢量化计算，可以极大的提高一些典型查询场景（例如scans, filters, aggregates, and joins）下的CPU使用效率。相关参数如下：

-- 只需将其设置为true即可
set hive.vectorized.execution.enabled=true;

(十)Fetch抓取

1.Fetch说明

一些简单的查询，例如select * from emp，不需要提交到yarn上进行MapReduce操作，在本地运行即可。在这种情况下，Hive可以简单地读取emp对应的存储目录下的文件，然后输出查询结果到控制台。相关参数如下：

-- 该设置主要是控制哪些查询能够直接转为Fetch抓取任务的，即是否在特定场景转换为fetch 任务
--设置为none表示不转换
--设置为minimal表示支持select *，分区字段过滤，Limit等
--设置为more表示支持select 任意字段,包括函数，过滤，和limit等
set hive.fetch.task.conversion=more;

2.优化案例

select * from province_info;

-- 优化前：(51s)

set hive.fetch.task.conversion=none;-- 不转换为Fetch任务
可以看到即使一个很简单的查询也会进行MR计算

-- 优化后：(583ms)

set hive.fetch.task.conversion=minimal;
-- 开启Fetch计算，并且没有提交到yarn

(十一)本地模式

将原来需要提交到yarn上的操作，例如分组聚合、join转为本地任务，在本地的进程当中完成分布式运算。本地模式的前提是数据量不能太大。相关参数如下：

-- framework.name=local这一设置要慎用，它强制将所有的操作都转为本地模式
set mapreduce.framework.name=local;

-- 开启自动转换为本地模式
set hive.exec.mode.local.auto=true;  

-- 设置local MapReduce的最大输入数据量，当输入数据量小于这个值时采用local，否则提交到yarn
-- MapReduce的方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max=50000000;-- 尽量<1G

-- 设置local MapReduce的最大输入文件个数，当输入文件个数小于这个值时采用local，否则提交到yarn
-- MapReduce的方式，默认为4
set hive.exec.mode.local.auto.input.files.max=10;

(十二)并行执行

set hive.auto.convert.join=false;
select 
       *
from (
         select 
                user_id,
                count(*)
         from order_detail
         group by user_id
    ) od
join (
    select 
           user_id,
           count(*)
    from payment_detail
    group by user_id
    ) pd;

-- 优化前：

--关闭并行执行优化
set hive.exec.parallel=false;     
yarn端一个mr运行结束之后，才会运行下一个，浪费资源

-- 优化后：

--启用并行执行优化
set hive.exec.parallel=true;     
yarn端一同提交两个mr，节省资源

(十三)严格模式——全局配置较多

严格模式主要用来防止一些危险操作：

1.分区表使用分区过滤——防止全表扫描

set hive.strict.checks.no.partition.filter=true;

2.使用order by必须有limit过滤——防止全局排序

set hive.strict.checks.orderby.no.limit=true;

上面的参数设置好后，使用了order by但是没有使用limit的语句就不会被执行。该参数有时候也会进行全局设置，即配置在hive-site.xml文件中。

案例：

select *
from product_info
order by id
limit 100;

order by后面添加limit后，map端输出100行数据：

reduce端也会输入100行数据：

3.限制笛卡尔积查询——防止出现不可控的情况

-- 该参数设置为true，就会限制笛卡尔积的查询。
set hive.strict.checks.cartesian.product=true;

你可能感兴趣的:(#,Hive,学习,大数据,java,hive)

新一轮黑产打击：上亿简历大数据公司被警方一锅端大数据的时代
近日，中国的简历大数据公司、曾获李开复旗下创新工场投资的“巧达科技”被警方一锅端，所有员工都被带走。随后，有部分员工被陆续放出。据悉，该公司被查可能缘起在没有获得授权下抓取用户简历。该公司此前曾获得天使轮、A轮和B轮融资，资方包括李开复的创新工场、中信产业基金等。有迹象显示，监管部门正在掀起对大数据灰产和黑产的新一轮打击。传公司被警方一锅端，网站已无法打开。3月23日，有网友在工商信息查询网站“天
焦点技术网络培训中级第23期坚持原创分享陈斌第182天2021年1月1日 65af922df989
新年愿望新的一年不知不觉的到了，看到朋友圈普天同庆新年到来，充满了欢乐的气氛，其中扭转乾坤是最霸气的一句话。新的一年充满期待，充满希望，希望自己在专业技术上能坚持学习，越学越精，越学越好，在新的一年里希望焦点学习越学越好。
【源码交付】一站式自助数据分析解决方案（jvs-bi）愤怒的小青春 java
简历咨询听说Java简历上写外卖，头条，商城项目没用，到底真的假的。不写这些还能写什么#简历中的项目经历要美团实习体验～❤️入职流程和体验入职先领工牌，电脑（可提前在网上申请入职电脑版本，技术岗应该是mac）还可以申请显24offer帮选个人情况:本硕末流211科班光大银行总行科技研发中心入职:总包24w最高:涨幅两三年普调一级，涨一级简历咨询听说项目写外卖，头条，商城项目没用。有一说一，真的没有
10.10复盘&计划蒙蒙简
55/150复盘&计划2021.10.101.昨晚把葡萄弄好，做葡萄酒。这个过程，看似简单，却很磨心力，怪不得那些擅长酿酒的人，酒出出坛时，很陶醉呢！2.健康美肚营开营，对游泳圈说拜拜。3.财富思维共读营结营啦！回首走过来的这个历程，每一段都是学习之路，最喜欢后面复盘时的闲聊。听到许多交流，确实是很有触动。计划:1.写结营报告。2.完成学习作业3.周末放下手机一小时，全心陪孩子们。
学习嵌入式第六天缺口212 学习算法数据结构
一.数组的排序1.冒泡排序冒泡排序是一种简单的排序算法，其核心思想是通过重复遍历待排序的数组，每次比较相邻的两个元素，如果它们的顺序错误就把它们交换过来，直到没有元素需要交换为止。从数组的第一个元素开始，依次比较相邻的两个元素。如果前一个元素大于后一个元素，则交换这两个元素。每完成一轮遍历，最大的元素会“冒泡”到数组的末尾。之后缩小遍历范围（不再考虑已排好的末尾元素），重复上述过程，直到所有元素有
17.差异化教学法 didudi
“面对40-50人的大班级，我们的教学到底是要面向谁”本讲由这一问题入手做了详细的解答。本讲中陈老师提到了两个重要的教学方法：“精熟学习法”、“差异化教学法”，两种都指向同一处理方式-“差异化处理”。“精熟学习法”：老师在完成单元教学后，通过两次过程性评价，设置不同的任务，结合及时反馈系统，实现在课堂上对学生进行测试和评估。但是这种方式更应该迁移到“知识模块”的校正上，其根据学业成就对学生进行分类
【CTF】青少年CTF擂台挑战赛 2024 #Round 1 部分WriteUp_青少年ctf训练平台追光者(1)
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很
有哪些适合大学生的学习编程经验？编程就会这点技术
学习编程可能没有捷径，但一定是有弯路的，按危害程度，依次为：不上机。死磕“经典”。玩鄙视链。“不上机”这个毛病我都不想多说了。不管你是看书还是看视频，正确的姿势都是左边翻开教科书，右边就同时打开电脑——把代码敲进去，把程序跑起来啊！在书上画叉叉圈圈有个毛用！？我觉得特别到位的一句话：编程本质上是门手艺。三天不练手生，手艺是练出来的。你当然要看书，但绝对不是只看书就够了。自己上机过个手，首先能发现问
渗透测试工程师(NISP-PT) 网安世纪小鹅NISP_CISP 网络网络安全安全
第一阶段：网络安全基础知识（2周）【学生可掌握的核心能力】1、能够根据企业办公环境和信息点数，为企业组建中小型企业网络，并能指导实施;2、能够根据网络拓扑图，根据企业需求，配置路由器与交换机，实现企业网络全网互通;3、按照正确的操作方法和顺序，监控设备和网络的运行状态，维护设备和网络传输媒介的正常工作;完成设备的升级、配置文件的备份和还原等;完成网络的日常维护。【学习价值】具备市场网络中级水平，能
Python Pandas 实践学习笔记（1）
PythonPandas教程Pandas是一个开源的、BSD许可证的Python库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Python与Pandas在学术和商业领域都被广泛应用，包括金融、经济、统计学、分析等领域。在本教程中，我们将学习PythonPandas的各种特性以及如何在实践中使用它们。教程对象本教程适用于那些想要学习Pandas基础知识和各种函数的人。对于从
时间轮算法
据说是复杂度O(1)的牛逼算法，所以抽时间学习学习。现在要实现一个定时器，这个定时器控制很多任务。该怎么做呢？第一反应是任务做成一个队列，属性有个时间，每次计时后将该属性减1，到0的时候就执行。这种方式可行，但是效率不高，因为每次都要遍历所有任务，所以时间复杂度是O(N)。优化的方法是什么呢？有点类似哈希表，增加一个时间队列，同时将任务预先排放在一个时间队列中。如果是100秒的时间范围，那么就是1
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
【Java-多线程】i++ 是线程安全的吗？ Java自学之旅大白话说Java java 安全开发语言
i++不是线程安全的操作。这个问题涉及Java内存模型、原子性操作、线程同步等核心概念，让我们通过一个银行账户的故事来理解：故事场景：银行金库争夺战假设银行金库有100元现金，两个柜员（线程）同时执行以下操作：publicvoidwithdraw(){if(balance>0){//1.读取余额balance--;//2.修改余额}}灾难现场（线程不安全）线程A读取余额100线程B同时读取余额10
2021-11-19 邓涵
马克思主义是我们立党立国的根本指导思想，是我们党的灵魂和旗帜。中国共产党坚持马克思主义基本原理，坚持实事求是，从中国实际出发，洞察时代大势，把握历史主动，进行艰辛探索，不断推进马克思主义中国化时代化，指导中国人民不断推进伟大社会革命。中国共产党为什么能，中国特色社会主义为什么好，归根到底是因为马克思主义行！学习党史要从党史中汲取宝贵经验，坚持党对工作的领导、坚持中国特色社会主义道路、坚持以人民为中
一文看懂NTP协议 Neolock 网络协议网络协议 ntp 网络
最近碰到一个NTP协议相关的题，卡了很久，才发现一直在用的NTP协议完全不了解他的原理，遂学习并总结一下1.NTP概述NTP（NetworkTimeProtocol）是一种用于同步计算机系统时钟的网络协议，旨在通过分层架构和精密算法，将设备时间同步至全球协调时间（UTC），精度可达毫秒甚至微秒级。其核心目标是通过减少时钟偏差和网络延迟影响，确保分布式系统的时间一致性2.NTP分层架构（Stratu
JAVA反序列化深入学习（三）：CommonsCollections1 Neolock 漏洞原理 JAVA反序列化 java 网络安全反序列化
ApacheCommonsCollections是一个扩展了Java标准库里的Collection结构的第三方基础库，它提供了很多强有力的数据结构类型并实现了各种集合工具类。作为Apache开源项目的重要组件，被广泛运用于各种Java应用的开发。目录JAVA环境依赖版本检查依赖配置资源下载前置知识AbstractMapDecoratorTransformedMapdecoratetransform
本科大学生未雨绸缪：破解 Java 开发 35 岁中年危机的全程攻略培风图南以星河揽胜 java 解忧杂谈 java
在当今竞争激烈且技术迭代迅速的IT行业，“35岁中年危机”似乎成为了悬在Java开发人员头上的一把达摩克利斯之剑。根据最新的行业报告，40%的IT从业者在35岁左右面临职业瓶颈，而Java开发领域由于其普及性和竞争激烈程度，更是成为重灾区。对于本科大学生而言，虽然距离35岁尚有一段时日，但提前规划，未雨绸缪，才能在未来的职业生涯中更好地应对可能出现的危机。本文将从多个维度为本科大学生提供Java开
0基础学画画（稀疏草原），连载75/100天大鱼漫说
大家好，我是大鱼漫说，你们可以叫我大鱼，我现在是一位零基础学习绘画的程序员。每日一问~小鱼问：procreate有哪些好用的快捷键吗？我每次都是去一个一个点击选择。大鱼答：有，最常用的就是撤退和前进，两个手指单击就是撤退，三个手指单击就是快进；再有就是三指上划，可以打开设置键，选择复制、粘贴、剪切等；四指点击屏幕是全屏，两指捏合可以快速放大缩小。这些差不多就够用了，其他的大鱼用的也比较少。打卡画画
每日面试题08:wait()和sleep()的区别
Java多线程核心：wait()与sleep()的区别与应用场景详解在Java多线程编程中，wait()和sleep()是两个控制线程执行流程的重要方法，但它们的设计定位和使用场景截然不同。本文将从底层机制、调用条件、锁行为、异常处理等维度深入解析两者的差异，并结合实际场景说明如何选择使用。一、前置知识：线程的状态与同步机制在理解wait()和sleep()前，需要明确两个基础概念：线程状态：Ja
【考公资料】最新2026公考资料大汇总，公考背诵材料，岗位面试题合集，持续更新。 xiaopengbc 考公面试职场和发展
我觉得主要是因为复习对应着考试吧。一般预习是在正式学知识前，大致了解一下，有利于正式学的时候心中有数。复习就是为了这个考试而看书学习，目的是为了参加考试，而不是大致了解。不过放心吧，大多数人都是提前几个月看书，不会把战线拉的特别久，你现在开始准备复习就好啦。因为很网盘内容太多了文件太大了，需要开通网盘会员才能存储，所以我这里分享了非会员的领取方式，可以扩大网盘空间。【必需使用手机转存】，才可以领取
#感恩手记#16／365 斯黛拉世界
#PhotoReading超速阅读课#PR学习的最后一天，完成了一个不可思议的学习，一天阅读4本书。你相信吗？我真的相信，看到自己画出的思维导图更加确信自己真真正正的看完4本书并找到自己读这4本书的目的和答案。三天前的我还抱着一个怀疑的态度，现在的我是全然相信自己已经拥有这个不可思议的阅读能力。我相信这个阅读能力对我未来的规划发展起到一个重要的作用。谢谢这三天以来石森老师的教导，张銘老师接地气的翻
CompletableFuture Momentary_SixthSense python 开发语言后端 java mysql ide
CompletableFuture是由Java8引入的，在Java8之前我们一般通过Future实现异步。Future用于表示异步计算的结果，只能通过阻塞或者轮询的方式获取结果，而且不支持设置回调方法，Java8之前若要设置回调一般会使用guava的ListenableFuture，回调的引入又会导致臭名昭著的回调地狱。CompletableFuture对Future进行了扩展，可以通过设置回调的
贵州微商行业协会，今日成立我是磊少
图片发自App文/磊少2018年6.19是全国所有微商引以为傲的一天，因为这一天，微商立法了。且被纳入电子商务经营者范围。而我想说的是，今天（2018.8月28）是所有贵州微商最扬眉吐气的一天。因为今天，贵州省微商行业协会成立了。伴随着移动互联网的蓬勃发展，大数据的日新月异，尤其是贵州贵阳作为全球大数据研究中心，吸引了众多国际顶尖的互联网技术与核心人才，更是为贵州互联网的发展插上了理想的翅膀，飞翔
Codis的槽位迁移与ConcurrentHashMap扩容的相似之处 Momentary_SixthSense redis java tcp/ip 网络 mysql android 网络协议
Codis的槽位迁移过程与ConcurrentHashMap(CHM)的扩容在核心思想上非常相似，都采用了“渐进式数据迁移”和“请求转发”的机制来保证平滑性和高可用性。它们都避免了传统的一次性全量迁移导致的长时间服务中断。相似之处:分片/分段：Codis:数据被分配到固定的1024个Slot中。迁移的单位是Slot。CHM:数据被分配到多个Segment/Bucket中(Java8之前是Segme
Go基础学习 Momentary_SixthSense golang 学习开发语言
很久之前做的笔记…整理了一下语法注意点函数的{一定和函数名在同一行，否则编译错误分号加与不加都可以，一般不加main函数一定在main包里导多个包：import("fmt""time")常见的四种变量声明方式与多变量声明方式//声明全局变量，方法一、二、三是可以的vargAintvargBint=10varc=10//不能用方法四来声明全局变量//gD:=100//:=只能够用在函数体中来声明fu
1.13-1.19 求之不得反求诸己最好的时代最坏的时代
20.1.19日①今日陪伴家人零碎时间很多，没有大段时间自己支配，学习时间少很多。②该做的事情都在做，动作都很慢，非常稳，很好！③情绪很稳，懂得排解，没有很狂躁！很好！明天周一加油！稳！20.1.18六①赶车计划有序，值得表扬！提前量一定要打好！【车上态度有些张狂，过于想表现自己，要收敛的！说话要尽量有刺儿的和气。】②忍不了无料且重复的提问，多次反而态度不好，不会应付。【静心听，告诫重复过了，反求
【python+SQLAlchemy】 ryanling河 python 数据库 sql
需要先安装pymysql模块，以便能够在SQLAlchemy中使用MySQL数据库。使用以下命令进行安装：pipinstallSQLAlchemypipinstallpymysql目前SQLAlchemy版本是2.0.0以上了以下是基本写法以便快速学习fromsqlalchemyimportcreate_engine,Column,Integer,Stringfromsqlalchemy.ormi
2018-11-25 TAO1202
2018-11-25六项精进打卡努力一组姓名：简彦涛单位：上海日朗门窗有限公司六项精进397期学员【日精进打卡第175天】【知～学习】《六项精进大纲》0遍共163遍《大学开篇》0遍共163遍【经典名句分享】付出不亚于任何人的努力【行～实践】一、修身今日步数11290步二、齐家跟家人视频通话三、建功：做了产品首件｛积善｝：发愿从2018年5月27日起1年内做善事。今日1善，累计175善。【省～觉悟】
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
Uniapp微信小程序开发：后端服务器搭建指南（语言选择+部署方案）
目录前言：Uniapp+微信小程序的架构模式️后端服务器的作用后端语言选择（Node.js/Java/Python/PHP/Go）☁️服务器部署方案（云服务器vsServerless）实战：如何连接Uniapp与后端API安全优化：HTTPS、JWT、接口鉴权数据库选择（MySQL、MongoDB、云数据库）总结&最佳实践1.前言：Uniapp+微信小程序的架构模式Uniapp是一个基于Vue.j
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement