gongyouliu01

大数据分析师入门6-HIVE进阶

本文为《大数据分析师入门课程》系列的第6篇，主要讲解大数据分析师在工作中需要用到的HIVE进阶知识，主要包括：

窗口函数
数据倾斜
性能调优
explain
替换引擎

那，就直接开讲了。

窗口函数

要讲HIVE进阶，窗口函数不得不提，作者之前的文章《Hive窗口函数进阶指南》已经很详细地讲解了这部分内容，为了省去大家点链接跳来跳去的麻烦，下面将其核心内容摘录出来，如下所示。

窗口函数也称为OLAP（OnlineAnalytical Processing）函数，是对一组值进行操作，不需要使用Group by子句对数据进行分组，还能在同一行返回原来行的列和使用聚合函数得到的聚合列。

SQL语法

<窗口函数>() 	
OVER 	
(	
  [PARTITIONBY <列清单>]	
  [ORDER BY<排序用清单列>] [ASC/DESC]	
  (ROWS |RANGE) <范围条件>	
)

如上代码所示，窗口函数的语法分为四个部分：

函数子句：指明具体操作，如sum-求和，first_value-取第一个值；

partition by子句：指明分区字段，如果没有，则将所有数据作为一个分区；

order by子句：指明了每个分区排序的字段和方式,也是可选的，没有就是按照表中的默认顺序；

窗口子句：指明相对当前记录的计算范围，可以向上（preceding），可以向下（following）,也可以使用between指明，上下边界的值，没有的话默认为当前分区。有些场景比较特殊，后文会讲到这种场景。

分类

按照窗口函数的功能分为：计算、取值、排序、序列四种

使用场景

结合实际场景看看怎么用窗口函数来解决问题。下面针对不同的使用场景，将窗口函数的使用呈现给大家。

所有例子的数据均来自下图这张表。

用于辅助计算

主要的用法是在原有表的基础上，增加一列聚合后的值，辅以后续的计算。

例如：统计出不同产品类型售价最高的产品。

具体代码如下：

--使用窗口函数max	
select a.product_type,a.product_name	
from	
(	
  selectproduct_name,product_type,sale_price	
 ,max(sale_price) over 	
  (	
    partitionby product_type	
  ) as max_sale_price 	
  --增加一列为聚合后的最高售价	
  fromproduct	
) a 	
where a.sale_price = a.max_sale_price; 	
--保留与最高售价相同的记录数

执行结果：

累积计算

标准聚合函数作为窗口函数配合order by使用，可以实现累积计算。

例如：sum窗口函数配合order by，可以实现累积和。

具体代码如下：

SELECT product_id,product_name	
 ,product_type,sale_price	
 ,SUM(sale_price) OVER 	
  (	
    ORDER BYproduct_id	
  ) AS current_sum	
FROM product;

执行结果：

相应的AVG窗口函数配合order by，可以实现累积平均，max可以实现累积最大值，min可以实现累积最小值，count则可以实现累积计数。

注意，只有计算类的窗口函数可以实现累积计算。

标准聚合函数作为窗口函数使用的时候，在指明order by的情况下，如果没有Window子句，则Window子句默认为：RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW(上边界不限制，下边界到当前行)。

移动计算

移动计算是在分区和排序的基础上，对计算范围进一步做出限定。

例如：按照产品ID排序，将最近3条的销售价格进行汇总平均。

具体代码如下：

SELECT product_id,product_name	
   ,sale_price	
  ,AVG(sale_price) 	
   over 	
   ( 	
    ORDER BY product_id 	
    rows 2 preceding 	
   ) AS moving_avg	
FROM product;

rows 2 preceding的意思就是“截止到之前2行”。也就是将作为汇总对象的记录限定为如下的最靠近的3行。

执行结果如下：

取一字段值

取值的窗口函数有：first_value/last_value、lag/lead。

first_value(字段名)-取出分区中的第一条记录的任意一个字段的值，可以排序也可以不排序，此处也可以进一步指明Window子句。

lag(字段名,N,默认值)-取出当前行之上的第N条记录的任意一个字段的值，这里的N和默认值都是可选的，默认N为1，默认值为null。

使用first_value取出每个分类下的最贵的产品，如下：

select distinct product_type	
,first_value(product_name) over 	
(partition by product_type	
order by sale_price desc) as max_price_product	
from product

执行结果如下：

排序

排序对应的四个窗口函数为：rank、dense_rank、row_number、ntitle

rank：计算排序时，如果存在相同位次的记录，则会跳过之后的位次。

e.g. 有三条记录排在第1位时：1位、1位、1位、4位......

dense_rank：计算排序时，即使存在相同位次的记录，也不会跳过之后的位次。

e.g. 有三条记录排在第1位时：1位、1位、1位、2位......

row_number：赋予唯一的连续位次。

e.g. 有三条记录排在第1位时：1位、2位、3位、4位...

ntitle：用于将分组数据按照顺序切分成n片，返回当前切片值

e.g. 对于一组数字（1，2，3，4，5，6），ntile(2)切片后为（1，1，1，2，2，2）

1）统计所有产品的售价排名

具体代码如下：

SELECT product_name,product_type	
   ,sale_price,	
   RANK () OVER 	
   (	
    ORDER BY sale_price 	
   ) AS ranking	
FROM product;

执行结果如下：

2）统计各产品类型下各产品的售价排名

具体代码如下：

SELECT product_name,product_type	
   ,sale_price,	
   RANK () OVER 	
   (	
    PARTITION BY product_type 	
    ORDER BY sale_price 	
   ) AS ranking	
FROM product;

执行结果如下：

对比一下dense_rank、row_number、ntile

具体代码如下：

SELECT product_name,product_type,sale_price,	
    RANK ()OVER (ORDER BY sale_price) AS ranking,	
   DENSE_RANK () OVER (ORDER BY sale_price) AS dense_ranking,	
   ROW_NUMBER () OVER (ORDER BY sale_price) AS row_num,	
    ntile(3)OVER (ORDER BY sale_price) as nt1,	
    ntile(30)OVER (ORDER BY sale_price) as nt2 	
    --切片大于总记录数	
FROM product;

执行结果如下：

从结果可以发现，当ntile(30)中的切片大于了总记录数时，切片的值为记录的序号。

序列

序列中的两个窗口函数cume_dist和percent_rank，通过实例来看看它们是怎么使用的。

1）统计小于等于当前售价的产品数，所占总产品数的比例

具体代码如下：

SELECT product_type,product_name,sale_price,	
CUME_DIST() OVER(ORDER BY sale_price) AS rn1,	
CUME_DIST() OVER	
(	
  PARTITIONBY product_type 	
  ORDER BYsale_price	
) AS rn2 	
FROM product;

执行结果如下：

rn1: 没有partition,所有数据均为1组，总行数为8，

第一行：小于等于100的行数为1，因此，1/8=0.125

第二行：小于等于500的行数为3，因此，3/8=0.375

rn2: 按照产品类型分组，product_type=厨房用品的行数为4,

第三行：小于等于500的行数为1，因此，1/4=0.25

2）统计每个产品的百分比排序

当前行的RANK值-1/分组内总行数-1

具体代码如下：

SELECT product_type,product_name,sale_price,	
percent_rank() OVER (ORDER BY sale_price) AS rn1,	
percent_rank() OVER 	
(	
  PARTITIONBY product_type 	
  ORDER BYsale_price	
)  AS rn2 	
FROM product;

执行结果如下：

rn1: 没有partition,所有数据均为1组，总行数为8，

第一行：排序为1，因此，（1-1）/（8-1）= 0

第二行：排序为2，因此，（2-1）/（8-1）= 0.14

rn2: 按照产品类型分组，product_type=厨房用品的行数为4,

第三行：排序为1，因此，（1-1）/（4-1）= 0

第四行：排序为1，因此，（2-1）/（4-1）= 0.33

数据倾斜

什么是数据倾斜

数据倾斜就是数据的分布不平衡，某些地方特别多，某些地方又特别少，导致在处理数据的时候，有些很快就处理完了，而有些又迟迟未能处理完，导致整体任务最终迟迟无法完成，这种现象就是数据倾斜。

针对mapreduce的过程来说主要表现是：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。

哪些操作容易造成数据倾斜？

关键字	场景	结果
join	其中一个表较小，但是key集中	分发到某一个或者几个Reduce上的数据远高平均值
	都是大表，但是有0值和空值过多	0值或者空值由一个Reduce处理
	不同数据类型关联	类型转换的时候会产生null值，太多的null值在一个Reduce上处理
group by	维度过小，某个值的量太大	处理该值的Reduce压力大
count distinct	特殊值过多	处理特殊值的Reduce压力大

产生数据倾斜的原因

结合数据倾斜的场景，可以总结出产生数据倾斜的原因

1. key 分布不均匀

2. 业务数据本身的特性

3. 建表考虑不周全，如partition的数量过少

4. 某些 HQL 语句本身就容易产生数据倾斜，如join

优化方法

既然已经知道了哪些情况可能会产生数据倾斜以及产生数据倾斜的原因，那么如何去规避数据倾斜问题呢？

下面结合具体的场景来说说

特殊值产生的数据倾斜

在日志中，常会有字段值丢失的问题，比如日志中的 user_id，如果取其中的 user_id 和用户表中的 user_id 相关联，就会碰到数据倾斜的问题。

解决方案 1：user_id 为空的不参与关联

select * 	
from log a join user b 	
on a.user_id is not null and a.user_id = b.user_id	
union all	
select * 	
from log c 	
where c.user_id is null;

解决方案 2：赋予空值新的 key 值

select * 	
from log a left outer join user b 	
on case when a.user_id is null thenconcat('null_',rand()) else a.user_id end = b.user_id

方法 2 比方法 1 效率更好，不但 IO 少了，而且作业数也少了。

方案 1 中，log 表读了两次，job数肯定是 2，而方案 2 job数是 1。

方法 2 使本身为 null 的所有记录不会拥挤在同一个 reduceTask 了，加上随机字符串值，会分散到了多个 reduceTask 中，由于 null 值关联不上，处理后并不影响最终结果。

大小表关联查询产生数据倾斜

对于这种数据倾斜一般的做法是使用MapJoin-将其中做连接的小表（全量数据）分发到所有 MapTask 端进行 Join，从而避免了 reduceTask，前提要求是内存足以装下该全量数据。

以大表 a 和小表 b 为例，所有的 maptask 节点都装载小表 b 的所有数据，然后大表 a 的一个数据块数据比如说是 a1 去跟 b 全量数据做链接，就省去了 reduce 做汇总的过程。

所以相对来说，在内存允许的条件下使用 map join 比直接使用 MapReduce 效率还高些，当然这只限于做 join 查询的时候。

其实对于多表join，是否开启MapJoin，可以进行设置的，具体参数如下：

set hive.auto.convert.join=true; //设置 MapJoin 优化自动开启	
set hive.mapjoin.smalltable.filesize=25000000 //设置小表不超过多大时开启 mapjoin 优化

也可以人为指定开启MapJoin，请看下面的代码：

select /* +mapjoin(b) */ a.id aid, name, age 	
from a join b 	
on a.id = b.id;

因为加了/* +mapjoin(b) */这一段代码，执行的时候就会将b表读入内存中，但是要求b表必须是小表，数据量不能太大。

性能调优

由于Hive的执行依赖于底层的MapReduce作业，因此对MapReduce作业的调整优化是提高Hive性能的基础。所以可以从以下几个方面进行一系列的调优，来大幅度地提高Hive的查询性能。

启用压缩

在Hive中对中间数据或最终数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本的数据文件，可以将文件压缩40%或更多。同时压缩后的文件在网络间传输I/O也会大大减少；当然压缩和解压缩也会带来额外的CPU开销，但是却可以节省更多的I/O和使用更少的内存开销。

常见的压缩方式有：GZIP、BZIP2、LZO、Snappy等。

那这么多种压缩方式，使用哪一种呢？可以通过压缩比、压缩速度、是否可分割来决定选哪一种，压缩比和压缩速度都好理解，是否可分割是指压缩后的文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序同时读取，可以做到更好的并行化。

下表是各种压缩方式的对比：

压缩方式	压缩比	压缩速度	是否可分割
GZIP	中	中	否
BZIP2	小	慢	是
LZO	大	快	是
SNAPPY	大	快	是

如何设置

前文有提到在Hive中对中间数据或最终数据做压缩，那分别来看看如何设置。

中间数据压缩

set hive.exec.compress.intermediate=true	
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

hive.exec.compress.intermediate：默认该值为false，设置为true为激活中间数据压缩功能。HiveQL语句最终会被编译成Hadoop的Mapreduce job，开启Hive的中间数据压缩功能，就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段，优先选择一个低CPU开销的算法。

mapred.map.output.compression.codec：该参数是具体的压缩算法实现类的配置参数，SnappyCodec是比较适合这种场景的编解码器，该算法会带来很好的压缩比和较低的CPU开销。

最终数据压缩

set hive.exec.compress.output=true	
setmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

hive.exec.compress.output：该参数控制最终数据压缩的激活与禁用，设置为true来声明将结果文件进行压缩。

mapred.output.compression.codec：选择一个合适的编解码器，如选择SnappyCodec。

避免全局排序

Hive中使用order by子句实现全局排序。order by只用一个Reducer产生结果，对于大数据集，这种做法效率很低。

如果不需要全局有序，则可以使用sort by子句，该子句为每个reducer生成一个排好序的文件。如果需要控制一个特定数据行流向哪个reducer，可以使用distribute by子句，例如:

select id, name, salary, dept 	
from employee 	
distribute by dept 	
sort by id asc, name desc;

属于一个dept的数据会分配到同一个reducer进行处理，同一个dept的所有记录按照id、name列排序。最终的结果集是局部有序的。

优化limit操作

默认时limit操作仍然会执行整个查询，然后返回限定的行数。在有些情况下这种处理方式很浪费，因此可以通过设置下面的属性避免此行为。

 	
 hive.limit.optimize.enable 	
 true	
 	
	
 hive.limit.row.max.size	
 100000	
	
 	
 hive.limit.optimize.limit.file 	
 10	
	
	
 hive.limit.optimize.fetch.max	
 50000

说明:

hive.limit.optimize.enable:是否启用limit优化。当使用limit语句时，对源数据进行抽样。

hive.limit.row.max.size:在使用limit做数据的子集查询时保证的最小行数据量。

hive.limit.optimize.limit.file:在使用limit做数据子集查询时，采样的最大文件数。

hive.limit.optimize.fetch.max:使用简单limit数据抽样时，允许的最大行数。

启用并行

每条HiveQL语句都被转化成一个或多个执行阶段，可能是一个MapReduce阶段、采样阶段、归并阶段、限制阶段等。默认时，Hive在任意时刻只能执行其中一个阶段。

如果组成一个特定作业的多个执行阶段是彼此独立的，那么它们可以并行执行，从而整个作业得以更快完成。通过设置下面的属性启用并行执行。

 	
 hive.exec.parallel 	
 true	
 	
	
 hive.exec.parallel.thread.number	
 8

说明:

hive.exec.parallel:是否并行执行作业。

hive.exec.parallel.thread.number:最多可以并行执行的作业数。

启用MapReduce严格模式

Hive提供了一个严格模式，可以防止用户执行那些可能产生负面影响的查询。通过设置下面的属性启用MapReduce严格模式。

 	
 hive.mapred.mode 	
 strict

严格模式禁止3种类型的查询：

1）对于分区表，where子句中不包含分区字段过滤条件的查询语句不允许执行。

2）对于使用了order by子句的查询，要求必须使用limit子句，否则不允许执行。

3）限制笛卡尔积查询。

控制并行Reduce任务

Hive通过将查询划分成一个或多个MapReduce任务达到并行的目的。确定最佳的mapper个数和reducer个数取决于多个变量，例如输入的数据量以及对这些数据执行的操作类型等。

如果有太多的mapper或reducer任务，会导致启动、调度和运行作业过程中产生过多的开销，而如果设置的数量太少，那么就可能没有充分利用好集群内在的并行性。对于一个Hive查询，可以设置下面的属性来控制并行reduce任务的个数。

 	
 hive.exec.reducers.bytes.per.reducer 	
 256000000	
 	
	
 hive.exec.reducers.max	
 1000

说明:

hive.exec.reducers.bytes.per.reducer:每个reducer的字节数，默认值为256MB。Hive是按照输入的数据量大小来确定reducer个数的。例如，如果输入的数据是1GB，将使用4个reducer。

hive.exec.reducers.max:将会使用的最大reducer个数。

启用向量化

向量化特性在Hive 0.13.1版本中被首次引入。通过查询执行向量化，使Hive从单行处理数据改为批量处理方式，具体来说是一次处理1024行而不是原来的每次只处理一行，这大大提升了指令流水线和缓存的利用率，从而提高了表扫描、聚合、过滤和连接等操作的性能。可以设置下面的属性启用查询执行向量化。

 	
  hive.vectorized.execution.enabled	
 true	
 	
	
 hive.vectorized.execution.reduce.enabled	
 true 	
	
 	
 hive.vectorized.execution.reduce.groupby.enabled	
 true

说明:

hive.vectorized.execution.enabled:如果该标志设置为true，则开启查询执行的向量模式，默认值为false。

hive.vectorized.execution.reduce.enabled:如果该标志设置为true，则开启查询执行reduce端的向量模式，默认值为true。

hive.vectorized.execution.reduce.groupby.enabled:如果该标志设置为true，则开启查询执行reduce端groupby操作的向量模式，默认值为true。

启用基于成本的优化器

Hive 0.14版本开始提供基于成本优化器(CBO)特性。使用过Oracle数据库的读者对CBO一定不会陌生。与Oracle类似，Hive的CBO也可以根据查询成本制定执行计划，例如确定表连接的顺序、以何种方式执行连接、使用的并行度等。设置下面的属性启用基于成本优化器。

 	
 hive.cbo.enable 	
 true	
 	
	
 hive.compute.query.using.stats	
 true 	
	
 	
 hive.stats.fetch.partition.stats 	
 true	
 	
	
 hive.stats.fetch.column.stats	
 true

说明:

hive.cbo.enable:控制是否启用基于成本的优化器，默认值是true。Hive的CBO使用Apache Calcite框架实现。

hive.compute.query.using.stats:该属性的默认值为false。如果设置为true，Hive在执行某些查询时，例如select count(1)，只利用元数据存储中保存的状态信息返回结果。为了收集基本状态信息，需要将hive.stats.autogather属性配置为true。为了收集更多的状态信息，需要运行analyze table查询命令，例如下面的语句收集sales_order_fact表的统计信息。

analyze table	
sales_order_fact compute statistics	
 for	
columns;

hive.stats.fetch.partition.stats:该属性的默认值为true。操作树中所标识的统计信息，需要分区级别的基本统计，如每个分区的行数、数据量大小和文件大小等。分区统计信息从元数据存储中获取。如果存在很多分区，要为每个分区收集统计信息可能会消耗大量的资源。这个标志可被用于禁止从元数据存储中获取分区统计。当该标志设置为false时，Hive从文件系统获取文件大小，并根据表结构估算行数。

hive.stats.fetch.column.stats:该属性的默认值为false。操作树中所标识的统计信息，需要列统计。列统计信息从元数据存储中获取。如果存在很多列，要为每个列收集统计信息可能会消耗大量的资源。这个标志可被用于禁止从元数据存储中获取列统计。

EXPLAIN

explain-解释计划，通过explain命令可以知道hive将会如何执行所写的查询语句，需要注意的是查询语句并没有执行哦，只是告诉你将会怎么样执行。

这对于HIVE SQL的调优是很重要的，一个复杂的SQL如果执行的时间过长，可以根据解释计划来看具体执行的步骤，进而找到可以优化的地方。

下面就结合例子看看如何查看解释计划，代码中的注释部分是要重点关注的。

EXPLAIN 	
select student,sum(score) 	
FROM test.class 	
GROUP BY student

执行上述的代码：

Explain	
Plan optimized by CBO.	
--CBO是打开的，计划基于CBO优化	
 	
Vertex dependency in root stage	
Reducer 2 <- Map 1 (SIMPLE_EDGE)	
--简单的依赖关系，一个Map2个Reducer	
 	
Stage-0	
  Fetch Operator	
    limit:-1	
    Stage-1	
      Reducer 2	
      File Output Operator [FS_6]	
        Group By Operator[GBY_4] (rows=9 width=16) --reducer端的聚合	
         Output:["_col0","_col1"],aggregations:["sum(VALUE._col0)"],keys:KEY._col0	
        <-Map 1 [SIMPLE_EDGE]//发生在job的 map 处理阶段过程	
          SHUFFLE [RS_3]	
           PartitionCols:_col0	
            Group ByOperator [GBY_2] (rows=18 width=16) --map端的聚合	
             Output:["_col0","_col1"],aggregations:["sum(score)"],keys:student	
             Select Operator [SEL_1] (rows=18 width=16)	
               Output:["student","score"]	
               TableScan [TS_0] (rows=18 width=16) --读取表的数据	
                test@class,class,Tbl:COMPLETE,Col:NONE,Output:["student","score"]

上述打印的就是解释计划，主要关注的是Stage部分，需要注意的是这一部分是从下往上进行查看的，最先查看到的是读取表的数据（18条记录）及选取的字段，然后可以看出在Map端先做了一次聚合，然后在recucer端又进行了一次聚合。

EXPLAIN后面可以加不同关键字来针对性的查看，DEPENDENCY|AUTHORIZATION在实际工作中比较常用，我们着重介绍下这两个关键字。

DEPENDENCY

EXPLAIN DEPENDENCY	
select *	
FROM test.test_view --是一个测试视图

Explain	
{"input_tables":[{"tablename":"test@test_view","tabletype":"VIRTUAL_VIEW"},{"tablename":"test@product","tabletype":"MANAGED_TABLE","tableParents":"[test@test_view]"}],"input_partitions":[]}

EXPLAIN DEPENDENCY用于描述整个sql需要依赖的输入数据，为了直观的看出它的结构，我将输出的JSON格式化后展开如上图所示：分为两部分input_tables和input_partitions，顾名思义就是输入的表和分区，实际运用场景：

1）排错，排查某个程序可能在运行过程略过了某个分区

2）理清程序依赖的表的输入，理解程序的运行，特别是理解在俩表join的情况下的依赖输入

3）查看视图的实际数据来源

AUTHORIZATION

Explain	
INPUTS:	
  test@class	
OUTPUTS:	
  hdfs://hans/tmp/hive/spark/da7f94b3-b9e2-46f1-8bee-8a367f62a753/hive_2019-05-30_10-58-00_447_6351031319937169270-1/-mr-10001	
CURRENT_USER:	
  spark	
OPERATION:	
  QUERY	
AUTHORIZATION_FAILURES:	
  Permission denied: Principal [name=spark,type=USER] does not have following privileges for operation QUERY [[SELECT] onObject [type=TABLE_OR_VIEW, name=test.class]]

用来表达CURRENT_USER的用户对哪些INPUTS有读操作，对哪些OUTPUTS有写操作。

上面的解释计划是spark的用户，读取test@class的数据，查询出来的结果会暂时存放到hdfs://hans/tmp/hive/spark/da7f94b3-b9e2-46f1-8bee-8a367f62a753/hive_2019-05-30_10-58-00_447_6351031319937169270-1/-mr-10001文件中。

替换引擎

为什么要替换

HIVE的默认执行引擎是MapReduce，MapReduce是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，每个阶段都是用键值对（key/value）作为输入和输出，非常适合数据密集型计算。

但是缺点也很明显，最直观的感受就是执行时间长，它在计算时会对磁盘进行多次的读写操作，这样启动多轮job的代价略有些大，不仅占用资源，更耗费大量的时间。

本篇前面在性能调优部分，所讲解的优化措施就是针对MapReduce的，如果现在有另外一个引擎可以代替MapReduce并且自带优化策略，你换不换？

替换成什么？

目前的主流选择是Tez，Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

总结起来，Tez在执行绩效上有以下特点：

（1）比MapReduce更好的性能提升

（2）最佳资源管理

（3）运行中重新配置计划

（4）动态物理数据流决策

从上面Tez的介绍来看，Tez的确有很多优点。

下面我们单单从执行过程来看，传统的MR（包括Hive，Pig和直接编写MR程序），假设有四个有依赖关系的MR作业（1个较为复杂的Hive SQL语句或者Pig脚本可能被翻译成4个有依赖关系的MR作业），运行过程如下（其中，绿色是Reduce Task，需要写HDFS；云状表示写屏蔽（write barrier，一种内核机制，持久写）；绿色的圆圈代表一个job）：

MR需要4个job来完成计算，而Tez可以将多个有依赖的作业转换为一个作业（这样只需写一次HDFS，且中间节点较少），从而大大提升DAG作业的性能。

怎么替换

肯定是要先安装起来，这里就不具体说明怎么安装了，网上相关的文章很多。安装好了之后，只需对hive-site.xml中修改如下配置：

	
   hive.execution.engine	
   tez

看到这里，大家可以去查看下自己的工作或者学习的HIVE平台的引擎是什么，如何还是mr建议换掉，在hive的命令行输入下面的代码，即可查看。

set hive.execution.engine;

总结

本篇HIVE进阶讲述的内容，可能在实际工作中不是全部很常用，但是对于更高效的利用HIVE、写出高效和简洁的HIVE SQL代码、程序调错调优是非常重要的，所以掌握这些知识无疑是提升工作效率的一剂良药。

参考文献：

[1] 比MR至少快5倍的神器，竟然是它，作者：巩传捷@中兴大数据 -https://www.sohu.com/a/131167936_465944

[2] MapReduce和Tez对比，作者：凌度 - https://www.cnblogs.com/linn/p/5325147.html

[3] 数据倾斜及处理，作者：火山Vol -https://www.jianshu.com/p/42be5ca8b11d

[4] Hive学习之路（十九）Hive的数据倾斜，作者：扎心了，老铁 - https://www.cnblogs.com/qingyunzong/p/8847597.html

[5] Hive压缩设置，作者：djd已经存在 - https://blog.csdn.net/djd1234567/article/details/51581354

[6] Hive的Explain命令，作者：skyl夜 -https://www.cnblogs.com/skyl/p/4737411.html

[7] Tez官网 - http://tez.apache.org/

你可能感兴趣的:(大数据分析师入门6-HIVE进阶)

Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
STM32中的计时与延时 lupinjia STM32 stm32 单片机
前言在裸机开发中，延时作为一种规定循环周期的方式经常被使用，其中尤以HAL库官方提供的HAL_Delay为甚。刚入门的小白可能会觉得既然有官方提供的延时函数，而且精度也还挺好，为什么不用呢？实际上HAL_Delay中有不少坑，而这些也只是HAL库中无数坑的其中一些。想从坑里跳出来还是得加强外设原理的学习和理解，切不可只依赖HAL库。除了延时之外，我们在开发中有时也会想要确定某段程序的耗时，这就需要
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
2019考研 | 西交大软件工程笔者阿蓉
本科背景：某北京211学校电子信息工程互联网开发工作两年录取结果：全日制软件工程学院分数：初试350+复试笔试80+面试85+总排名：100+从五月份开始脱产学习，我主要说一下专业课和复试还有我对非全的一些看法。【数学100+】张宇，张宇，张宇。跟着张宇学习，入门视频刷一遍，真题刷两遍，错题刷三遍。书刷N多遍。从视频开始学习，是最快的学习方法。5-7月份把主要是数学学好，8-9月份开始给自己每个周
esp32开发快速入门 8 : MQTT 的快速入门，基于esp32实现MQTT通信 z755924843 ESP32开发快速入门服务器网络运维
MQTT介绍简介MQTT（MessageQueuingTelemetryTransport，消息队列遥测传输协议），是一种基于发布/订阅（publish/subscribe）模式的"轻量级"通讯协议，该协议构建于TCP/IP协议上，由IBM在1999年发布。MQTT最大优点在于，可以以极少的代码和有限的带宽，为连接远程设备提供实时可靠的消息服务。作为一种低开销、低带宽占用的即时通讯协议，使其在物联
Armv8.3 体系结构扩展--原文版代码改变世界ctw ARM-TEE-Android armv8 嵌入式 arm架构安全架构芯片 Trustzone Secureboot
快速链接:.ARMv8/ARMv9架构入门到精通-[目录]付费专栏-付费课程【购买须知】:个人博客笔记导读目录(全部)TheArmv8.3architectureextensionTheArmv8.3architectureextensionisanextensiontoArmv8.2.Itaddsmandatoryandoptionalarchitecturalfeatures.Somefeat
2023-08-20 圆梦菌
魔力宝贝最详细新手教程，新手该如何完美开局，建议收藏转发2023-08-2010:34《魔力宝贝》手游体力是什么?魔力宝贝体力恢复机制是每10分钟回复1点；体力作用：挑战关卡需消耗体力体力获取方式1、好友每天可以赠送15次，也就是15点体力2、系统每天中午12点以及下午6点赠送25体3、在商城使用神石购买《魔力宝贝》手游战斗力如何提升?1、宠物强化宠物通过融合进阶后可以大幅度提升战力，最高级的宠物
Python入门之Lesson2:Python基础语法小熊同学哦 Python入门课程 python 开发语言算法数据结构青少年编程
目录前言一.介绍1.变量和数据类型2.常见运算符3.输入输出4.条件语句5.循环结构二.练习三.总结前言欢迎来到《Python入门》系列博客的第二课。在上一课中，我们了解了Python的安装及运行环境的配置。在这一课中，我们将深入学习Python的基础语法，这是编写Python代码的根基。通过本节内容的学习，你将掌握变量、数据类型、运算符、输入输出、条件语句等Python编程的基础知识。一.介绍1
摄影小白，怎么才能拍出高大上产品图片？是波妞唉
很多人以为文案只要会码字，会排版就OK了！说实话，没接触到这一行的时候，我的想法更简单，以为只要会写字就行！可是真做了文案才发现，码字只是入门级的基本功。一篇文章离不开排版、配图，说起来很简单！从头做到尾你就会发现，写文章用两个小时，找合适的配图居然要花掉半天的时间，甚至更久！图片能找到合适的就不怕，还有找不到的，比如产品图，只能亲自拍。拿着摆弄了半天，就是拍不出想要的效果，光线不好、搭出来丑破天
2021 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级C++语言试题（第三大题：完善程序代码） mmz1207 c++csp
最近有一段时间没更新了，在准备CSP考试，请大家见谅。（1）有n个人围成一个圈，依次标号0到n-1。从0号开始，依次0，1，0，1...交替报数，报到一的人离开，直至圈中剩最后一个人。求最后剩下的人的编号。#includeusingnamespacestd;intf[1000010];intmain(){intn;cin>>n;inti=0,cnt=0,p=0;while(cnt#includeu
Vue( ElementUI入门、vue-cli安装) m0_l5z elementui vue.js
一.ElementUI入门目录：1.ElementUI入门1.1ElementUI简介1.2Vue+ElementUI安装1.3开发示例2.搭建nodejs环境2.1nodejs介绍2.2npm是什么2.3nodejs环境搭建2.3.1下载2.3.2解压2.3.3配置环境变量2.3.4配置npm全局模块路径和cache默认安装位置2.3.5修改npm镜像提高下载速度2.3.6验证安装结果3.运行n
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
ESP32-C3入门教程网络篇⑩——基于esp_https_ota和MQTT实现开机主动升级和被动触发升级的OTA功能小康师兄 ESP32-C3入门教程 https 服务器 esp32 OTA MQTT
文章目录一、前言二、软件流程三、部分源码四、运行演示一、前言本文基于VSCodeIDE进行编程、编译、下载、运行等操作基础入门章节请查阅：ESP32-C3入门教程基础篇①——基于VSCode构建HelloWorld教程目录大纲请查阅：ESP32-C3入门教程——导读ESP32-C3入门教程网络篇⑨——基于esp_https_ota实现史上最简单的ESP32OTA远程固件升级功能二、软件流程
2023最详细的Python安装教程（Windows版本）程序员林哥 Python python windows 开发语言
python安装是学习pyhon第一步，很多刚入门小白不清楚如何安装python，今天我来带大家完成python安装与配置，跟着我一步步来，很简单，你肯定能完成。第一部分：python安装（一）准备工作1、下载和安装python(认准官方网站)当然你不想去下载的话也可以分享给你，还有入门学习教程，点击下方卡片跳转进群领取（二）开始安装对于Windows操作系统，可以下载“executableins
258-各位相加不胖二十斤不改名zz
给定一个非负整数num，反复将各个位上的数字相加，直到结果为一位数。输入:38输出:2解释:各位相加的过程为：3+8=11,1+1=2。由于2是一位数，所以返回2。最简单的方法就是递归了。进阶:你可以不使用循环或者递归，且在O(1)时间复杂度内解决这个问题吗？假如一个三位数'abc'，其值大小为s1=100*a+10*b+1*c，经过一次各位相加后，变为s2=a+b+c，减小的差值为(s1-s2)
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
现金贷“租系统”产业崛起：租金3000，本金10万，一月回本 Dayon
最近，地下现金贷的全面崛起，已成了不可阻挡的趋势。大量民间资本开始涌入，民间高利贷、炒房团、土豪的钱，都裹挟其中。而地下现金贷的入门门槛正在不断降低，一条新的产业链开始崛起：租现金贷系统。现在，只需要10万本金，花3000元租个系统，两个人的团队，一个月就能回本。大量的小本金玩家进场了，为了急速获利，他们甚至将利率调到1600%以上。业内人士称，真实的现金贷用户，现在大概只有200多万。整个行业几
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st