孤数不证

大数据HIVE---进阶

本位主要讲解大数据分析师在工作中需要用到的HIVE进阶知识，主要包括：

窗口函数
数据倾斜
性能调优
explain
替换引擎

那，就直接开讲了。

窗口函数

要讲HIVE进阶，窗口函数不得不提，作者之前的文章《Hive窗口函数进阶指南》已经很详细地讲解了这部分内容，为了省去大家点链接跳来跳去的麻烦，下面将其核心内容摘录出来，如下所示。

窗口函数也称为OLAP（OnlineAnalytical Processing）函数，是对一组值进行操作，不需要使用Group by子句对数据进行分组，还能在同一行返回原来行的列和使用聚合函数得到的聚合列。

SQL语法

如上代码所示，窗口函数的语法分为四个部分：

函数子句：指明具体操作，如sum-求和，first_value-取第一个值；

partition by子句：指明分区字段，如果没有，则将所有数据作为一个分区；

order by子句：指明了每个分区排序的字段和方式,也是可选的，没有就是按照表中的默认顺序；

窗口子句：指明相对当前记录的计算范围，可以向上（preceding），可以向下（following）,也可以使用between指明，上下边界的值，没有的话默认为当前分区。有些场景比较特殊，后文会讲到这种场景。

分类

按照窗口函数的功能分为：计算、取值、排序、序列四种

使用场景

结合实际场景看看怎么用窗口函数来解决问题。下面针对不同的使用场景，将窗口函数的使用呈现给大家。

所有例子的数据均来自下图这张表。

用于辅助计算

主要的用法是在原有表的基础上，增加一列聚合后的值，辅以后续的计算。

例如：统计出不同产品类型售价最高的产品。
具体代码如下：

–使用窗口函数max
select a.product_type,a.product_name
from
(
selectproduct_name,product_type,sale_price
,max(sale_price) over
(
partitionby product_type
) as max_sale_price
–增加一列为聚合后的最高售价
fromproduct
) a
where a.sale_price = a.max_sale_price;
–保留与最高售价相同的记录数
执行结果：

累积计算

标准聚合函数作为窗口函数配合order by使用，可以实现累积计算。

例如：sum窗口函数配合order by，可以实现累积和。
具体代码如下：
SELECT product_id,product_name
,product_type,sale_price
,SUM(sale_price) OVER
(
ORDER BYproduct_id
) AS current_sum
FROM product;

执行结果：

相应的AVG窗口函数配合order by，可以实现累积平均，max可以实现累积最大值，min可以实现累积最小值，count则可以实现累积计数。

注意，只有计算类的窗口函数可以实现累积计算。

标准聚合函数作为窗口函数使用的时候，在指明order by的情况下，如果没有Window子句，则Window子句默认为：RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW(上边界不限制，下边界到当前行)。

移动计算

移动计算是在分区和排序的基础上，对计算范围进一步做出限定。

例如：按照产品ID排序，将最近3条的销售价格进行汇总平均。
具体代码如下：
SELECT product_id,product_name
,sale_price
,AVG(sale_price)
over
(
ORDER BY product_id
rows 2 preceding
) AS moving_avg
FROM product;

rows 2 preceding的意思就是“截止到之前2行”。也就是将作为汇总对象的记录限定为如下的最靠近的3行。

执行结果如下：

取一字段值

取值的窗口函数有：first_value/last_value、lag/lead。

first_value(字段名)-取出分区中的第一条记录的任意一个字段的值，可以排序也可以不排序，此处也可以进一步指明Window子句。

lag(字段名,N,默认值)-取出当前行之上的第N条记录的任意一个字段的值，这里的N和默认值都是可选的，默认N为1，默认值为null。

使用first_value取出每个分类下的最贵的产品，如下：

select distinct product_type
,first_value(product_name) over
(partition by product_type
order by sale_price desc) as max_price_product
from product

执行结果如下：

排序

排序对应的四个窗口函数为：rank、dense_rank、row_number、ntitle

rank：计算排序时，如果存在相同位次的记录，则会跳过之后的位次。
e.g. 有三条记录排在第1位时：1位、1位、1位、4位…

dense_rank：计算排序时，即使存在相同位次的记录，也不会跳过之后的位次。
e.g. 有三条记录排在第1位时：1位、1位、1位、2位…

row_number：赋予唯一的连续位次。
e.g. 有三条记录排在第1位时：1位、2位、3位、4位…

ntitle：用于将分组数据按照顺序切分成n片，返回当前切片值
e.g. 对于一组数字（1，2，3，4，5，6），ntile(2)切片后为（1，1，1，2，2，2）

1）统计所有产品的售价排名

具体代码如下：
SELECT product_name,product_type
,sale_price,
RANK () OVER
(
ORDER BY sale_price
) AS ranking
FROM product;

执行结果如下：

2）统计各产品类型下各产品的售价排名

具体代码如下：
SELECT product_name,product_type
,sale_price,
RANK () OVER
(
PARTITION BY product_type
ORDER BY sale_price
) AS ranking
FROM product;

执行结果如下：

对比一下dense_rank、row_number、ntile

具体代码如下：
SELECT product_name,product_type,sale_price,
RANK ()OVER (ORDER BY sale_price) AS ranking,
DENSE_RANK () OVER (ORDER BY sale_price) AS dense_ranking,
ROW_NUMBER () OVER (ORDER BY sale_price) AS row_num,
ntile(3)OVER (ORDER BY sale_price) as nt1,
ntile(30)OVER (ORDER BY sale_price) as nt2
–切片大于总记录数
FROM product;

执行结果如下：

从结果可以发现，当ntile(30)中的切片大于了总记录数时，切片的值为记录的序号。

序列

序列中的两个窗口函数cume_dist和percent_rank，通过实例来看看它们是怎么使用的。

1）统计小于等于当前售价的产品数，所占总产品数的比例

具体代码如下：
SELECT product_type,product_name,sale_price,
CUME_DIST() OVER(ORDER BY sale_price) AS rn1,
CUME_DIST() OVER
(
PARTITIONBY product_type
ORDER BYsale_price
) AS rn2
FROM product;

执行结果如下：

rn1: 没有partition,所有数据均为1组，总行数为8，
第一行：小于等于100的行数为1，因此，1/8=0.125
第二行：小于等于500的行数为3，因此，3/8=0.375
rn2: 按照产品类型分组，product_type=厨房用品的行数为4,
第三行：小于等于500的行数为1，因此，1/4=0.25

2）统计每个产品的百分比排序

当前行的RANK值-1/分组内总行数-1
具体代码如下：
SELECT product_type,product_name,sale_price,
percent_rank() OVER (ORDER BY sale_price) AS rn1,
percent_rank() OVER
(
PARTITIONBY product_type
ORDER BYsale_price
) AS rn2
FROM product;

执行结果如下：

rn1: 没有partition,所有数据均为1组，总行数为8，
第一行：排序为1，因此，（1-1）/（8-1）= 0
第二行：排序为2，因此，（2-1）/（8-1）= 0.14
rn2: 按照产品类型分组，product_type=厨房用品的行数为4,
第三行：排序为1，因此，（1-1）/（4-1）= 0
第四行：排序为1，因此，（2-1）/（4-1）= 0.33

数据倾斜

什么是数据倾斜

数据倾斜就是数据的分布不平衡，某些地方特别多，某些地方又特别少，导致在处理数据的时候，有些很快就处理完了，而有些又迟迟未能处理完，导致整体任务最终迟迟无法完成，这种现象就是数据倾斜。

针对mapreduce的过程来说主要表现是：任务进度长时间维持在 99%或者 100%的附近，查看任务监控页面，发现只有少量 reduce 子任务未完成，因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时长。

哪些操作容易造成数据倾斜？

产生数据倾斜的原因

结合数据倾斜的场景，可以总结出产生数据倾斜的原因

key 分布不均匀
业务数据本身的特性
建表考虑不周全，如partition的数量过少
某些 HQL 语句本身就容易产生数据倾斜，如join

优化方法

既然已经知道了哪些情况可能会产生数据倾斜以及产生数据倾斜的原因，那么如何去规避数据倾斜问题呢？

下面结合具体的场景来说说

特殊值产生的数据倾斜

在日志中，常会有字段值丢失的问题，比如日志中的 user_id，如果取其中的 user_id 和用户表中的 user_id 相关联，就会碰到数据倾斜的问题。

解决方案 1：user_id 为空的不参与关联
select *
from log a join user b
on a.user_id is not null and a.user_id = b.user_id
union all
select *
from log c
where c.user_id is null;

解决方案 2：赋予空值新的 key 值
select *
from log a left outer join user b
on case when a.user_id is null thenconcat(‘null_’,rand()) else a.user_id end = b.user_id

方法 2 比方法 1 效率更好，不但 IO 少了，而且作业数也少了。

方案 1 中，log 表读了两次，job数肯定是 2，而方案 2 job数是 1。
方法 2 使本身为 null 的所有记录不会拥挤在同一个 reduceTask 了，加上随机字符串值，会分散到了多个 reduceTask 中，由于 null 值关联不上，处理后并不影响最终结果。

大小表关联查询产生数据倾斜

对于这种数据倾斜一般的做法是使用MapJoin-将其中做连接的小表（全量数据）分发到所有 MapTask 端进行 Join，从而避免了 reduceTask，前提要求是内存足以装下该全量数据。

以大表 a 和小表 b 为例，所有的 maptask 节点都装载小表 b 的所有数据，然后大表 a 的一个数据块数据比如说是 a1 去跟 b 全量数据做链接，就省去了 reduce 做汇总的过程。

所以相对来说，在内存允许的条件下使用 map join 比直接使用 MapReduce 效率还高些，当然这只限于做 join 查询的时候。

其实对于多表join，是否开启MapJoin，可以进行设置的，具体参数如下：

set hive.auto.convert.join=true; //设置 MapJoin 优化自动开启
set hive.mapjoin.smalltable.filesize=25000000 //设置小表不超过多大时开启 mapjoin 优化

也可以人为指定开启MapJoin，请看下面的代码：
select /* +mapjoin(b) */ a.id aid, name, age
from a join b
on a.id = b.id;

因为加了/* +mapjoin(b) */这一段代码，执行的时候就会将b表读入内存中，但是要求b表必须是小表，数据量不能太大。

性能调优

由于Hive的执行依赖于底层的MapReduce作业，因此对MapReduce作业的调整优化是提高Hive性能的基础。所以可以从以下几个方面进行一系列的调优，来大幅度地提高Hive的查询性能。

启用压缩

在Hive中对中间数据或最终数据做压缩，是提高数据吞吐量和性能的一种手段。对数据做压缩，可以大量减少磁盘的存储空间，比如基于文本的数据文件，可以将文件压缩40%或更多。同时压缩后的文件在网络间传输I/O也会大大减少；当然压缩和解压缩也会带来额外的CPU开销，但是却可以节省更多的I/O和使用更少的内存开销。

常见的压缩方式有：GZIP、BZIP2、LZO、Snappy等。

那这么多种压缩方式，使用哪一种呢？可以通过压缩比、压缩速度、是否可分割来决定选哪一种，压缩比和压缩速度都好理解，是否可分割是指压缩后的文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序同时读取，可以做到更好的并行化。

下表是各种压缩方式的对比：

如何设置

前文有提到在Hive中对中间数据或最终数据做压缩，那分别来看看如何设置。
中间数据压缩
set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

hive.exec.compress.intermediate：默认该值为false，设置为true为激活中间数据压缩功能。HiveQL语句最终会被编译成Hadoop的Mapreduce job，开启Hive的中间数据压缩功能，就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段，优先选择一个低CPU开销的算法。

mapred.map.output.compression.codec：该参数是具体的压缩算法实现类的配置参数，SnappyCodec是比较适合这种场景的编解码器，该算法会带来很好的压缩比和较低的CPU开销。

最终数据压缩

set hive.exec.compress.output=true
setmapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
hive.exec.compress.output：该参数控制最终数据压缩的激活与禁用，设置为true来声明将结果文件进行压缩。
mapred.output.compression.codec：选择一个合适的编解码器，如选择SnappyCodec。

避免全局排序

Hive中使用order by子句实现全局排序。order by只用一个Reducer产生结果，对于大数据集，这种做法效率很低。

如果不需要全局有序，则可以使用sort by子句，该子句为每个reducer生成一个排好序的文件。如果需要控制一个特定数据行流向哪个reducer，可以使用distribute by子句，例如:
select id, name, salary, dept
from employee
distribute by dept
sort by id asc, name desc;

属于一个dept的数据会分配到同一个reducer进行处理，同一个dept的所有记录按照id、name列排序。最终的结果集是局部有序的。

优化limit操作

默认时limit操作仍然会执行整个查询，然后返回限定的行数。在有些情况下这种处理方式很浪费，因此可以通过设置下面的属性避免此行为。

说明:
hive.limit.optimize.enable:是否启用limit优化。当使用limit语句时，对源数据进行抽样。
hive.limit.row.max.size:在使用limit做数据的子集查询时保证的最小行数据量。
hive.limit.optimize.limit.file:在使用limit做数据子集查询时，采样的最大文件数。
hive.limit.optimize.fetch.max:使用简单limit数据抽样时，允许的最大行数。

启用并行

每条HiveQL语句都被转化成一个或多个执行阶段，可能是一个MapReduce阶段、采样阶段、归并阶段、限制阶段等。默认时，Hive在任意时刻只能执行其中一个阶段。

如果组成一个特定作业的多个执行阶段是彼此独立的，那么它们可以并行执行，从而整个作业得以更快完成。通过设置下面的属性启用并行执行。

说明:
hive.exec.parallel:是否并行执行作业。
hive.exec.parallel.thread.number:最多可以并行执行的作业数。

启用MapReduce严格模式

Hive提供了一个严格模式，可以防止用户执行那些可能产生负面影响的查询。通过设置下面的属性启用MapReduce严格模式。

严格模式禁止3种类型的查询：

1）对于分区表，where子句中不包含分区字段过滤条件的查询语句不允许执行。
2）对于使用了order by子句的查询，要求必须使用limit子句，否则不允许执行。
3）限制笛卡尔积查询。

控制并行Reduce任务

Hive通过将查询划分成一个或多个MapReduce任务达到并行的目的。确定最佳的mapper个数和reducer个数取决于多个变量，例如输入的数据量以及对这些数据执行的操作类型等。

如果有太多的mapper或reducer任务，会导致启动、调度和运行作业过程中产生过多的开销，而如果设置的数量太少，那么就可能没有充分利用好集群内在的并行性。对于一个Hive查询，可以设置下面的属性来控制并行reduce任务的个数。

说明:
hive.exec.reducers.bytes.per.reducer:每个reducer的字节数，默认值为256MB。Hive是按照输入的数据量大小来确定reducer个数的。例如，如果输入的数据是1GB，将使用4个reducer。
hive.exec.reducers.max:将会使用的最大reducer个数。

启用向量化

向量化特性在Hive 0.13.1版本中被首次引入。通过查询执行向量化，使Hive从单行处理数据改为批量处理方式，具体来说是一次处理1024行而不是原来的每次只处理一行，这大大提升了指令流水线和缓存的利用率，从而提高了表扫描、聚合、过滤和连接等操作的性能。可以设置下面的属性启用查询执行向量化。

说明:
hive.vectorized.execution.enabled:如果该标志设置为true，则开启查询执行的向量模式，默认值为false。

hive.vectorized.execution.reduce.enabled:如果该标志设置为true，则开启查询执行reduce端的向量模式，默认值为true。

hive.vectorized.execution.reduce.groupby.enabled:如果该标志设置为true，则开启查询执行reduce端groupby操作的向量模式，默认值为true。

启用基于成本的优化器

Hive 0.14版本开始提供基于成本优化器(CBO)特性。使用过Oracle数据库的读者对CBO一定不会陌生。与Oracle类似，Hive的CBO也可以根据查询成本制定执行计划，例如确定表连接的顺序、以何种方式执行连接、使用的并行度等。设置下面的属性启用基于成本优化器。

说明:
hive.cbo.enable:控制是否启用基于成本的优化器，默认值是true。Hive的CBO使用Apache Calcite框架实现。

hive.compute.query.using.stats:该属性的默认值为false。如果设置为true，Hive在执行某些查询时，例如select count(1)，只利用元数据存储中保存的状态信息返回结果。为了收集基本状态信息，需要将hive.stats.autogather属性配置为true。为了收集更多的状态信息，需要运行analyze table查询命令，例如下面的语句收集sales_order_fact表的统计信息。

analyze table
sales_order_fact compute statistics
for
columns;

hive.stats.fetch.partition.stats:该属性的默认值为true。操作树中所标识的统计信息，需要分区级别的基本统计，如每个分区的行数、数据量大小和文件大小等。分区统计信息从元数据存储中获取。如果存在很多分区，要为每个分区收集统计信息可能会消耗大量的资源。这个标志可被用于禁止从元数据存储中获取分区统计。当该标志设置为false时，Hive从文件系统获取文件大小，并根据表结构估算行数。

hive.stats.fetch.column.stats:该属性的默认值为false。操作树中所标识的统计信息，需要列统计。列统计信息从元数据存储中获取。如果存在很多列，要为每个列收集统计信息可能会消耗大量的资源。这个标志可被用于禁止从元数据存储中获取列统计。

EXPLAIN

explain-解释计划，通过explain命令可以知道hive将会如何执行所写的查询语句，需要注意的是查询语句并没有执行哦，只是告诉你将会怎么样执行。

这对于HIVE SQL的调优是很重要的，一个复杂的SQL如果执行的时间过长，可以根据解释计划来看具体执行的步骤，进而找到可以优化的地方。

下面就结合例子看看如何查看解释计划，代码中的注释部分是要重点关注的。

EXPLAIN
select student,sum(score)
FROM test.class
GROUP BY student

执行上述的代码：

Explain
Plan optimized by CBO.
–CBO是打开的，计划基于CBO优化

Vertex dependency in root stage
Reducer 2 <- Map 1 (SIMPLE_EDGE)
–简单的依赖关系，一个Map2个Reducer

Stage-0
Fetch Operator
limit:-1
Stage-1
Reducer 2
File Output Operator [FS_6]
Group By Operator[GBY_4] (rows=9 width=16) --reducer端的聚合
Output:["_col0","_col1"],aggregations:[“sum(VALUE._col0)”],keys:KEY._col0
<-Map 1 [SIMPLE_EDGE]//发生在job的 map 处理阶段过程
SHUFFLE [RS_3]
PartitionCols:_col0
Group ByOperator [GBY_2] (rows=18 width=16) --map端的聚合
Output:["_col0","_col1"],aggregations:[“sum(score)”],keys:student
Select Operator [SEL_1] (rows=18 width=16)
Output:[“student”,“score”]
TableScan [TS_0] (rows=18 width=16) --读取表的数据
test@class,class,Tbl:COMPLETE,Col:NONE,Output:[“student”,“score”]

上述打印的就是解释计划，主要关注的是Stage部分，需要注意的是这一部分是从下往上进行查看的，最先查看到的是读取表的数据（18条记录）及选取的字段，然后可以看出在Map端先做了一次聚合，然后在recucer端又进行了一次聚合。

EXPLAIN后面可以加不同关键字来针对性的查看，DEPENDENCY|AUTHORIZATION在实际工作中比较常用，我们着重介绍下这两个关键字。

DEPENDENCY

EXPLAIN DEPENDENCY
select *
FROM test.test_view --是一个测试视图

Explain
{“input_tables”:[{“tablename”:“test@test_view”,“tabletype”:“VIRTUAL_VIEW”},{“tablename”:“test@product”,“tabletype”:“MANAGED_TABLE”,“tableParents”:"[test@test_view]"}],“input_partitions”:[]}

EXPLAIN DEPENDENCY用于描述整个sql需要依赖的输入数据，为了直观的看出它的结构，我将输出的JSON格式化后展开如上图所示：分为两部分input_tables和input_partitions，顾名思义就是输入的表和分区，实际运用场景：

1）排错，排查某个程序可能在运行过程略过了某个分区
2）理清程序依赖的表的输入，理解程序的运行，特别是理解在俩表join的情况下的依赖输入
3）查看视图的实际数据来源

AUTHORIZATION

Explain
INPUTS:
test@class
OUTPUTS:
hdfs://hans/tmp/hive/spark/da7f94b3-b9e2-46f1-8bee-8a367f62a753/hive_2019-05-30_10-58-00_447_6351031319937169270-1/-mr-10001
CURRENT_USER:
spark
OPERATION:
QUERY
AUTHORIZATION_FAILURES:
Permission denied: Principal [name=spark,type=USER] does not have following privileges for operation QUERY [[SELECT] onObject [type=TABLE_OR_VIEW, name=test.class]]

用来表达CURRENT_USER的用户对哪些INPUTS有读操作，对哪些OUTPUTS有写操作。

上面的解释计划是spark的用户，读取test@class的数据，查询出来的结果会暂时存放到hdfs://hans/tmp/hive/spark/da7f94b3-b9e2-46f1-8bee-8a367f62a753/hive_2019-05-30_10-58-00_447_6351031319937169270-1/-mr-10001文件中。

替换引擎

为什么要替换

HIVE的默认执行引擎是MapReduce，MapReduce是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，每个阶段都是用键值对（key/value）作为输入和输出，非常适合数据密集型计算。

但是缺点也很明显，最直观的感受就是执行时间长，它在计算时会对磁盘进行多次的读写操作，这样启动多轮job的代价略有些大，不仅占用资源，更耗费大量的时间。

本篇前面在性能调优部分，所讲解的优化措施就是针对MapReduce的，如果现在有另外一个引擎可以代替MapReduce并且自带优化策略，你换不换？

替换成什么？

目前的主流选择是Tez，Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业。

总结起来，Tez在执行绩效上有以下特点：

（1）比MapReduce更好的性能提升
（2）最佳资源管理
（3）运行中重新配置计划
（4）动态物理数据流决策

从上面Tez的介绍来看，Tez的确有很多优点。

下面我们单单从执行过程来看，传统的MR（包括Hive，Pig和直接编写MR程序），假设有四个有依赖关系的MR作业（1个较为复杂的Hive SQL语句或者Pig脚本可能被翻译成4个有依赖关系的MR作业），运行过程如下（其中，绿色是Reduce Task，需要写HDFS；云状表示写屏蔽（write barrier，一种内核机制，持久写）；绿色的圆圈代表一个job）：

MR需要4个job来完成计算，而Tez可以将多个有依赖的作业转换为一个作业（这样只需写一次HDFS，且中间节点较少），从而大大提升DAG作业的性能。

怎么替换

肯定是要先安装起来，这里就不具体说明怎么安装了，网上相关的文章很多。安装好了之后，只需对hive-site.xml中修改如下配置：

看到这里，大家可以去查看下自己的工作或者学习的HIVE平台的引擎是什么，如何还是mr建议换掉，在hive的命令行输入下面的代码，即可查看。
set hive.execution.engine;

总结

本篇HIVE进阶讲述的内容，可能在实际工作中不是全部很常用，但是对于更高效的利用HIVE、写出高效和简洁的HIVE SQL代码、程序调错调优是非常重要的，所以掌握这些知识无疑是提升工作效率的一剂良药。

参考文献：

[1] 比MR至少快5倍的神器，竟然是它，作者：巩传捷@中兴大数据 -https://www.sohu.com/a/131167936_465944

[2] MapReduce和Tez对比，作者：凌度 - https://www.cnblogs.com/linn/p/5325147.html

[3] 数据倾斜及处理，作者：火山Vol -https://www.jianshu.com/p/42be5ca8b11d

[4] Hive学习之路（十九）Hive的数据倾斜，作者：扎心了，老铁 - https://www.cnblogs.com/qingyunzong/p/8847597.html

[5] Hive压缩设置，作者：djd已经存在 - https://blog.csdn.net/djd1234567/article/details/51581354

[6] Hive的Explain命令，作者：skyl夜 -https://www.cnblogs.com/skyl/p/4737411.html

[7] Tez官网 - http://tez.apache.org/

转载至：人工智能与大数据群

你可能感兴趣的:(大数据HIVE---进阶)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
深入了解 Vim 编辑器：从入门到精通誰能久伴不乏编辑器 vim linux
文章目录深入了解Vim编辑器：从入门到精通一、Vim的三个基本模式1.普通模式（NormalMode）2.插入模式（InsertMode）3.命令模式（CommandMode）二、常用快捷键光标移动删除操作复制和粘贴撤销和重做三、文件操作与搜索文件操作搜索文本替换文本四、Vim的进阶功能多文件编辑分屏功能标签页查看帮助五、总结深入了解Vim编辑器：从入门到精通Vim是一个强大的文本编辑器，广泛应用
JVM与Spring Boot核心解析 AIHacksCash Java场景面试宝典 Java JVM Spring Boot
我是廖志伟，一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》（基础篇）、（进阶篇）、（架构篇）清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、阿里云专家博主、51CTO专家博主、产品软文专业写手、技术文章评审老师、技术类问卷调查设计师、幕后大佬社区创始人、开源项目贡献者。拥有多年一线研发和团队管理经验，研究过主流框架的底层源码(Spring、Spri
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
【Android】安卓四大组件之广播接收器（Broadcast Receiver）：从基础到进阶 m0_59734531 Android android java Boradcast 安卓四大组件
在Android开发中，广播接收器（BroadcastReceiver）是一个非常重要的组件，它能帮助应用接收来自系统或其他应用的事件通知，实现跨组件、跨应用的通信。大家可以把广播接收器想象成一个“收音机”。它的作用是监听系统或应用发出的“广播消息”，并在收到消息后执行相应的操作。（一）基础概念BroadcastReceiver用于监听系统或应用发出的广播事件，实现跨组件通信。其特点是发送方无需关
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
让电机转起来--基于STM32F1控制两相步进电机转动-新手小白入（完整代码）梦想是成为甜妹儿 stm32 嵌入式硬件单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基础内容1、步进电机2、电机驱动器3、接线方法二、最简单控制电机转动程序1.定时器的输出比较功能生成PWM波2.电机方向控制3.主函数三、进阶版电机控制程序1.加入按键控制2.motor.c中添加一个函数3.主函数总结前言本帖分享步进电机与驱动器的接线方式、速度计算与代码分析。第一次接触电机的小白可能会面对无数的代码分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Matplotlib-图像处理与可视化
Matplotlib-图像处理与可视化一、图像数据的本质：从数组到像素二、基础操作：加载与显示图像1.加载图像数据2.显示单张图像3.显示灰度图像三、进阶可视化：通道分离与色彩调整1.分离RGB通道2.调整亮度与对比度四、实用技巧：色彩映射与像素值分析1.自定义色彩映射（Colormap）2.像素值分布直方图五、多图对比与标注：算法结果可视化1.边缘检测结果对比2.图像标注：突出感兴趣区域六、注意
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C#集合：从基础到进阶的全面解析阿蒙Armon C#继续学习 c#windows linux
C#集合：从基础到进阶的全面解析在C#编程中，集合是处理数据集合的核心工具。无论是存储一组对象、实现缓存机制，还是处理复杂的数据结构，都离不开集合的灵活运用。本文将全面深入地探讨C#集合体系，从基础概念到高级技巧，帮助开发者掌握集合的精髓，写出更高效、更优雅的代码。一、集合概述与分类C#集合框架是.NET类库的重要组成部分，它提供了一系列用于存储和操作数据的类和接口。与数组相比，集合具有动态扩容、
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
【前端】【Echarts】【Liquidfill 水球图】深入理解 ECharts Liquidfill 水球图：从入门到进阶患得患失949 Echarts学习数据大屏前端 echarts javascript
效果深入理解EChartsLiquidfill水球图：从入门到进阶在可视化数据展示中，水球图（Liquidfill）是一种极具表现力的图表。它形象地用“水位高低”表示某个百分比或完成度，非常适合展示指标进度、占比、加载状态等。本文将结合实际HTML示例，带你全面掌握如何使用ECharts+echarts-liquidfill插件绘制水球图，并通过多个实例逐步讲解配置技巧。准备工作在HTML中使用水
Pydantic 精通指南：从基础到进阶的全方位学习
一、基础部分1.Pydantic简介什么是Pydantic？Pydantic是一个用于数据验证和设置管理的Python库，它使用Python类型注解（typehints）来自动验证和解析数据。它的核心功能是对输入的数据进行严格的类型检查，并确保它们符合预期的格式。Pydantic提供了简单、快速且灵活的数据模型定义方式，广泛用于FastAPI中以处理请求和响应数据。Pydantic与其他数据验证工
异步进阶：C#的Task.WhenAll——如何开启多个异步任务
Task.WhenAll是.NET中用于并行等待多个异步任务的核心方法。它可以让多个异步操作同时执行，然后一次性等待所有任务完成，而不是逐个等待。asyncvoidMain(){//准备数据：[1,2,3,4,5,6,7,8,9,10]varinputs=Enumerable.Range(1,10).ToArray();varoutputs=newList();//❌错误方式：串行执行（一个接一个
# Unity C#进阶：掌握泛型编程，告别重复代码，编写优雅复用的通用组件！（Day26）吴师兄大模型 C#编程从入门到进阶 unity c#游戏引擎 c语言开发语言游戏开发泛型编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc