笨小孩124

Python大数据之linux学习总结——day09_hive调优

hive调优

hive官方配置url: https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

hive命令和参数配置

hive参数配置的意义: 开发Hive应用/调优时，不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率，或帮助定位问题。然而实践中经常遇到的一个问题是，为什么我设定的参数没有起作用？这是对hive参数配置几种方式不了解导致的!

hive参数设置范围 : 配置文件参数 >   命令行参数  >   set参数声明

hive参数设置优先级: set参数声明  >   命令行参数   >  配置文件参数

注意: 一般执行SQL需要指定的参数, 都是通过 set参数声明 方式进行配置,因为它属于当前会话的临时设置,断开后就失效了

1.hive数据压缩

Hive底层是运行MapReduce，所以Hive支持什么压缩格式本质上取决于MapReduce。

压缩对比

在后续可能会使用GZ(GZIP), 保证压缩后的数据更小, 同时压缩和解压的速度比较OK的,

但是大部分的选择主要会选择另一种压缩方案, snappy, 此种方案可以保证在合理的压缩比下, 拥有更高的解压缩的速度

http://google.github.io/snappy/
On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

开启压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量. 当Hive将输出写入到表中时，输出内容同样可以进行压缩。用户可以通过在查询语句或执行脚本中设置这个值为true，来开启输出结果压缩功能。


-- 创建数据库
create database hive05;
-- 使用库
use hive05;


-- 开启压缩(map阶段或者reduce阶段)
--开启hive支持中间结果的压缩方案
set hive.exec.compress.intermediate; -- 查看默认
set hive.exec.compress.intermediate=true ;
--开启hive支持最终结果压缩
set hive.exec.compress.output; -- 查看默认
set hive.exec.compress.output=true;

--开启MR的map端压缩操作
set mapreduce.map.output.compress; -- 查看默认
set mapreduce.map.output.compress=true;
--设置mapper端压缩的方案
set mapreduce.map.output.compress.codec; -- 查看默认
set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;

-- 开启MR的reduce端的压缩方案
set mapreduce.output.fileoutputformat.compress; -- 查看默认
set mapreduce.output.fileoutputformat.compress=true;
-- 设置reduce端压缩的方案
set mapreduce.output.fileoutputformat.compress.codec; -- 查看默认
set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
--设置reduce的压缩类型
set mapreduce.output.fileoutputformat.compress.type; -- 查看默认
set mapreduce.output.fileoutputformat.compress.type=BLOCK;

2.hive数据存储[练习]

行列存储原理

行存储的特点: 查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。
列存储的特点: 因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

行存储: textfile和squencefile
	优点: 每行数据连续存储              select * from 表名; 查询速度相对较快
	缺点: 每列类型不一致,空间利用率不高   select 列名 from 表名; 查询速度相对较慢
列存储: orc和parquet
	优点: 每列数据连续存储         select 列名 from 表名;  查询速度相对较快
	缺点: 因为每行数据不是连续存储  select * from 表名;查询速度相对较慢
	
注意: ORC文件格式的数据, 默认内置一种压缩算法:zlib , 在实际生产中一般会将ORC压缩算法替换为 snappy使用,格式为: STORED AS orc tblproperties ("orc.compress"="SNAPPY")

存储压缩比

-- 存储格式应用对比
-- 演示textfile行存储格式: 18.1 m
create table log_text (
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE ; -- TEXTFILE当前默认的,可以省略

-- 查询数据
select * from log_text;



-- 演示orc列存储(默认zlib): 2.78 m
create table log_orc(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS orc ;-- 默认内置一种压缩算法:ZLIB

-- 加载数据(先上传数据文件到根目录)
insert into table log_orc select * from log_text;
-- 查询数据
select * from log_orc;


-- [重点orc配合snappy]
-- 演示orc列存储(指定snappy): 3.75 m
create table log_orc_snappy(
    track_time string,
    url string,
    session_id string,
    referer string,
    ip string,
    end_user_id string,
    city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS orc tblproperties ("orc.compress"="SNAPPY"); -- 配合SNAPPY压缩

-- 加载数据(先上传数据文件到根目录)
insert into table log_orc_snappy select * from log_text;
-- 查询数据
select * from log_orc_snappy;

/*ORC文件格式的数据, 默认内置一种压缩算法:ZLIB , 在实际生产中一般会将ORC压缩算法替换为 snappy
格式为: STORED AS orc tblproperties ("orc.compress"="SNAPPY") */




-- 演示parquet压缩存储:13.09 m
create table log_parquet(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS PARQUET ;

-- 加载数据(先上传数据文件到根目录)
insert into table log_parquet select * from log_text;
-- 查询数据
select * from log_parquet;

拓展dfs -du -h

-- 查看hdfs文件大小除了去页面查看,还可以通过命令
dfs -du -h '/user/hive/warehouse/hive05.db/log_text/log.data' ;
dfs -du -h '/user/hive/warehouse/hive05.db/log_orc/000000_0' ;
dfs -du -h '/user/hive/warehouse/hive05.db/log_orc_snappy/000000_0' ;
dfs -du -h '/user/hive/warehouse/hive05.db/log_parquet/000000_0' ;

3. fetch抓取

核心点: 在执行SQL, 能不走MR, 尽量不走MR

回想, 在之前执行什么样查询的SQL的时候,没有走MR呢?

1) 全表扫描
2) 查询某个列数据
3) 执行一些简答查询操作
4) 执行limit操作

而这些操作, 没有走MR原因, 就是hive默认以及开启本地抓取的策略方案:

hive.fetch.task.conversion:   设置本地抓取策略
	可选:
		more (默认值): 可以保证在执行全表扫描, 查询某几个列, 进度limit操作,还有简单条件查询4种情况都不会走MR
		minimal :  保证执行全表扫描以,查询某几个列,简单limit操作,3种情况可以不走MR
		none : 全部的查询的SQL 都执行MR

示例:

-- 默认是more,底层自动调优
set hive.fetch.task.conversion; -- 默认结果是more
set hive.fetch.task.conversion = more;
select * from log_text; -- 不走mr
select url from log_text;-- 不走mr
select url from log_text limit 3;-- 不走mr
select url from log_text where city_id = -1;-- 不走mr

-- 可以体验下minimal模式
set hive.fetch.task.conversion = minimal;
select * from log_text;-- 不走mr
select url from log_text;-- 不走mr
select url from log_text limit 3;-- 不走mr
select url from log_text where city_id = -1;-- 走mr

-- 还可以体验下none模式
set hive.fetch.task.conversion = none;
select * from log_text;-- 走mr
select url from log_text;-- 走mr
select url from log_text limit 3;-- 走mr
select url from log_text where city_id = -1;-- 走mr

4. 本地模式

核心点:让MR能走本地模式, 尽量走本地MR(大白话: 小活能自己干就不要麻烦别人)

如何开启:
	set hive.exec.mode.local.auto=true;  默认值为: false

开启本地模式后, 在什么情况下执行本地MR:   只有当输入的数据满足以下两个特性后, 才会执行本地MR
	set hive.exec.mode.local.auto.inputbytes.max=51234560;   默认为 128M 
		设置本地MR最大处理的数据量
	set hive.exec.mode.local.auto.input.files.max=10; 默认值为4
		设置本地MR最大处理的文件的数量

示例:

-- 4.开启本地mr(默认false,如果小数据任务进行调优开启,小任务能自己干就自己干)
set hive.exec.mode.local.auto;  -- 默认关闭
set hive.exec.mode.local.auto=false; -- 手动关闭
set hive.exec.mode.local.auto=true; -- 手动开启

--设置local mr的最大输入数据量，当输入数据量小于这个值时采用local  mr的方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max;-- 查看
set hive.exec.mode.local.auto.inputbytes.max=134217728;

--设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr的方式，默认为4
set hive.exec.mode.local.auto.input.files.max;-- 查看
set hive.exec.mode.local.auto.input.files.max=4;

-- 执行sql语句
-- 没有开启本地执行24秒,开启后1.5秒
select * from log_text order by city_id desc;

-- 注意: 有的同学开启本地模式后执行上述sql语句,会报code 2...错误
-- 错误:[08S01][2] Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
-- 如何解决? /export/server/hive/hive-env.sh  修改 export HADOOP_HEAPSIZE=2048
-- 注意: 修改完后需要重启hive服务

5. join的优化操作

思考: 在通过hive执行多表查询的SQL, 最终hive翻译的MR,是如何完成join的工作的呢?

默认的join行为, 基于reduce端的join工作

思考, 请问上述join存在哪些问题?

1) 导致reduce的压力剧增, 所有的数据全部都打向reduce中
2) 当有了多个reduce后, 如果某个join字段的值出现大量的重复, 会导致大量key发往同一个reduce, 从而导致数据倾斜

那么如何解决reduce端join遇到问题? 可以通过底层map 端 join实现,还可以sql语句join之前提前过滤数据或者转换数据实现

通过 map join 即可解决掉 reduce join所出现的所有的问题, 也可以这么 mapjoin有解决数据倾斜的作用

存在什么弊端: 
	小表数据需要存储在内存中, 随着mapTask越多, 存储在内存的小表数据份数也会越多
		当这个小表数据比较大的, 可能无法放置到内存中

所以说, mapJoin有一定使用范围: 仅适用于小表 和大表 进行join的情况

大表和小表进行join:

解决方案: map join

如何开启这种操作呢?

set hive.auto.convert.join = true; -- 默认为true  开启mapJoin支持 
set hive.mapjoin.smalltable.filesize= 25000000;  设置 小表的最大的数据量  23.84m

在执行SQL, 应该将小表放置前面呢, 还是大表放置在前面呢,还是都可以呢 ?

(hive1) :  要求 必须将小表在前大表在后 ,只有这样才可能走Map Join
(hive2):  无所谓, 谁在前, 谁在后, 没有任何的影响, hive会自动判断

大表和大表join

解决方案:

1) 能在join之前过滤操作, 一定要在join前过滤, 以减少join的数据量, 从而提升效率
2) 如果join字段上, 有很多的空值null值,获取其他无效数据, 这些值越多 就会导致出现数据倾斜
	方案一: 提前过滤掉
		select * from (select * from 表1 where 字段名 is not null) 别名1 join (select * from 表2 where 			字段名 is not null) 别名2 on 关联条件;
	方案二: 将null值替换为随机数, 从而减少数据倾斜影响
		select * from (select case when 字段名 is null then rand() else 字段名 end  from 表1) 别名1 join 			(select case when 字段名 is null then rand() else 字段名 end  from 表2) 别名2 on 关联条件;
3) 基于分桶表(大文件分为多个小文件)

6. 列裁剪

Hive在读数据的时候，可以只读取查询中所需要用到的列，而忽略其他列

例如:

假设有一个表A: a b c d e   5个字段, 请查看以下SQL
select  a,b from A where a=xxx;

在这条SQL, 发现没有使用c d e 字段, 在from A表时候, 读取数据, 只需要将a列 和 b列数据读取出来即可, 不需要读取cde列字段, 这样可以减少读取的数据量, 从而提升效率

如何配置呢?

-- 6.列裁剪(只读取sql语句需要的字段,节省读取开销,提升效率)
set hive.optimize.cp=true;  -- 默认就是true  (在hive 2.x中无需在配置了, 直接为固定值: true)

7. 分区裁剪

执行查询SQL的时候, 能在join之前提前进行条件过滤的操作, 一定要提前过滤, 不要在join后进行过滤操作

如果操作的表是一张分区表, 那么建议一定要带上分区字段, 以减少扫描的数据量, 从而提升效率,

例如:

select  * from A join B where A.id=xxx;
优化后:
select * from (select * from A where id= xxx) A join B;

如何配置呢?

-- 7.分区裁剪
set hive.optimize.pruner=true; --默认为就是true (在hive 2.x中无需在配置了, 直接为固定值: true)

8. group by 操作

执行分组操作, 翻译后的MR, 分组的字段就是k2的字段, 按照k2进行分组操作, 将相同value合并在同一个集合中, 既然分组的字段就是MR的k2, 那么分区也会按照分组字段进行分区操作, 如果某个组下数据非常的多, 可能出现出现什么问题呢?

此时有可能发生数据倾斜, 因为相同key会发往同一个reduce中

所以说: 在hive中出现数据倾斜的主要体现在两个方面:
	第一个:执行join操作(reduce join)
	第二个:执行group by 操作

如何在hive中配置:

方案一:  
    --（1）是否在Map端进行聚合，默认为True
    set hive.map.aggr = true;
    --（2）在Map端进行聚合操作的条目数目
    set hive.groupby.mapaggr.checkinterval = 100000;

方案二:  官方称为 负载均衡
--（3）有数据倾斜的时候进行负载均衡（默认是false）
set hive.groupby.skewindata = true;
    第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；
	第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作。

9. count(distinct)

说明 : count(distinct) 在数据量比较大的情况下, 效率并不高

思考: 你知道是为什么吗?

原因如下: 
	请问1: 执行count操作的时候, hive翻译的MR, reduce数量是否可以有多个? 必然不会有多个, 只能有一个, 因为全局求最终结果
		此时如果执行统计的时候, 需要进行去重,那么去重工作是由reduce执行去重操作,  由于reduce只有一个, 所有的数据都在一个reduce中, 此时reduce的压力比较大
		
	希望执行去重工作可能有多个reduce一起来执行操作, 此时可以将SQL优化: 
		原有:
			select count(distinct ip) from ip_tab;
		优化: 
			select 
			    count(ip)
			from
			   (select ip from ip_tab group by ip) tmp;
	
		请注意: 这样的做法, 虽然会运行两个MR, 但是当数据量足够庞大的时候, 此操作绝对是值得的, 如果数据量比较少, 此操作效率更低

-- count(distinct)优化
set hive.optimize.countdistinct; -- 默认就是true
set hive.optimize.countdistinct = true;
/*
SELECT count(DISTINCT id) FROM 大表;
结果：
SELECT count(id) FROM (SELECT id FROM 大表 GROUP BY id) a;
*/
select count(distinct devicetype) from device1;
select count(devicetype) from (select devicetype from device1 group by devicetype) a;
-- 注意: 小表拆分两个mr反而效率低,以后大表的时候才会真正提升效率

10. 笛卡尔积

什么是笛卡尔积呢? 在进行join的时候, 两个表乘积之后结果就是笛卡尔积的结果

比如: 一个表有5条, 一个表有3条数据, 笛卡尔积结果就有15条数据 , 笛卡尔积中有大量数据都是无用数据

什么时候会产生笛卡尔积呢? 在多表join的时候, 关联条件缺少或者使用错误的关联条件以及将关联条件放置在where中都会导致笛卡尔积

在实际使用中, 建议:

1) 避免join的时候不加on条件，或者无效的on条件
2) 关联条件不要放置在where语句, 因为底层, 先产生笛卡尔积 然后基于where进行过滤 , 建议放置on条件上
3) 如果实际开发中无法确定表与表关联条件 建议与数据管理者重新对接, 避免出现问题

11. 动态分区[练习]

需求: 请将下面的一个分区表数据, 拷贝到另一个分区表, 保证对应区数据放置到另一个表的对应区下

如何配置呢?

作用:  帮助一次性灌入多个分区的数据
参数: 
	set hive.exec.dynamic.partition.mode=nonstrict;  -- 开启非严格模式 默认为 strict(严格模式)
	set hive.exec.dynamic.partition=true;  -- 开启动态分区支持, 默认就是true
	
可选的参数:
	set  hive.exec.max.dynamic.partitions=1000; -- 在所有执行MR的节点上，最大一共可以创建多少个动态分区。
	set hive.exec.max.dynamic.partitions.pernode=100; -- 每个执行MR的节点上，最大可以创建多少个动态分区
	set hive.exec.max.created.files=100000; -- 整个MR Job中，最大可以创建多少个HDFS文件

示例:

-- 回顾快速创建表
-- 1.根据score.txt数据以及格式创建表
create table score_part(
    name string,
    subject string,
    score int
)partitioned by (year string)
row format delimited fields terminated by '\t'
;
-- 2.上传score.txt到hdfs中
-- 注意: 分区表需要把文件上传到分区目录中,但是一开始没有目录,所以文件上传到任意目录后,等有了分区目录再使用load移动即可
-- 需要使用load方式生成分区目录并且插入数据
load data inpath '/score.txt' into table score_part partition (year='2022');
-- 3.hive根据元数据和分区目录中业务数据映射成表
select * from score_part;



-- 方式1: 先复制表结构再插入数据
-- 复制表结构,原来的是分区表,复制后也是分区表
create table score_part1 like score_part;
-- 不指定分区字段进行动态分区
insert into score_part1 select * from score_part;
-- 方式2: 一步到位
-- 弊端: 但是作为普通表使用了
create table score_part2 as select * from score_part;


-- 方式3: 动态分区
-- 关闭严格模式
set hive.exec.dynamic.partition.mode=nonstrict;
-- 复制表结构,原来的是分区表,复制后也是分区表
create table score_part3 like score_part;
-- 指定分区字段进行动态分区(必须是非严格模式)
insert into score_part3 partition (year) select * from score_part;

12. 如何调整map和reduce的数量

1>是不是map数越多越好？
答案是否定的。如果一个任务有很多小文件（远远小于块大小128m），则每个小文件也会被当做一个块，用一个map任务来完成，而一个map任务启动和初始化的时间远远大于逻辑处理的时间，就会造成很大的资源浪费。而且，同时可执行的map数是受限的。

2>是不是保证每个map处理接近128m的文件块，就高枕无忧了？
答案也是不一定。比如有一个127m的文件，正常会用一个map去完成，但这个文件只有一个或者两个小字段，却有几千万的记录，如果map处理的逻辑比较复杂，用一个map任务去做，肯定也比较耗时。

3>是不是reduce数越多越好？
答案是否定的。如果reduce设置的过大，对整个作业会产生一定的影响。
①过多的启动和初始化reduce也会消耗时间和资源；
②另外，有多少个reduce，就会有多少个输出文件，如果生成了很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；

4>在什么情况下, 只能有一个reduce呢?

以下几种, 不管如何设置, 最终翻译后reduce只能有一个

执行order by操作

执行不需要group by直接聚合的操作

执行笛卡尔积

如何调整mapTask数量:

小文件场景:当input的文件都很小,把小文件进行合并归档,减少map数, 设置map数量:
```
-- 每个Map最大输入大小(这个值决定了合并后文件的数量)
    set mapred.max.split.size=256000000;
-- 一个节点上split的至少的大小(这个值决定了多个DataNode上的文件是否需要合并)
    set mapred.min.split.size.per.node=1;
-- 一个交换机下split的至少的大小(这个值决定了多个交换机上的文件是否需要合并)
    set mapred.min.split.size.per.rack=1;
-- 执行Map前进行小文件合并默认CombineHiveInputFormat
    set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
```
大文件场景:当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。

举例:如果表a只有一个文件，大小为120M，但包含几千万的记录，如果用1个map去完成这个任务，肯定是比较耗时的，
这种情况下，我们要考虑将这一个文件合理的拆分成多个，这样就可以用多个map任务去完成。
set mapred.reduce.tasks=10;
create table a_1 as select * from tab_info distribute by rand(123);
这样会将a表的记录，随机的分散到包含10个文件的a_1表中，再用a_1代替上面sql中的a表，则会用10个map任务去完成。

如何reduce的数量:

-- 查看reduces数量
-- 该值默认为-1，由hive自己根据任务情况进行判断。
set mapred.reduce.tasks;
set mapreduce.job.reduces;
-- （1）每个Reduce处理的数据量默认是256MB左右
set	hive.exec.reducers.bytes.per.reducer=256000000;
-- （2）每个任务最大的reduce数，默认为1009;
set	hive.exec.reducers.max=1009;

13.并行执行

在执行一个SQL语句的时候, SQL会被翻译为MR, 一个SQL有可能被翻译成多个MR, 那么在多个MR之间, 有些MR之间可能不存在任何的关联, 此时可以设置让这些没有关联的MR 并行执行, 从而提升效率 , 默认是一个一个来

如何配置:

set hive.exec.parallel=false;              --打开任务并行执行,默认关闭
set hive.exec.parallel.thread.number=8;  --同一个sql允许最大并行度，默认为8。

前提:
	服务器必须有资源, 如果没有 即使支持并行, 也没有任何作用

案例:

select  * from A ....
union all
select * from B ...;

例如:
	select from (select * from A group by ...) tmp1 join (select * from B group by xxx) on ...

14. 严格模式

hive提供一种严格模式, 主要目的, 是为了限制一些效率极低的SQL 放置其执行时间过长, 影响其他的操作

屏蔽一下操作:
1) 执行order by 不加 limit
2) 出现笛卡尔积的现象SQL
3) 查询分区表, 不带分区字段

前提: 数据量足够大, 如果数据量比较少, 严格模式对此三项内容不生效

如何配置:

set hive.mapred.mode = strict;  --开启严格模式 
set hive.mapred.mode = nostrict; --开启非严格模式   最新默认

15. JVM 重用

此操作, 在hive2.x已经不需要配置了, 默认支持

jvm重用: 
	默认情况下, container资源容器  只能使用一次,不能重复使用, 开启JVM重用, 运行container容器可以被重复使用,在hive2.x已经默认支持了

16. 推测执行

Hadoop采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。
hadoop中默认两个阶段都开启了推测执行机制。
hive本身也提供了配置项来控制reduce-side的推测执行：

set hive.mapred.reduce.tasks.speculative.execution=true;

关于调优推测执行机制，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大。

17.执行计划explain

使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。帮助我们了解底层原理,hive调优,排查数据倾斜等有很有帮助 

使用示例：explain [...]  sql查询语句;

explain sql语句: 查看执行计划的基本信息

（1）stage dependencies：各个stage之间的依赖性
包含多个stage阶段,例如 Stage-1和Stage-0，Stage-1 是根stage，Stage-0 依赖 Stage-1，
（2）stage plan：各个stage的执行计划
包含两部分: map端执行计划树和reduce端执行计划树

.mapred.reduce.tasks.speculative.execution=true;

关于调优推测执行机制，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大。


## 17.执行计划explain

```properties
使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。帮助我们了解底层原理,hive调优,排查数据倾斜等有很有帮助 

使用示例：explain [...]  sql查询语句;

explain sql语句: 查看执行计划的基本信息

[外链图片转存中…(img-yZtcas9T-1700102444798)]

（1）stage dependencies：各个stage之间的依赖性
包含多个stage阶段,例如 Stage-1和Stage-0，Stage-1 是根stage，Stage-0 依赖 Stage-1，
（2）stage plan：各个stage的执行计划
包含两部分: map端执行计划树和reduce端执行计划树

[外链图片转存中…(img-OxzZWKAQ-1700102444802)]

你可能感兴趣的:(hive,学习总结,大数据,python,linux)

探索Oracle数据库的多租户特性：架构、优势与实践 2401_85812026 数据库 oracle 架构
在云计算和大数据时代，多租户架构成为数据库设计中的一个重要趋势。Oracle数据库的多租户选项（Multitenant）允许单个数据库实例支持多个独立数据库（称为容器数据库和可插拔数据库），每个数据库都有自己的数据、配置和资源。这种设计提高了资源利用率、简化了数据库管理，并增强了安全性。本文将深入探讨Oracle多租户选项的架构、优势以及如何在实际环境中部署和使用。1.多租户选项概述Oracle多
Python: 配置清华源 Dark_Y3 Python python 开发语言
pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simple
特征选择（机器学习）赵孝正机器学习算法机器学习人工智能
目录1.为什么需要特征选择2.常见的特征选择方法2.1过滤式（FilterMethods）小示例（用Python伪代码表达）：2.2包裹式（WrapperMethods）小示例（RFE伪代码示例）：2.3嵌入式（EmbeddedMethods）小示例（Lasso伪代码示例）：3.实践建议4.小结1.为什么需要特征选择在机器学习任务中，经常会遇到以下问题：特征（变量）数量过多，导致计算量大、训练速度
python创建python.py时遇到的问题 name is not defined 江大倩 python python
创建py文件之后，运行文件时报错：是一个nameerror，说var为定义，所以执行不成功。这是因为将var定义在了函数里面，即return后一行的代码缩进了，导致var没有定义成功，只需要去除缩进就可以了。更改如下：
python中name is not defined怎么解决_python name 'file' is not defined的解决办法 weixin_39900582 python中name is not defined怎么解决
python版本3.11源码：poem='''\ProgrammingisfunWhentheworkisdoneifyouwannamakeyourworkalsofun:usePython!'''f=file('poem.txt','w')#openfor'w'ritingf.write(poem)#writetexttofilef.close()#closethefilef=file('po
【Python】解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9A in position xxx: illegal multibyte 云天徽上 python运行报错解决记录 python numpy 机器学习深度学习 pandas
【Python】解决UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x9Ainpositionxxx:illegalmultibytesequence博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人
「大数据」Kappa架构吴维炜 AIGC架构设计师大数据架构 kappa AIGC
Kappa架构是一种处理大数据的架构，它作为Lambda架构的替代方案出现。Kappa架构的核心思想是简化数据处理流程，通过使用单一的流处理层来同时处理实时和批量数据，从而避免了Lambda架构中需要维护两套系统（批处理层和速度层）的复杂性。核心功能：单一处理层：Kappa架构使用单一的流处理层来处理所有数据，无论是实时数据还是批量数据。数据重放：通过重放历史数据，Kappa架构能够重新计算出与批
python中pywt库全称为PyWavelets ayiyiyiyi python
环境：pycharm2020.2在网上找到小波分析的程序，运行出现错误：未找到‘pywt’这个模块。于是利用pycharm中的settings添加模块搜索pywt出现pywt，但是安装失败。上网查，发现程序importpywt中pywt指的是Python小波分析库Pywavelets。安装成功，程序运行成功。
python中pywt库安装吟风忆柳 python
python中pywt库安装pipinstallPyWaveletscondainstallPyWavelets
【笔记】linux离线部署Ollama+Deepseek r1+open webui MrIqzd 笔记 linux 语言模型
昨天看到了实验室服务器文件夹下面有一个deepseek的gguf文件，就顺便部署一下至于为什么要本地呢？https://chat.deepseek.com/downloads/DeepSeek%20Privacy%20Policy.html可能有一些学术隐私的东西不方便被收集吧。（我应该没有关系，反正都是学术垃圾）此外，也要感谢deepseek的开源精神！！！！！！实验室服务器是ubuntu18（
Python清华镜像源使用方法（python 安装包) 程序代码狂人 linux 运维服务器
pipinstallpandas-ihttps://pypi.tuna.tsinghua.edu.cn/simple/把红字用要下载的包名替换掉即可pip：这是Python的包管理工具，用于安装和管理Python包。pip允许你从Python包索引（PythonPackageIndex，简称PyPI）下载和安装库。install：这是pip的一个子命令，用于安装包。当你指定install时，pip
新零售社交电商系统小程序功能开发详细解析 v.15889726201 零售小程序
现在的购物方式是越来越有趣了，新零售社交电商系统是互联网、大数据、人工智能的技术和咱们熟悉的传统零售深度结合后产生的。它整合线上线下渠道及数据，带来全方位、多渠道、个性化购物体验。借助实时库存管理、智能推荐和无缝购物体验等功能，打破传统电商与实体店界限，其具备以下显著特点：一、系统主要功能分销管理独家推广代码机制：在这个新零售社交电商系统里，每个经销商都有一个只属于自己的推广代码。把这个代码分享给
python怎么处理表格的去重 Rhys.. python pandas 开发语言
在Python处理表格时，可以使用pandas库中的drop_duplicates方法对一个表格进行去重。这个方法能够根据某些列或者所有列的重复值来删除重复的行，并保留第一次出现的行或指定保留的情况。让我们来看一下如何对一个Excel表格去重的示例。假设你有一个Excel文件data.xlsx，我们要对其中的数据进行去重。首先，请确保你已经安装了pandas库。如果尚未安装，请使用以下命令进行安装
『OpenCV-Python』色彩空间及色彩转换 opencv
点赞+关注+收藏=学会了在计算机图像处理中，色彩空间是理解和操作图像色彩的重要基础。每一种色彩空间都有自己的适用范围。RGB是比较常见的色彩空间，除此之外比较常见的色彩空间还有GRAY、HSV、Lab、YUV等。为什么会有这么多色彩空间呢？有兼容性的原因，也有为了方便计算的原因。比如YUV这个是电视信号系统采用的，以前的老电视是黑白电视，只需要一个颜色通道，后来出现了彩色电视，为了使视频信号能够兼
Acunetix v24.9 发布下载，新增功能概览 web安全
Acunetixv24.9(Linux,Windows)-Web应用程序安全测试Acunetix|WebApplicationSecurityScanner请访问原文链接：https://sysin.org/blog/acunetix/，查看最新版。原创作品，转载请保留出处。作者主页：sysin.org重要提示AcunetixPremium现在使用日历化版本命名。请注意，从版本23.6.23062
Python如何写日志文件测试小白2951 python 开发语言
改目录加testcase加common，存放log6/写日志log.pyimportloggingimportosimporttimeclassLoggingUtil():def__init__(self,logger=None):#创建一个loggerself.logger=logging.getLogger(logger)level='INFO'iflevel=='DEBUG'orlevel=
PYTHON UI自动化，selenium第一节，登录测试小白2951 python 开发语言
'''1/安装Selenium库：使用pip工具来安装Selenium库。在命令行中输入以下命令：pipinstallselenium/requestspip常用基础命令查看已经安装的第三方库:piplist直接安装库：pipinstall库名指定版本安装：pipinstallrobotframework==2.8.7卸载已安装的库：pipuninstallrequests更新某个库：pipins
python怎样读取数据类型_python相关的几种数据类型的存储读取方式瘦下来 python怎样读取数据类型
归纳一下python中不同数据保存格式的存储和读取，旨在方法整理和速度比较。从数据角度分两种，一是ndarray格式的纯数值数据的读写，二是对象(数据结构)如dict的文件存取。数值数据的读写.bin格式，np.tofile()和np.fromfile()importnumpyasnpa=np.random.randint(0,100,size=(10000,5000))print(a.dtype
Spark性能调优大数据侠客 spark相关问题汇总及解决 spark 性能调优
1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更
专业绘图软件draw.io安装使用橘猫.exe 软件安装与使用 draw.io
专业绘图软件draw.io安装使用1.Draw.io介绍Draw.io是一个免费的在线图形编辑器，主要用于创建和编辑各种类型的图表和图形。它特别适用于制作流程图、组织结构图、网络图、思维导图等。以下是Draw.io的一些主要特点：多平台支持：Draw.io可以在不同的操作系统上运行，包括Windows、macOS和Linux。易于使用：界面直观，用户可以轻松地拖拽图形和文本，进行编辑和布局。丰富的
linux下查看ip地址的三种命令橘猫.exe Linux系统编程 linux tcp/ip 服务器
linux下查看ip地址的三种命令在Linux系统中，经常需要查找IP地址以进行网络配置、故障排除或安全管理。无论是查找本地主机的IP地址还是查找其他设备的IP地址，本文将介绍三种简单的方法，帮助你在Linux中轻松找到所需的IP地址。有时候单靠一种命令查出来的可能不对，需要换其他命令查询一下1.ifconfig上述命令将显示当前系统上所有网络接口的详细信息，包括IP地址。通常，IP地址会显示在以
Python 3 基本数据类型详解 ivwdcwso 开发 python windows 开发语言
Python是一种简单而强大的编程语言，具有丰富的数据类型来处理不同类型的数据。在本文中，我们将介绍Python3中的基本数据类型，包括整数、浮点数、字符串、列表、元组、集合和字典，并举例说明它们的使用方法和应用场景。1.整数（int）整数是Python中最基本的数据类型之一，用于表示没有小数部分的数字。整数可以是正数、负数或零。x=10y=-5z=0应用场景：计数器和计数器变量。代表物品的数量或
Python的旅游网站数据爬虫分析与可视化大屏展示论文 IT实战课堂—x小凡同学 Python毕业设计项目 python 旅游爬虫
摘要随着互联网技术的迅猛发展，旅游行业也逐渐实现了数字化转型。旅游网站作为游客获取旅游信息的主要渠道，蕴含着丰富的旅游数据资源。本文旨在通过Python技术，实现旅游网站数据的爬虫分析，并利用可视化大屏展示分析结果，为旅游行业的数据驱动决策提供支持。关键词：Python；旅游网站；数据爬虫；可视化大屏一、引言旅游行业作为服务业的重要组成部分，其发展水平直接关系到国家经济的繁荣和人民生活的质量。随着
Python学习-九大数据类型整合，详细讲解小伙儿. Python python 开发语言学习
目录1.int(整型)2.float(浮点型)3.Bool(布尔类型)4.Str(字符串类型)5.None(空值)6.List(列表)7.Tuple(元组)8.Dict(字典)9.Set(集合)（字典，列表，元组，字符串知识点可能不全，可以参考本人之前发的博客进行学习，加油。）1.int(整型)特点和用途：1.可以表示正整数、负整数和零，没有小数部分。2.取值范围取决于您所使用的Python版本和
[碎碎念] 重启学习与博客之旅-我的每日计划言午coding 碎碎念碎碎念
好久没在写博客了，今天我下定决心，要重新开始。我给自己定了个小目标，从今天起，每天都要写一篇博客，然后发布到CSDN和掘金上。以下是我的计划。一、每天学点新东西以后每天早上，我都得抽出至少一个小时专门用来学新技术。我打算先列个学习清单，把一直想学但没时间学的技术都写上去，然后按照自己的兴趣和工作需要，一项一项地去攻克。比如说，我最近对人工智能和大数据分析特别感兴趣，所以打算每天看点相关的专业书，或
Nexpose 7.4.0 for Linux & Windows - 漏洞扫描漏洞
Nexpose7.4.0forLinux&Windows-漏洞扫描Rapid7on-premVulnerabilityManagement,releasedJan30,2025请访问原文链接：https://sysin.org/blog/nexpose-7/查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgNexposeVulnerabilityScanner您的本地漏洞扫描程序搜
Python GIL（全局解释器锁）机制对多线程性能影响的深度分析人工智能机器学习python
在Python开发领域，GIL（GlobalInterpreterLock）一直是一个广受关注的技术话题。在3.13已经默认将GIL去除，在详细介绍3.13的更亲前，我们先要留了解GIL的技术本质、其对Python程序性能的影响。本文将主要基于CPython（用C语言实现的Python解释器，也是目前应用最广泛的Python解释器）展开讨论。GIL的技术定义GIL（GlobalInterprete
Python学习笔记 - 探索5种数据类型 Mr数据杨 Python 编程基础 python 数据类型
在当今的数字时代，编程已经成为一种基本技能，不仅适用于软件开发人员，更广泛地应用于数据分析、人工智能、自动化和科学研究等领域。Python作为一种强大且易于学习的编程语言，因其简洁的语法和广泛的应用场景，成为了初学者学习编程的首选语言。在学习Python编程的过程中，理解和掌握数据类型是至关重要的。数据类型决定了程序中可以进行的操作类型，以及如何存储和处理信息。理解不同数据类型的特性和使用场景，不
ubuntu 安装python Y.zh
在官网找到自己需要的python版本，我选择的是Gzippedsourcetarball下载压缩包#e.g.wgethttps://www.python.org/ftp/python/3.9.0/Python-3.9.0.tgz解压tar-xzvfPython-3.9.0.tgz安装#安装依赖sudoapt-getinstall-yzlibczlib1gzlib1g-devlibffi-devli
python中的九种数据类型的简单介绍 yaohappy10801 python 开发语言
目录一、基本数据类型：1.Int2.Float3.Bool二、复合型数据类型：2.1.Str2.2.List2.3.Tuple2.4.Dict2.5.Set三、None今天我来讲解一下python中的九种数据类型：在python中可以分为两类：基本数据类型和复合数据类型。在基本数据类型中包括：数字（int，float，bool）和字符串两种在复合数据类型种包括：字典（dict），元组（tuple）
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_