XK&RM

Hive--参数优化、Map、Reduce Task个数优化

1 Hive--参数优化

1.1 hive.fetch.task.conversion

1.2 hive.exec.mode.local.auto

1.3 hive.mapred.mode

1.4 hive.mapred.reduce.tasks.speculative.execution

1.5 hive.optimize.cp

1.6 hive.optimize.ppd

2 MapReduce 阶段Map、Reduce Task个数优化

2.1 Map Task 个数优化

2.2 Reduce Task 个数优化

Hive中的执行引擎目前支持：MapReduce、Spark、Tez
本文设定的执行引擎为MapReduce

1 Hive--参数优化

Hive官网--参数

1.1 hive.fetch.task.conversion

Default Value: minimal in Hive 0.10.0 through 0.13.1, more in Hive 0.14.0 and later
Added In: Hive 0.10.0 with HIVE-2925; default changed in Hive 0.14.0 with HIVE-7397
Some select queries can be converted to a single FETCH task, minimizing latency. Currently the query should be single sourced not having any subquery and should not have any aggregations or distincts (which incur RS – ReduceSinkOperator, requiring a MapReduce task), lateral views and joins.

Supported values are none, minimal and more.

0. none:  Disable hive.fetch.task.conversion (value added in Hive 0.14.0 with HIVE-8389)
1. minimal:  SELECT *, FILTER on partition columns (WHERE and HAVING clauses), LIMIT only
2. more:  SELECT, FILTER, LIMIT only (including TABLESAMPLE, virtual columns)

"more" can take any kind of expressions in the SELECT clause, including UDFs.
(UDTFs and lateral views are not yet supported – see HIVE-5718.)

建议使用more模式，增加SQL执行速度

1.1.1 none模式

none:禁用这个参数，SQL无论什么样子都会走MapReduce

hive> set hive.fetch.task.conversion;
hive.fetch.task.conversion=none

hive> select * from bigdata.emp;
Query ID = work_20201216094245_d44ea4d3-0a5b-4302-93dd-4ef9a5252517
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1608016084001_0020, Tracking URL = http://bigdatatest02:8088/proxy/application_1608016084001_0020/
Kill Command = /opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop job  -kill job_1608016084001_0020
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2020-12-16 09:43:02,342 Stage-1 map = 0%,  reduce = 0%
2020-12-16 09:43:10,641 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.28 sec
MapReduce Total cumulative CPU time: 2 seconds 280 msec
Ended Job = job_1608016084001_0020
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   Cumulative CPU: 2.28 sec   HDFS Read: 4413 HDFS Write: 451 HDFS EC Read: 0 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 280 msec
OK
7369	SMITH	20
7499	ALLEN	30
7521	WARD	30
7566	JONES	20
7654	MARTIN	30
7698	BLAKE	30
7782	CLARK	10
7788	SCOTT	20
7839	KING	10
7844	TURNER	30
7876	ADAMS	20
7900	JAMES	30
7902	FORD	20
7934	MILLER	10
Time taken: 27.002 seconds, Fetched: 14 row(s)

1.1.2 minimal模式

minimal:正常扫描全表，不会触发MapReduce,如果进行FILTER会触发MapRedcue
分区表的分区字段FILTER不会触发MapReduce
正常表

hive> set hive.fetch.task.conversion;
hive.fetch.task.conversion=minimal

hive> select * from bigdata.emp where dept_no = '20';
Query ID = work_20201216094750_3df492b8-bbd8-4e41-b378-bba5fe1b3dc7
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1608016084001_0022, Tracking URL = http://bigdatatest02:8088/proxy/application_1608016084001_0022/
Kill Command = /opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop job  -kill job_1608016084001_0022
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2020-12-16 09:48:07,799 Stage-1 map = 0%,  reduce = 0%
2020-12-16 09:48:17,119 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 4.33 sec
MapReduce Total cumulative CPU time: 4 seconds 330 msec
Ended Job = job_1608016084001_0022
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1   Cumulative CPU: 4.33 sec   HDFS Read: 4952 HDFS Write: 216 HDFS EC Read: 0 SUCCESS
Total MapReduce CPU Time Spent: 4 seconds 330 msec
OK
7369	SMITH	20
7566	JONES	20
7788	SCOTT	20
7876	ADAMS	20
7902	FORD	20
Time taken: 27.728 seconds, Fetched: 5 row(s)
hive> select * from bigdata.emp;
OK
7369	SMITH	20
7499	ALLEN	30
7521	WARD	30
7566	JONES	20
7654	MARTIN	30
7698	BLAKE	30
7782	CLARK	10
7788	SCOTT	20
7839	KING	10
7844	TURNER	30
7876	ADAMS	20
7900	JAMES	30
7902	FORD	20
7934	MILLER	10
Time taken: 0.144 seconds, Fetched: 14 row(s)

分区表
创建分区表并加载数据

CREATE TABLE IF NOT EXISTS bigdata.emp_partition(
emp_no String,
emp_name String
)
PARTITIONED BY (dept_no String)
ROW FORMAT 
DELIMITED FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;
-- 开启动态分区
set hive.exec.dynamic.partition=true; 
-- 这个属性默认是strict，即限制模式，strict是避免全分区字段是动态的，必须至少一个分区字段是指定有值即静态的，且必
-- 须放在最前面。设置为nonstrict之后所有的分区都可以是动态的了。
set hive.exec.dynamic.partition.mode=nonstrict;
hive> load data local inpath '/home/work/data/hive/emp.txt' overwrite into table bigdata.emp_partition;
hive> select * from bigdata.emp_partition;
OK
7782	CLARK	10
7839	KING	10
7934	MILLER	10
7369	SMITH	20
7566	JONES	20
7788	SCOTT	20
7876	ADAMS	20
7902	FORD	20
7499	ALLEN	30
7521	WARD	30
7654	MARTIN	30
7698	BLAKE	30
7844	TURNER	30
7900	JAMES	30
Time taken: 0.204 seconds, Fetched: 14 row(s)

分区表测试分区字段FILTER是否走了MapReduce

hive> set hive.fetch.task.conversion;
hive.fetch.task.conversion=minimal
hive> select * from bigdata.emp_partition where dept_no = '20';
OK
7369	SMITH	20
7566	JONES	20
7788	SCOTT	20
7876	ADAMS	20
7902	FORD	20
Time taken: 0.172 seconds, Fetched: 5 row(s)

1.1.3 more 模式

在more模式下面，无论是否是分区表FILTER都不会走MapReduce

hive> set hive.fetch.task.conversion=more;
hive> select * from bigdata.emp where dept_no = '20';
OK
7369	SMITH	20
7566	JONES	20
7788	SCOTT	20
7876	ADAMS	20
7902	FORD	20
Time taken: 0.153 seconds, Fetched: 5 row(s)
hive> select * from bigdata.emp_partition where dept_no = '20';
OK
7369	SMITH	20
7566	JONES	20
7788	SCOTT	20
7876	ADAMS	20
7902	FORD	20
Time taken: 0.224 seconds, Fetched: 5 row(s)

1.2 hive.exec.mode.local.auto

默认的是false,即关闭本地模式
线上建议关闭本地模式,开发或者测试建议开启本地模式
有时候在数据量比较小的时候，或者本地测试的，没有必要把作业提交到Yarn再走MapReduce，直接使用本地模式就好了，可以增加查询速度，加快开发的速度
在开启本地模式之后，还需要设定以下几个参数
hive.exec.mode.local.auto.inputbytes.max：在本地模式下可以处理的最大的数据量，默认是128M
hive.exec.mode.local.auto.tasks.max：在本地模式下，最大的task数量，默认是4
hive.exec.mode.local.auto.input.files.max：在本地模式下，最大的文件数，默认是4
下面就以count(1) 来对比是否开启本地模式的查询速度
没有打开本地模式

hive> set hive.exec.mode.local.auto;
hive.exec.mode.local.auto=false

hive> select count(1) from bigdata.emp;
Query ID = work_20201216102827_ff3113d0-5c91-4a4f-a330-f9ce782d0e62
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
  set mapreduce.job.reduces=
Starting Job = job_1608016084001_0024, Tracking URL = http://bigdatatest02:8088/proxy/application_1608016084001_0024/
Kill Command = /opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop job  -kill job_1608016084001_0024
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2020-12-16 10:28:43,829 Stage-1 map = 0%,  reduce = 0%
2020-12-16 10:28:54,149 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 3.28 sec
2020-12-16 10:29:00,337 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 6.24 sec
MapReduce Total cumulative CPU time: 6 seconds 240 msec
Ended Job = job_1608016084001_0024
MapReduce Jobs Launched: 
Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 6.24 sec   HDFS Read: 8334 HDFS Write: 102 HDFS EC Read: 0 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 240 msec
OK
14
Time taken: 34.122 seconds, Fetched: 1 row(s)

开启本地模式

hive> set hive.exec.mode.local.auto=true;
hive> set hive.exec.mode.local.auto;
hive.exec.mode.local.auto=true

hive> select count(1) from bigdata.emp;
Automatically selecting local only mode for query
Query ID = work_20201216103030_6c88b989-8348-4521-aa41-c23dee70931e
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
  set mapreduce.job.reduces=
20/12/16 10:30:33 INFO mapred.LocalDistributedCacheManager: Creating symlink: /tmp/hadoop-work/mapred/local/1608085830754/3.0.0-cdh6.2.0-mr-framework.tar.gz <- /home/work/mr-framework
20/12/16 10:30:33 INFO mapred.LocalDistributedCacheManager: Localized hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.2.0-mr-framework.tar.gz as file:/tmp/hadoop-work/mapred/local/1608085830754/3.0.0-cdh6.2.0-mr-framework.tar.gz
20/12/16 10:30:33 INFO mapred.LocalDistributedCacheManager: Creating symlink: /tmp/hadoop-work/mapred/local/1608085830755/libjars <- /home/work/libjars/*
20/12/16 10:30:33 WARN mapred.LocalDistributedCacheManager: Failed to create symlink: /tmp/hadoop-work/mapred/local/1608085830755/libjars <- /home/work/libjars/*
20/12/16 10:30:33 INFO mapred.LocalDistributedCacheManager: Localized file:/tmp/hadoop/mapred/staging/work558758749/.staging/job_local558758749_0001/libjars as file:/tmp/hadoop-work/mapred/local/1608085830755/libjars
Job running in-process (local Hadoop)
20/12/16 10:30:33 INFO mapred.LocalJobRunner: OutputCommitter set in config org.apache.hadoop.hive.ql.io.HiveFileFormatUtils$NullOutputCommitter
20/12/16 10:30:33 INFO mapred.LocalJobRunner: OutputCommitter is org.apache.hadoop.hive.ql.io.HiveFileFormatUtils$NullOutputCommitter
20/12/16 10:30:33 INFO mapred.LocalJobRunner: Waiting for map tasks
20/12/16 10:30:33 INFO mapred.LocalJobRunner: Starting task: attempt_local558758749_0001_m_000000_0
20/12/16 10:30:33 INFO mapred.LocalJobRunner: 
20/12/16 10:30:33 INFO mapred.LocalJobRunner: hdfs://nameservice1/user/hive/warehouse/bigdata.db/emp/emp.txt:0+195
20/12/16 10:30:33 INFO mapred.LocalJobRunner: Finishing task: attempt_local558758749_0001_m_000000_0
20/12/16 10:30:33 INFO mapred.LocalJobRunner: map task executor complete.
20/12/16 10:30:33 INFO mapred.LocalJobRunner: Waiting for reduce tasks
20/12/16 10:30:33 INFO mapred.LocalJobRunner: Starting task: attempt_local558758749_0001_r_000000_0
20/12/16 10:30:33 INFO mapred.LocalJobRunner: 1 / 1 copied.
20/12/16 10:30:33 INFO mapred.LocalJobRunner: 1 / 1 copied.
20/12/16 10:30:33 INFO mapred.LocalJobRunner: reduce > reduce
20/12/16 10:30:33 INFO mapred.LocalJobRunner: Finishing task: attempt_local558758749_0001_r_000000_0
20/12/16 10:30:33 INFO mapred.LocalJobRunner: reduce task executor complete.
2020-12-16 10:30:34,084 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local558758749_0001
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 464136294 HDFS Write: 848647374 HDFS EC Read: 0 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
14
Time taken: 3.85 seconds, Fetched: 1 row(s)

1.3 hive.mapred.mode

Default Value: 
Hive 0.x: nonstrict
Hive 1.x: nonstrict
Hive 2.x: strict (HIVE-12413)
Added In: Hive 0.3.0
The mode in which the Hive operations are being performed. In strict mode, some risky queries are not allowed to run. For example, full table scans are prevented (see HIVE-10454) and ORDER BY requires a LIMIT clause.

在非严格模式下，SQL不会增加任何显示
在严格模式下，Order By后面要增加Limit,分区表FILTER必须要加上分区字段，无法使用笛卡尔积语法
绝大部分场景建议使用严格模式，可以有效保护数据平台，有一些特殊的场景可以开启非严格模式
以下在非严格模式下面测试

hive> set hive.mapred.mode;
hive.mapred.mode=nonstrict
-- 正常表使用Order by
hive> select * from bigdata.emp order by emp_no;
Automatically selecting local only mode for query
Query ID = work_20201216104456_5f7b9b48-11d8-4268-9101-0e93e77d9e28
Total jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
  set mapreduce.job.reduces=
20/12/16 10:44:58 INFO mapred.LocalDistributedCacheManager: Creating symlink: /tmp/hadoop-work/mapred/local/1608086696446/3.0.0-cdh6.2.0-mr-framework.tar.gz <- /home/work/mr-framework
20/12/16 10:44:58 INFO mapred.LocalDistributedCacheManager: Localized hdfs://nameservice1/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.2.0-mr-framework.tar.gz as file:/tmp/hadoop-work/mapred/local/1608086696446/3.0.0-cdh6.2.0-mr-framework.tar.gz
20/12/16 10:44:58 INFO mapred.LocalDistributedCacheManager: Creating symlink: /tmp/hadoop-work/mapred/local/1608086696447/libjars <- /home/work/libjars/*
20/12/16 10:44:58 WARN mapred.LocalDistributedCacheManager: Failed to create symlink: /tmp/hadoop-work/mapred/local/1608086696447/libjars <- /home/work/libjars/*
20/12/16 10:44:58 INFO mapred.LocalDistributedCacheManager: Localized file:/tmp/hadoop/mapred/staging/work1994370039/.staging/job_local1994370039_0002/libjars as file:/tmp/hadoop-work/mapred/local/1608086696447/libjars
Job running in-process (local Hadoop)
20/12/16 10:44:58 INFO mapred.LocalJobRunner: OutputCommitter set in config org.apache.hadoop.hive.ql.io.HiveFileFormatUtils$NullOutputCommitter
20/12/16 10:44:58 INFO mapred.LocalJobRunner: OutputCommitter is org.apache.hadoop.hive.ql.io.HiveFileFormatUtils$NullOutputCommitter
20/12/16 10:44:58 INFO mapred.LocalJobRunner: Waiting for map tasks
20/12/16 10:44:58 INFO mapred.LocalJobRunner: Starting task: attempt_local1994370039_0002_m_000000_0
20/12/16 10:44:58 INFO mapred.LocalJobRunner: 
20/12/16 10:44:58 INFO mapred.LocalJobRunner: hdfs://nameservice1/user/hive/warehouse/bigdata.db/emp/emp.txt:0+195
20/12/16 10:44:58 INFO mapred.LocalJobRunner: Finishing task: attempt_local1994370039_0002_m_000000_0
20/12/16 10:44:58 INFO mapred.LocalJobRunner: map task executor complete.
20/12/16 10:44:58 INFO mapred.LocalJobRunner: Waiting for reduce tasks
20/12/16 10:44:58 INFO mapred.LocalJobRunner: Starting task: attempt_local1994370039_0002_r_000000_0
20/12/16 10:44:58 INFO mapred.LocalJobRunner: 1 / 1 copied.
20/12/16 10:44:58 INFO mapred.LocalJobRunner: 1 / 1 copied.
20/12/16 10:44:58 INFO mapred.LocalJobRunner: reduce > reduce
20/12/16 10:44:58 INFO mapred.LocalJobRunner: Finishing task: attempt_local1994370039_0002_r_000000_0
20/12/16 10:44:58 INFO mapred.LocalJobRunner: reduce task executor complete.
2020-12-16 10:44:59,685 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_local1994370039_0002
MapReduce Jobs Launched: 
Stage-Stage-1:  HDFS Read: 928267738 HDFS Write: 848647927 HDFS EC Read: 0 SUCCESS
Total MapReduce CPU Time Spent: 0 msec
OK
7369	SMITH	20
7499	ALLEN	30
7521	WARD	30
7566	JONES	20
7654	MARTIN	30
7698	BLAKE	30
7782	CLARK	10
7788	SCOTT	20
7839	KING	10
7844	TURNER	30
7876	ADAMS	20
7900	JAMES	30
7902	FORD	20
7934	MILLER	10
Time taken: 3.617 seconds, Fetched: 14 row(s)
-- 分区表不使用分区字段
hive> select * from bigdata.emp_partition where emp_no='7782';
OK
7782	CLARK	10
Time taken: 0.154 seconds, Fetched: 1 row(s)

下面在严格模式下面测试

hive> set hive.mapred.mode;
hive.mapred.mode=strict
-- 正常表使用orderby 
hive> select * from bigdata.emp order by emp_no;
FAILED: SemanticException 1:35 Order by-s without limit are disabled for safety reasons. If you know what you are doing, please set hive.strict.checks.orderby.no.limit to false and make sure that hive.mapred.mode is not set to 'strict' to proceed. Note that you may get errors or incorrect results if you make a mistake while using some of the unsafe features.. Error encountered near token 'emp_no'
-- 分区表FILTER不使用分区字段
hive> select * from bigdata.emp_partition where emp_no='20';
FAILED: SemanticException [Error 10056]: Queries against partitioned tables without a partition filter are disabled for safety reasons. If you know what you are doing, please set hive.strict.checks.no.partition.filter to false and make sure that hive.mapred.mode is not set to 'strict' to proceed. Note that you may get errors or incorrect results if you make a mistake while using some of the unsafe features. No partition predicate for Alias "emp_partition" Table "emp_partition"
-- 笛卡尔积测试
hive> select * from bigdata.emp a join bigdata.emp b;
FAILED: SemanticException Cartesian products are disabled for safety reasons. If you know what you are doing, please set hive.strict.checks.cartesian.product to false and make sure that hive.mapred.mode is not set to 'strict' to proceed. Note that you may get errors or incorrect results if you make a mistake while using some of the unsafe features.

1.4 hive.mapred.reduce.tasks.speculative.execution

Default Value: true
Added In: Hive 0.5.0
Whether speculative execution for reducers should be turned on.

推测式执行，默认是true,开启推测式执行，如果出现长尾作业，会在另一台机器上面重新开启一个Task执行，两个Task哪个先执行完就用哪个结果

1.5 hive.optimize.cp

Default Value: true
Added In: Hive 0.4.0 with HIVE-626
Removed In: Hive 0.13.0 with HIVE-4113
Whether to enable column pruner. (This configuration property was removed in release 0.13.0.)

列裁剪，默认是开启
在select 查询的时候尽量只拿取需要的字段，而不要select *，拿取所有的字段，这样可以有效的减少IO
对应的还有分区裁剪，如果是一个分区表，过滤的时候优先过滤分区字段，可以减少扫描的文件，以此来减少IO操作

1.6 hive.optimize.ppd

Default Value: true
Added In: Hive 0.4.0 with HIVE-279, default changed to true in Hive 0.4.0 with HIVE-626
Whether to enable predicate pushdown (PPD). 

Note: Turn on Configuration Properties#hive.optimize.index.filter as well to use file format specific indexes with PPD.

谓词下压，默认是开启，如果两个表做Join操作的时候，优先先把两个表的过滤条件筛选一部分数据，以此来减少scan的数据量，来减少IO

2 MapReduce 阶段Map、Reduce Task个数优化

2.1 Map Task 个数优化

Map Task 个数一般不需要优化，查看MapReduce Inputformat 找到 Map Task 是由这个参数决定的mapreduce.input.fileinputformat.split.maxsize
mapreduce.input.fileinputformat.split.maxsize指的是InputFormat切割文件的时候最大的size，当这个参数越大，Map阶段的Task数量越小
查看mapreduce.input.fileinputformat.split.maxsize默认大小

hive> set mapreduce.input.fileinputformat.split.maxsize;
mapreduce.input.fileinputformat.split.maxsize=256000000

2.2 Reduce Task 个数优化

查看Hive 控制台日志输出，发现这些参数和Reduce Task个数有关系

Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=
In order to set a constant number of reducers:
  set mapreduce.job.reduces=

查看源代码计算Reduce 个数是在org.apache.hadoop.hive.ql.exec.mr.MapRedTask这个类里面 setNumberOfReducers 函数计算的
首先寻找mapred.reduce.tasks 是否设定Reduce Task 个数，如果设定会读取mapred.reduce.tasks参数设定的值作为最终的Reduce Task 的个数，mapred.reduce.tasks默认是-1，通过计算的到Reduce个数
计算Reduce 公式

int reducers = Utilities.estimateNumberOfReducers(conf, inputSummary, work.getMapWork(),
    work.isFinalMapRed()){
	long bytesPerReducer = conf.getLongVar(HiveConf.ConfVars.BYTESPERREDUCER);
	int maxReducers = conf.getIntVar(HiveConf.ConfVars.MAXREDUCERS);
	estimateReducers(totalInputFileSize, bytesPerReducer, maxReducers, powersOfTwo){
		// bytesPerReducer 数据就是通过这个参数设定的 hive.exec.reducers.bytes.per.reducer 默认是256000000L
		// maxReducers 是通过hive.exec.reducers.max这个参数设定的，默认是1009
		// bytes 是这批数据的总的字节大小
		double bytes = Math.max(totalInputFileSize, bytesPerReducer);
		int reducers = (int) Math.ceil(bytes / bytesPerReducer);
		reducers = Math.max(1, reducers);
		reducers = Math.min(maxReducers, reducers);
		// 总的来说，可以把Redcue Task 计算公式 = min((总的数据字节大小/hive.exec.reducers.bytes.per.reducer参数设定的数据),hive.exec.reducers.max设定的数据大小)
	}
  }

所以需要修改Reduce Task个数，需要修改hive.exec.reducers.bytes.per.reducer即可，如果需要增加Reduce Task个数，则减少hive.exec.reducers.bytes.per.reducer大小

算法备案 | 算法备案必要性、算法类型、备案流程极创信息人工智能 AIGC
一、进行算法备案的必要性在当今的数字化时代，算法已经广泛应用于各个行业，引起了监管部门的高度关注，因为算法产品可能会带来一些潜在的风险。为了规范互联网信息服务中的算法推荐活动，抵制诸如深度生成合成、算法歧视、“大数据杀熟”、诱导沉迷等不合理应用，各个国家都先后出台了一系列关于算法管理的法律法规。在我国，《数据安全法》、《个人信息保护法》、《互联网信息服务算法推荐管理规定》等法律法规明确对算法的使用
集装箱智慧通关系统如何用AI技术重塑物流效率？
在全球贸易和物流高速发展的今天，港口、物流园区及企业的闸口管理面临巨大挑战——如何提升通关效率、保障货物安全并降低运营成本？集装箱智慧通关系统依托先进的AI视觉识别、物联网及大数据技术，为行业提供了智能化解决方案。核心技术：AI视觉+物联网赋能传统闸口依赖人工核验集装箱号、车辆信息，效率低且易出错。而智慧通关系统通过高精度摄像头+AI算法，可自动识别集装箱编号、货车车牌、货物类型等关键信息，准确率
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用科研的力量生态遥感双碳 chatgpt GEE 卫星遥感数据
以EarthEngine（GEE）、PIE-Engine为代表全球尺度地球科学数据（尤其是卫星遥感数据）在线可视化计算和分析云平台应用越来越广泛。GEE平台存储和同步遥感领域目前常用的MODIS、Landsat和Sentinel等卫星影像、气候与天气、地球物理等方面的数据集超过80PB，同时依托全球上百万台超级服务器，提供足够的运算能力对这些数据进行处理。相比于ENVI等传统的遥感影像处理工具，G
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
如何在Ubuntu上运行Jar包？ wljslmz Linux技术 ubuntu jar linux
Java，一种广泛使用的面向对象编程语言，以其“编写一次，到处运行”的理念著称，是跨平台应用程序开发的首选。其核心优势在于Java虚拟机（JVM），它使得编写的Java代码能够在任何安装了JVM的设备上运行，无需重新编译。Ubuntu作为Linux发行版中的佼佼者，凭借其开源、稳定、易用的特性，成为了众多开发者部署Java应用的优选平台。Jar（JavaArchive）文件是一种归档文件格式，用于
深入了解大数据领域Zookeeper的ACL权限管理 AGI大模型与大数据研究院大数据 zookeeper wpf ai
深入了解大数据领域Zookeeper的ACL权限管理关键词：Zookeeper、ACL权限管理、大数据安全、分布式系统、访问控制、权限模型、数据保护摘要：本文深入探讨了Zookeeper中的ACL(AccessControlList)权限管理系统。作为分布式协调服务的核心组件，Zookeeper的ACL机制对于保障大数据环境中的数据安全至关重要。文章将从基础概念出发，详细解析ZookeeperAC
场景题：有40亿个QQ号如何去重？仅1GB内存卷福同学社招面试面试阿里云京东云 java
场景题也有一些套路可以考虑，比如去重、判断给定数据是否存在1.大数据去重1.1现在有40亿个QQ号如何去重？仅1GB内存参考链接：https://juejin.cn/post/7396332696660131849介绍2种方法：Bitmap和布隆过滤器方法一：Bitmap首先介绍下什么是位图Bitmap位图是使用bit数组表示的，它只存储0或者1，因此我们可以把全部的QQ号放到位图中，当index
深度剖析数据中台：大数据领域的核心技术架构大数据洞察大数据架构 java ai
深度剖析数据中台：大数据领域的核心技术架构关键词：数据中台、大数据、核心技术架构、数据治理、数据服务摘要：本文旨在对数据中台这一大数据领域的核心技术架构进行深度剖析。首先介绍了数据中台的背景，包括其目的、适用读者、文档结构和相关术语。接着阐述了数据中台的核心概念、原理和架构，通过文本示意图和Mermaid流程图进行直观展示。详细讲解了核心算法原理及具体操作步骤，并结合Python源代码进行说明。引
2025年全球数据安全发展趋势 jinan886 人工智能大数据安全数据分析
随着云计算、大数据、人工智能等技术的迅猛发展，数据已成为驱动经济社会发展的关键生产要素。然而，数据泄露、网络攻击等安全事件频发，给个人隐私、企业利益乃至国家安全带来了前所未有的挑战。全球数据安全发展趋势正随着技术进步和威胁演变而不断变化，以下是主要趋势：1.数据隐私法规加强GDPR（欧盟《通用数据保护条例）和CCPA（加州消费者隐私法案）等法规推动了全球对数据隐私的重视，更多国家和地区正在制定或更
机器学习在智能仓储中的应用：库存管理与物流优化 Blossom.118 机器学习与人工智能机器学习人工智能深度学习机器人 sklearn tensorflow cnn
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。随着电子商务的蓬勃发展，仓储和物流行业面临着前所未有的挑战和机遇。智能仓储通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从货物入库到出库的全流程
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
大学专业科普 | 云计算、大数据鸭鸭鸭进京赶烤云计算大数据
大数据专业是近年来随着信息技术发展而兴起的热门学科，专注于从海量、多样化的数据中提取有价值信息，为各行业提供数据驱动的决策支持。专业定义大数据专业旨在培养掌握大数据采集、存储、管理、分析和应用等核心技术的人才。该专业融合了计算机科学、数学、统计学、数据科学和领域知识，重点解决大数据环境下的数据处理和分析问题。课程设置大数据专业的课程体系包括基础课程、专业核心课程和实践课程。（一）基础课程基础课程涵
Python批量下载网易云音乐飙升榜所有音乐文件 Python_小屋 graphviz netty gpu ai webgl
Python小屋刷题神器最近升级的新功能介绍推荐教材：《Python程序设计基础与应用》（ISBN：9787111606178），董付国，机械工业出版社，2018.8出版，2021.3第11次印刷作者荣誉：机械工业出版社计算机分社成立20周年本科教材”金牌作者“，机械工业出版社高等教育教材专家咨询委员会委员，机械工业出版社”面向新工科高等院校大数据专业系列教材“编审委员会委员，全国高等院校计算机基
大数据ETL工具比较：Sqoop vs Flume vs Kafka AI天才研究院 AI人工智能与大数据大数据 etl sqoop ai
大数据ETL工具比较：SqoopvsFlumevsKafka关键词：大数据ETL、Sqoop、Flume、Kafka、数据迁移、日志采集、消息队列摘要：在大数据生态中，ETL（抽取-转换-加载）是数据价值挖掘的关键环节。不同业务场景对数据传输的实时性、可靠性、数据类型有差异化需求，催生了Sqoop、Flume、Kafka等特色鲜明的ETL工具。本文从核心架构、工作原理、性能指标、实战案例四个维度，
分类预测 | MATLAB实现BP神经网络多特征分类预测 matlab科研社分类 matlab 神经网络
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍近年来，随着大数据时代的到来以及计算能力的显著提升，人工智能技术得到了飞速发展。在众多人工智能算法中，反向传播神经网络（BackPropagationNeuralNetwork,BP神经网络）凭借其强大的非
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础程序员勇哥人工智能(AI)线性代数人工智能大数据 python
线性代数-第9篇：二次型与正定矩阵：优化问题的数学基础在人工智能、量化投资和大数据分析中，优化问题无处不在，比如机器学习的损失函数最小化、量化投资组合的风险最小化等。而二次型与正定矩阵作为线性代数中的重要概念，为解决这些优化问题提供了坚实的数学基础。本篇将深入解析它们的原理及其在实际场景中的关键应用。一、二次型：从向量到函数的桥梁1.定义与表达式二次型是一个关于向量x\mathbf{x}x的二次齐
电商用户行为可视化大屏--大数据项目
一．项目目的1.深入了解服务：用户的浏览路径、购买频率、商品评价等数据，能够精准地刻画用户画像。了解用户的年龄、性别、地域等基本信息，以及他们的兴趣爱好、消费习惯等更深入的特征，从而为个性化的营销和服务提供依据。2.优化用户体验：通过分析用户在页面之间的跳转时间、购物车的使用情况等，找出可能存在的流程不畅或设计不合理的地方。3.提高运营效率：对商品销售数据、库存数据等进行关联分析，有助于合理安排库
memcpy与memcpy_toio：深入解析两大数据传输神器 jghhh01 c++c语言
在软件开发中，数据的高效传输是确保程序性能和稳定性的关键。C语言作为一种广泛应用于系统编程和嵌入式开发的语言，提供了多种用于数据复制和传输的函数。其中，memcpy和memcpy_toio是两个备受关注的数据传输函数，它们各自在特定场景下发挥着不可替代的作用。本文将深入解析这两个函数，探讨它们的用途、区别以及在实际应用中的最佳实践。一、memcpy：内存复制的基础工具memcpy是C标准库中的一个
织梦DedeCMS转WordPress asqq8
最近，有个用户找模板兔迁移网站，源站用的dede，需要转成wp，文章数量大概7000-8000篇，其中有个需求是保证旧文章的链接有效，在wp上的新文章与旧文章的链接类型不一样，所以这涉及到伪静态来处理跳转。虽然网上都很多教程，但是在这次导入过程中还是遇到过一些问题。以下教程是dede的数据表得与wp的数据表在同一个数据库下！要是不在，可以将dede_archives先导入到wp的数据库里。一般流程
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
基于SpringBoot律师事务所案件管理系统的设计与实现一点教程 Java项目 spring boot 后端 java spring 律师事务所案件管理系统
博主主页：一点教程博主简介：专注Java技术领域和毕业设计项目实战、Java微信小程序、安卓等技术开发，远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容：毕业设计，SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Python、Nodejs、小程序、安卓app、大数据等设计与开发感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以和博主沟通，希
人脸识别常用数据集和Loss JL_Jessie 人脸识别深度学习
人脸识别数据集数据集的noise对训练效果的影响很大！很长一段时间MegaFace的效果都上不去，就是因为数据集噪声的原因。而且自己在训练人脸的时候，如果不对数据集的噪声和属性有一点了解，对训练结果可能会有误判，甚至越训练越差…在选择数据集的时候不要一味求大，有的时候选择一个noise比例极高的大数据集，效果还不如选择一个clean的小数据集呢，可以参见这篇论文TheDevilofFaceReco
拥抱Linux Mint，安装迅雷和微信 zhqh100 linux 运维服务器
迅雷的下载地址http://archive.kylinos.cn/kylin/partner/pool/com.xunlei.download_1.0.0.1_amd64.debLinuxMint自带的Transmission今天下载速度还可以，几兆的速度，挺满意的微信的下载地址https://linux.weixin.qq.com/搜狗拼音输入法虽然有官网，但官网最后说是支持Ubuntu20.0
凌晨の3点，线程池竟在服务器里偷偷···· 山海上的风 Java 服务器 java-ee 线程池
凌晨の3点，线程池の竟在服务器里偷偷榨干CPU····⚡️CPU：JAVAKing为窝发声,HELPME⚡️JAVAKING今天将揭露线程池的罪恶行为⚡️《线程池：OH,YES》线程池到底对项目做了什么想象一下：每次点外卖都新雇一个厨师‍，吃完就开除——这就是裸奔线程的日常！在高并发三巨头（电商秒杀、金融交易、大数据处理）中：1️⃣CPU哭诉：90%时间在面试线程，10%干活（线程切换开销）2️⃣
使用datax进行mysql的表恢复是桃萌萌鸭~ mysql 数据库
DataXDataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。FeaturesDataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上Dat
spark写入hive表问题 qq_42265026 spark hive 大数据
1、httpclient发送post请求，当返回的数据过大时，报错socketclosed这个原因是客户端主动将连接关闭，根本原因是将httpclient。execute的返回结果closeableResponse作为a方法的返回结果，在b方法中进行解析虽然在b方法中没有关闭closeableResponse，但是在a方法中返回closeableResponse后，会进行httppost.real
探索Kafka监控新维度：Burrow深度解析孙爽知Kody
探索Kafka监控新维度：Burrow深度解析BurrowKafkaConsumerLagChecking项目地址:https://gitcode.com/gh_mirrors/bu/Burrow项目介绍在大数据领域，ApacheKafka作为实时数据流处理的领军者，其稳定性和性能备受赞誉。然而，对于消费者端的监控始终是一个挑战。这时，LinkedIn开源的Burrow应运而生，它是一款专为Kaf
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

Hive--参数优化、Map、Reduce Task个数优化

Hive--参数优化、Map、Reduce Task个数优化

1 Hive--参数优化

1.1 hive.fetch.task.conversion

1.2 hive.exec.mode.local.auto

1.3 hive.mapred.mode

1.4 hive.mapred.reduce.tasks.speculative.execution

1.5 hive.optimize.cp

1.6 hive.optimize.ppd

2 MapReduce 阶段Map、Reduce Task个数优化

2.1 Map Task 个数优化

2.2 Reduce Task 个数优化

你可能感兴趣的:(Hive,hive,大数据)