CH_ENN

3.2.1.3 Hive, 调优策略(架构/参数/SQL) , Hive案例；数据交互工具HUE, 概述, 安装,整合Hadoop/Hive

第十部分 Hive调优策略

第 1 节架构优化

执行引擎

优化器

分区表

分桶表

文件格式

数据压缩

第 2 节参数优化

本地模式

严格模式

JVM重用

并行执行

推测执行

合并小文件

Fetch模式

第 3 节 SQL优化

列裁剪和分区裁剪

sort by 代替 order by

group by 代替 count(distinct)

group by 配置调整

join 基础优化

第 4 节优化小结

第十一部分 Hive案例

第 1 节需求描述

第 2 节数据说明

第 3 节实现

1、按年统计销售额

2、销售金额在 10W 以上的订单

3、每年销售额的差值

4、年度订单金额前10位（年度、订单号、订单金额、排名）

5、季度订单金额前10位（年度、季度、订单id、订单金额、排名）

6、求所有交易日中订单金额最高的前10位

7、每年度销售额最大的交易日

8、年度最畅销的商品(即每年销售金额最大的商品)

数据交互工具 -- HUE

第一部分 Hue概述

第二部分 Hue编译安装

2.1、下载软件包

2.2、安装依赖

2.3、安装Maven

2.4、编译

2.5、修改 Hadoop 配置文件

2.6、Hue配置

2.7、启动 Hue 服务

第三部分 Hue整合Hadoop、Hive

3.1 集成HDFS、YARN

3.2 集成Hive

3.3 集成MySQL

3.4 重启Hue服务

第十部分 Hive调优策略

Hive作为大数据领域常用的数据仓库组件，在设计和开发阶段需要注意效率。

影响Hive效率的不仅仅是数据量过大；数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。

对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。

从以下三个方面展开：
架构优化
参数优化
SQL优化

第 1 节架构优化

执行引擎

Hive支持多种执行引擎，分别是 MapReduce、Tez、Spark、Flink。可以通过hive-site.xml文件中的hive.execution.engine属性控制。

Tez是一个构建于YARN之上的支持复杂的DAG（有向无环图）任务的数据处理框架。由Hontonworks开源, 将MapReduce的过程拆分成若干个子过程，同时可以把多个mapreduce任务组合成一个较大的DAG任务，减少了MapReduce之间的文件存储，同时合理组合其子过程从而大幅提升MR作业的性能。

优化器

与关系型数据库类似，Hive会在真正执行计算之前，生成和优化逻辑执行计划与物理执行计划。Hive有两种优化器：Vectorize(向量化优化器) 与 Cost-BasedOptimization (CBO 成本优化器)。

矢量化优化器

矢量化查询(要求执行引擎为Tez)执行通过一次批量执行1024行而不是每行一行来提高扫描，聚合，过滤器和连接等操作的性能，这个功能一显着缩短查询执行时间。

set hive.vectorized.execution.enabled = true; -- 默认 false

set hive.vectorized.execution.reduce.enabled = true; -- 默认 false

备注：要使用矢量化查询执行，必须用ORC格式存储数据

成本优化器

Hive的CBO是基于apache Calcite的，Hive的CBO通过查询成本(有analyze收集的统计信息)会生成有效率的执行计划，最终会减少执行的时间和资源的利用，使用CBO的配置如下：

SET hive.cbo.enable=true; -- 从 v0.14.0默认true

SET hive.compute.query.using.stats=true; -- 默认false

SET hive.stats.fetch.column.stats=true; -- 默认false

SET hive.stats.fetch.partition.stats=true; -- 默认true

定期执行表（analyze）的分析，分析后的数据放在元数据库中。

分区表

对于一张比较大的表，将其设计成分区表可以提升查询的性能，对于一个特定分区的查询，只会加载对应分区路径的文件数据，所以执行速度会比较快。

分区字段的选择是影响查询性能的重要因素，尽量避免层级较深的分区，这样会造成太多的子文件夹。一些常见的分区字段可以是：

日期或时间。如year、month、day或者hour，当表中存在时间或者日期字段时
地理位置。如国家、省份、城市等
业务逻辑。如部门、销售区域、客户等等

分桶表

与分区表类似，分桶表的组织方式是将HDFS上的文件分割成多个文件。

分桶可以加快数据采样，也可以提升join的性能(join的字段是分桶字段)，因为分桶可以确保某个key对应的数据在一个特定的桶内(文件)，巧妙地选择分桶字段可以大幅度提升join的性能。

通常情况下，分桶字段可以选择经常用在过滤操作或者join操作的字段。

文件格式

在HiveQL的create table语句中，可以使用 stored as ... 指定表的存储格式。Hive表支持的存储格式有TextFile、SequenceFile、RCFile、ORC、Parquet等。

存储格式一般需要根据业务进行选择，生产环境中绝大多数表都采用TextFile、ORC、Parquet存储格式之一。

TextFile是最简单的存储格式，它是纯文本记录，也是Hive的默认格式。其磁盘开销大，查询效率低，更多的是作为跳板来使用。RCFile、ORC、Parquet等格式的表都不能由文件直接导入数据，必须由TextFile来做中转。

Parquet和ORC都是Apache旗下的开源列式存储格式。列式存储比起传统的行式存储更适合批量OLAP查询，并且也支持更好的压缩和编码。选择Parquet的原因主要是它支持Impala查询引擎，并且对update、delete和事务性操作需求很低。

数据压缩

压缩技术可以减少map与reduce之间的数据传输，从而可以提升查询性能，关于压缩的配置可以在hive的命令行中或者hive-site.xml文件中进行配置。

SET hive.exec.compress.intermediate=true

开启压缩之后，可以选择下面的压缩格式：

关于压缩的编码器可以通过mapred-site.xml, hive-site.xml进行配置，也可以通过命令行进行配置，如：

-- 中间结果压缩
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec ;

-- 输出结果压缩
SET hive.exec.compress.output=true;

SET mapreduce.output.fileoutputformat.compress.codec =
org.apache.hadoop.io.compress.SnappyCodc;

设计阶段：

执行引擎
优化器
分区、分桶
文件格式
数据压缩

第 2 节参数优化

本地模式

当Hive处理的数据量较小时，启动分布式去处理数据会有点浪费，因为可能启动的时间比数据处理的时间还要长。Hive支持将作业动态地转为本地模式，需要使用下面的配置：

SET hive.exec.mode.local.auto=true; -- 默认 false
SET hive.exec.mode.local.auto.inputbytes.max=50000000;
SET hive.exec.mode.local.auto.input.files.max=5; -- 默认 4

一个作业只要满足下面的条件，会启用本地模式

输入文件的大小小于 hive.exec.mode.local.auto.inputbytes.max 配置的大小
map任务的数量小于 hive.exec.mode.local.auto.input.files.max 配置的大小
reduce任务的数量是1或者0

严格模式

所谓严格模式，就是强制不允许用户执行3种有风险的HiveQL语句，一旦执行会直接失败。这3种语句是：

查询分区表时不限定分区列的语句；
两表join产生了笛卡尔积的语句；
用order by来排序，但没有指定limit的语句。

要开启严格模式，需要将参数 hive.mapred.mode 设为strict(缺省值)。

该参数可以不在参数文件中定义，在执行SQL之前设置(set hive.mapred.mode=nostrict )

JVM重用

默认情况下，Hadoop会为为一个map或者reduce启动一个JVM，这样可以并行执行map和reduce。

当map或者reduce是那种仅运行几秒钟的轻量级作业时，JVM启动进程所耗费的时间会比作业执行的时间还要长。Hadoop可以重用JVM，通过共享JVM以串行而非并行的方式运行map或者reduce。

JVM的重用适用于同一个作业的map和reduce，对于不同作业的task不能够共享JVM。如果要开启JVM重用，需要配置一个作业最大task数量，默认值为1，如果设置为-1，则表示不限制：

-- 代表同一个MR job中顺序执行的5个task重复使用一个JVM，减少启动和关闭的开销
SET mapreduce.job.jvm.numtasks=5;

这个功能的缺点是，开启JVM重用将一直占用使用到的task插槽，以便进行重用，直到任务完成后才能释放。如果某个“不平衡的”job中有某几个reduce task执行的时间要比其他Reduce task消耗的时间多的多的话，那么保留的插槽就会一直空闲着却无法被其他的job使用，直到所有的task都结束了才会释放。

并行执行

Hive的查询通常会被转换成一系列的stage，这些stage之间并不是一直相互依赖的，可以并行执行这些stage，通过下面的方式进行配置：

SET hive.exec.parallel=true; -- 默认false
SET hive.exec.parallel.thread.number=16; -- 默认8

并行执行可以增加集群资源的利用率，如果集群的资源使用率已经很高了，那么并行执行的效果不会很明显。

推测执行

在分布式集群环境下，因为程序Bug、负载不均衡、资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），
则这些任务会拖慢作业的整体执行进度。

为了避免这种情况发生，Hadoop采用了推测执行机制，它根据一定的规则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

set mapreduce.map.speculative=true
set mapreduce.reduce.speculative=true
set hive.mapred.reduce.tasks.speculative.execution=true

合并小文件

在map执行前合并小文件，减少map数

-- 缺省参数
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

在Map-Reduce的任务结束时合并小文件

-- 在 map-only 任务结束时合并小文件，默认true
SET hive.merge.mapfiles = true;

-- 在 map-reduce 任务结束时合并小文件，默认false
SET hive.merge.mapredfiles = true;

-- 合并文件的大小，默认256M
SET hive.merge.size.per.task = 268435456;

-- 当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge
SET hive.merge.smallfiles.avgsize = 16777216;

Fetch模式

Fetch模式是指Hive中对某些情况的查询可以不必使用MapReduce计算。select col1, col2 from tab ;

可以简单地读取表对应的存储目录下的文件，然后输出查询结果到控制台。在开启fetch模式之后，在全局查找、字段查找、limit查找等都不启动 MapReduce 。

-- Default Value: minimal in Hive 0.10.0 through 0.13.1, more in
Hive 0.14.0 and later
hive.fetch.task.conversion=more

参数调整(记住调整方法, 参数之类可以再查)：

本地模式
严格模式
JVM重用
并行执行
推测执行
合并小文件
Fetch模式

Hive 参数说明的官方文档：
https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

第 3 节 SQL优化

列裁剪和分区裁剪

列裁剪是在查询时只读取需要的列；分区裁剪就是只读取需要的分区。

简单的说：select 中不要有多余的列，坚决避免 select * from tab;

查询分区表，不读多余的数据；

select uid, event_type, record_data
from calendar_record_log
where pt_date >= 20190201 
      and pt_date <= 20190224
      and status = 0;

sort by 代替 order by

HiveQL中的order by与其他关系数据库SQL中的功能一样，是将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会长时间计算不完。

如果使用sort by，那么还是会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key，往往还要配合distribute by 一同使用。如果不加 distribute by 的话，map端数据就会随机分配到reducer。

group by 代替 count(distinct)

当要统计某一列的去重数时，如果数据量很大，count(distinct) 会非常慢。原因与order by类似，count(distinct)逻辑只会有很少的reducer来处理。此时可以用group by 来改写：

-- 原始SQL
select count(distinct uid)
from tab;
-- 优化后的SQL
select count(1)
from (select uid 
      from tab
      group by uid
) tmp;

这样写会启动两个MR job（单纯distinct只会启动一个），所以要确保数据量大到启动job的overhead远小于计算耗时，才考虑这种方法。当数据集很小或者key的倾斜比较明显时，group by还可能会比distinct慢。

group by 配置调整

map端预聚合

group by时，如果先起一个combiner在map端做部分预聚合，可以有效减少shuffle数据量。

-- 默认为true
set hive.map.aggr = true

Map端进行聚合操作的条目数

set hive.groupby.mapaggr.checkinterval = 100000

通过 hive.groupby.mapaggr.checkinterval 参数也可以设置map端预聚合的行
数阈值，超过该值就会分拆job，默认值10W。

倾斜均衡配置项

group by时如果某些key对应的数据量过大，就会发生数据倾斜。Hive自带了一个均衡数据倾斜的配置项 hive.groupby.skewindata ，默认值false。

其实现方法是在group by时启动两个MR job。第一个job会将map端数据随机输入reducer，每个reducer做部分聚合，相同的key就会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果，这样就起到了均衡的效果。

但是，配置项毕竟是死的，单纯靠它有时不能根本上解决问题，建议了解数据倾斜的细节，并优化查询语句。

join 基础优化

Hive join的三种方式

1、common join

普通连接，在SQL中不特殊指定连接方式使用的都是这种普通连接。

缺点：性能较差(要将数据分区，有shuffle)

优点：操作简单，普适性强

2、map join

map端连接，与普通连接的区别是这个连接中不会有reduce阶段存在，连接在map端完成

适用场景：大表与小表连接，小表数据量应该能够完全加载到内存，否则不适用

优点：在大小表连接时性能提升明显

备注：

Hive 0.6 的时候默认认为写在select 后面的是大表，前面的是小表，或者使用 /*+mapjoin(map_table) / 提示进行设定。select a.*, b.* from a join b on a.id =b.id【要求小表在前，大表之后】

hive 0.7 的时候这个计算是自动化的，它首先会自动判断哪个是小表，哪个是大表，这个参数由（hive.auto.convert.join=true）来控制，然后控制小表的大小由（hive.smalltable.filesize=25000000）参数控制（默认是25M），当小表超过这个大小，hive 会默认转化成common join。

Hive 0.8.1，hive.smalltable.filesize => hive.mapjoin.smalltable.filesize

缺点：使用范围较小，只针对大小表且小表能完全加载到内存中的情况。

3、bucket map join

分桶连接：Hive 建表的时候支持hash 分区通过指定clustered by (col_name,xxx )into number_buckets buckets 关键字.当连接的两个表的join key 就是bucket column 的时候，就可以通过设置hive.optimize.bucketmapjoin= true 来执行优化。

原理：通过两个表分桶在执行连接时会将小表的每个分桶映射成hash表，每个task节点都需要这个小表的所有hash表，但是在执行时只需要加载该task所持有大表分桶对应的小表部分的hash表就可以，所以对内存的要求是能够加载小表中最大的hash块即可。

备注：小表与大表的分桶数量需要是倍数关系，这个是因为分桶策略决定的，分桶时会根据分桶字段对桶数取余后决定哪个桶的，所以要保证成倍数关系。

优点：比map join对内存的要求降低，能在逐行对比时减少数据计算量（不用比对小表全量）

缺点：只适用于分桶表

利用map join特性

map join特别适合大小表join的情况。Hive会将build table和probe table在map端直接完成join过程，消灭了reduce，效率很高。

select a.event_type, b.upload_time
from calendar_event_code a
inner join (
            select event_type, upload_time from calendar_record_log
            where pt_date = 20190225
) b on a.event_type = b.event_type;

map join的配置项是 hive.auto.convert.join ，默认值true。

当build table大小小于 hive.mapjoin.smalltable.filesize 会启用map join，默认值25000000（约25MB）。还有 hive.mapjoin.cache.numrows ，表示缓存build table的多少行数据到内存，默认值25000。

分桶表map join

map join对分桶表还有特别的优化。由于分桶表是基于一列进行hash存储的，因此非常适合抽样（按桶或按块抽样）。它对应的配置项是hive.optimize.bucketmapjoin 。

倾斜均衡配置项

这个配置与 group by 的倾斜均衡配置项异曲同工，通过hive.optimize.skewjoin 来配置，默认false。

如果开启了，在join过程中Hive会将计数超过阈值 hive.skewjoin.key （默认100000）的倾斜key对应的行临时写进文件中，然后再启动另一个job做map join生成结果。通过 hive.skewjoin.mapjoin.map.tasks 参数还可以控制第二个job的mapper数量，默认10000。

处理空值或无意义值

日志类数据中往往会有一些项没有记录到，其值为null，或者空字符串、-1等。如果缺失的项很多，在做join时这些空值就会非常集中，拖累进度【备注：这个字段是连接字段】。

若不需要空值数据，就提前写 where 语句过滤掉。需要保留的话，将空值key用随机方式打散，例如将用户ID为null的记录随机改为负值：

select a.uid, a.event_type, b.nickname, b.age
from (
      select(
             case when uid is null then cast(rand()*-10240 as int)
             else uid end 
      ) as uid, event_type 
      from calendar_record_log
      where pt_date >= 20190201
) a left outer join (
                     select uid,nickname,age 
                     from user_info where status = 4
) b on a.uid = b.uid;

单独处理倾斜key

如果倾斜的 key 有实际的意义，一般来讲倾斜的key都很少，此时可以将它们单独抽取出来，对应的行单独存入临时表中，然后打上一个较小的随机数前缀（比如0~9），最后再进行聚合。

不要一个Select语句中，写太多的Join。一定要了解业务，了解数据。(A0-A9), 比如出问题不知道哪个地方有问题

分成多条语句，分步执行；(A0-A4; A5-A9)；先执行大表与小表的关联；

调整 Map 数

通常情况下，作业会通过输入数据的目录产生一个或者多个map任务。主要因素包括：

输入文件总数
输入文件大小
HDFS文件块大小

map越多越好吗。当然不是，合适的才是最好的。

如果一个任务有很多小文件（<< 128M），每个小文件也会被当做一个数据块，用一个 Map Task 来完成。

一个 Map Task 启动和初始化时间 >> 处理时间，会造成资源浪费，而且系统中同时可用的map数是有限的。

对于小文件采用的策略是合并。

每个map处理接近128M的文件块，会有其他问题吗。也不一定。

有一个125M的文件，一般情况下会用一个Map Task完成。假设这个文件字段很少，但记录数却非常多。如果Map处理的逻辑比较复杂，用一个map任务去做，性能也不好。

对于复杂文件采用的策略是增加 Map 数。

computeSliteSize(max(minSize, min(maxSize, blocksize))) = blocksize
minSize : mapred.min.split.size （默认值1）
maxSize : mapred.max.split.size （默认值256M）

调整maxSize最大值。让maxSize最大值低于blocksize就可以增加map的个数。
建议用set的方式，针对SQL语句进行调整。

调整 Reduce 数
reducer数量的确定方法比mapper简单得多。使用参数 mapred.reduce.tasks 可以直接设定reducer数量。如果未设置该参数，Hive会进行自行推测，逻辑如下：

参数 hive.exec.reducers.bytes.per.reducer 用来设定每个reducer能够处理的最大数据量，默认值256M
参数 hive.exec.reducers.max 用来设定每个job的最大reducer数量，默认值999（1.2版本之前）或1009（1.2版本之后）
得出reducer数： reducer_num = MIN(total_input_size /reducers.bytes.per.reducer, reducers.max) 即： min(输入总数据量 / 256M, 1009)

reducer数量与输出文件的数量相关。如果reducer数太多，会产生大量小文件，对HDFS造成压力。如果reducer数太少，每个reducer要处理很多数据，容易拖慢运行时间或者造成OOM。

第 4 节优化小结

深入理解 Hadoop 的核心能力，对Hive优化很有帮助。Hadoop/Hive 处理数据过程，有几个显著特征：

不怕数据多，就怕数据倾斜
对 job 数比较多的作业运行效率相对比较低，比如即使有几百行的表，多次关联多次汇总，产生十几个jobs，执行也需要较长的时间。MapReduce 作业初始化的时间是比较长的
对sum、count等聚合操作而言，不存在数据倾斜问题
count(distinct) 效率较低，数据量大容易出问题

从大的方面来说，优化可以从几个方面着手：

好的模型设计，事半功倍
解决数据倾斜问题。仅仅依靠参数解决数据倾斜，是通用的优化手段，收获有限。开发人员应该熟悉业务，了解数据规律，通过业务逻辑解决数据倾斜往往更可靠
减少 job 数
设置合理的map、reduce task数
对小文件进行合并，是行之有效的提高Hive效率的方法
优化把握整体，单一作业的优化不如整体最优

第十一部分 Hive案例

综合Hive知识，复习巩固。

第 1 节需求描述

针对销售数据，完成统计：
1. 按年统计销售额
2. 销售金额在 10W 以上的订单
3. 每年销售额的差值
4. 年度订单金额前10位（年度、订单号、订单金额、排名）
5. 季度订单金额前10位（年度、季度、订单id、订单金额、排名）
6. 求所有交易日中订单金额最高的前10位
7. 每年度销售额最大的交易日
8. 年度最畅销的商品(即每年销售金额最大的商品)

第 2 节数据说明

第 3 节实现

步骤一：创建表

创建文本文件createtable.hql文件

vim createtable.hql

将以下语句编辑在上述文件中

-- createtable.hql
drop database sale cascade;
create database if not exists sale;
create table sale.dimdate_ori(
    dt date,
    yearmonth int,
    year smallint,
    month tinyint,
    day tinyint,
    week tinyint,
    weeks tinyint,
    quat tinyint,
    tendays tinyint,
    halfmonth tinyint
)
row format delimited
fields terminated by ",";


create table sale.sale_ori(
    orderid string,
    locationid string,
    dt date
)
row format delimited
fields terminated by ",";


create table sale.saledetail_ori(
    orderid string,
    rownum int,
    goods string,
    num int,
    price double,
    amount double
)
row format delimited
fields terminated by ",";


create table sale.dimdate(
    dt date,
    yearmonth int,
    year smallint,
    month tinyint,
    day tinyint,
    week tinyint,
    weeks tinyint,
    quat tinyint,
    tendays tinyint,
    halfmonth tinyint
) 
stored as orc;


create table sale.sale(
    orderid string,
    locationid string,
    dt date
) 
stored as orc;


create table sale.saledetail(
    orderid string,
    rownum int,
    goods string,
    num int,
    price double,
    amount double
)
stored as orc;

执行下面的语句 (生产中常用)

hive -f createtable.hql

步骤二：导入数据

同上

vim loaddata.hql

-- 加载数据
use sale;
load data local inpath "/root/data/tbDate.dat" overwrite into
table dimdate_ori;
load data local inpath "/root/data/tbSale.dat" overwrite into
table sale_ori;
load data local inpath "/root/data/tbSaleDetail.dat" overwrite
into table saledetail_ori;

-- 导入数据
insert into table dimdate select * from dimdate_ori;
insert into table sale select * from sale_ori;
insert into table saledetail select * from saledetail_ori;

hive -f loaddata.hql

步骤三：SQL实现

1、按年统计销售额

SELECT year(B.dt) year, round(sum(A.amount)/10000, 2) amount
FROM saledetail A join sale B on A.orderid=B.orderid
group by year(B.dt);

2、销售金额在 10W 以上的订单

SELECT orderid, round(sum(amount), 2) amount
FROM saledetail
group by orderid
having sum(amount) > 100000

3、每年销售额的差值

SELECT year, round(amount, 2) amount
, round(lag(amount) over (ORDER BY year), 2) prioramount
, round(amount - lag(amount) over (ORDER BY year), 2) diff
from (SELECT year(B.dt) year, sum(A.amount) amount
      from saledetail A join sale B on A.orderid=B.orderid
      group by year(B.dt)
) tmp;

4、年度订单金额前10位（年度、订单号、订单金额、排名）

-- 方法一
SELECT dt, orderid, amount, rank
from (SELECT dt, orderid, amount,
             dense_rank() over(PARTITION BY dt ORDER BY amount desc) rank
      from (SELECT year(B.dt) dt, A.orderid, sum(A.amount)amount
            from saledetail A join sale B on A.orderid=B.orderid
            GROUP BY year(B.dt), A.orderid) tmp1
      ) tmp2
where rank <= 10;



-- 方法二
with tmp as (
    SELECT year(B.dt) dt, A.orderid, sum(A.amount) amount
    from saledetail A join sale B on A.orderid=B.orderid
    GROUP BY year(B.dt), A.orderid
)
SELECT dt, orderid, amount, rank
from (SELECT dt, orderid, amount,
             dense_rank() over(PARTITION BY dt ORDER BY amount desc) rank
      from tmp
) tmp2
where rank <= 10;

5、季度订单金额前10位（年度、季度、订单id、订单金额、排名）

-- 方法一
with tmp as (
    select C.year, C.quat, A.orderid, round(sum(B.amount), 2) amount
    from sale A join saledetail B on A.orderid=B.orderid
    join dimdate C on A.dt=C.dt
    group by C.year, C.quat, A.orderid
)
select year, quat, orderid, amount, rank
from (
    select year, quat, orderid, amount,
           dense_rank() over (partition by year, quat order by amount desc) rank
    from tmp
) tmp1
where rank <= 10;



-- 方法二
with tmp as(
    select year(A.dt) year,
           case when month(A.dt) <= 3 then 1
                when month(A.dt) <= 6 then 2
                when month(A.dt) <= 9 then 3
                else 4 end quat,
           A.orderid, round(sum(B.amount), 2) amount
    from sale A join saledetail B on A.orderid = B.orderid
    group by year(A.dt),
             case when month(A.dt) <= 3 then 1
                  when month(A.dt) <= 6 then 2
                  when month(A.dt) <= 9 then 3
                  else 4 end,
             A.orderid
)
select year, quat, orderid, amount, rank
from (
    select year, quat, orderid, amount,
           dense_rank() over (partition by year, quat order by amount desc) rank
    from tmp
) tmp1
where rank <= 10;



-- 方法三。求季度
select floor(month(dt/3.1)) + 1;

with tmp as (
    select year(A.dt) year, floor(month(A.dt)/3.1) + 1 quat, A.orderid,
           round(sum(B.amount), 2) amount
    from sale A join saledetail B on A.orderid=B.orderid
    group by year(A.dt), floor(month(A.dt)/3.1) + 1, A.orderid
)
select year, quat, orderid, amount, rank
from (
    select year, quat, orderid, amount,
           dense_rank() over (partition by year, quat order by amount desc) rank
    from tmp
) tmp1
where rank <= 10;

6、求所有交易日中订单金额最高的前10位

topN问题：
1、基础数据
2、上排名函数
3、解决N的问题


with tmp as (
    select A.dt, A.orderid, round(sum(B.amount), 2) amount
    from sale A join saledetail B on A.orderid=B.orderid
    group by A.dt, A.orderid
)
select dt, orderid, amount, rank
from (
    select dt, orderid, amount, dense_rank() over(order by amount desc) rank
    from tmp
) tmp1
where rank <= 10;

7、每年度销售额最大的交易日

with tmp as (
    select A.dt, round(sum(B.amount), 2) amount
    from sale A join saledetail B on A.orderid=B.orderid
    group by A.dt
)
select year(dt) year, max(amount) dayamount
from tmp
group by year(dt);

8、年度最畅销的商品(即每年销售金额最大的商品)

with tmp as (
    select year(B.dt) year, goods, round(sum(amount),2) amount
    from saledetail A join sale B on A.orderid=B.orderid
    group by year(B.dt), goods 
)
select year, goods, amount
from (
    select year, goods, amount, 
           dense_rank() over (partition by year order by amount desc) rank
    from tmp
) tmp1
where rank = 1;

数据交互工具 -- HUE

第一部分 Hue概述

Hue(Hadoop User Experience)是一个开源的 Apache Hadoop UI 系统，最早是由Cloudera Desktop 演化而来，由 Cloudera 贡献给开源社区，它是基于 PythonWeb 框架 Django 实现的。通过使用 Hue 可以在浏览器端的 Web 控制台上与Hadoop 集群进行交互来分析处理数据，例如操作 HDFS 上的数据，运行MapReduce Job 等等。Hue所支持的功能特性集合：

默认基于轻量级sqlite数据库管理会话数据，用户认证和授权，可以自定义为MySQL、Postgresql，以及Oracle
基于文件浏览器（File Browser）访问HDFS
基于Hive编辑器来开发和运行Hive查询
支持基于Solr进行搜索的应用，并提供可视化的数据视图，以及仪表板（Dashboard）
支持基于Impala的应用进行交互式查询
支持Spark编辑器和仪表板（Dashboard）
支持Pig编辑器，并能够提交脚本任务
支持Oozie编辑器，可以通过仪表板提交和监控Workflow、Coordinator和Bundle
支持HBase浏览器，能够可视化数据、查询数据、修改HBase表
支持Metastore浏览器，可以访问Hive的元数据，以及HCatalog
支持Job浏览器，能够访问MapReduce Job（MR1/MR2-YARN）
支持Job设计器，能够创建MapReduce/Streaming/Java Job
支持Sqoop 2编辑器和仪表板（Dashboard）
支持ZooKeeper浏览器和编辑器
支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器

一句话总结：Hue是一个友好的界面集成框架，可以集成我们各种学习过的以及将要学习的框架，一个界面就可以做到查看以及执行所有的框架。

类似的产品还有 Apache Zeppelin。

第二部分 Hue编译安装

Hue官方网站：https://gethue.com/
HUE官方用户手册：https://docs.gethue.com/
官方安装文档：https://docs.gethue.com/administrator/installation/install/
HUE下载地址：https://docs.gethue.com/releases/

Hue的安装并不是那么简单，官方并没有编译好的软件包，需要从github上下载源码、安装依赖、编译安装。以下详细讲解Hue下载、编译、安装的操作过程。

安装Hue的节点上最好没有安装过MySQL，否则可能有版本冲突，这里选择将Hue安装在 linux122 上。

1、下载软件包、上传、解压(hue-release-4.3.0.zip、apache-maven-3.6.3-bin.tar.gz)
2、安装依赖包
3、安装maven
4、hue编译
5、修改hadoop配置
6、修改hue配置
7、启动hue服务

2.1、下载软件包

到官方网站下载 hue-release-4.3.0.zip；上传至服务器，并解压缩

yum install unzip
unzip hue-release-4.3.0.zip

2.2、安装依赖

# 需要Python支持(Python 2.7+ / Python 3.5+)
python --version

# 在 CentOS 系统中安装编译 Hue 需要的依赖库
yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel gmp-devel

yum install -y rsync

备注：
以上依赖仅适用CentOS/RHEL 7.X，其他情况请参https://docs.gethue.com/administrator/installation/dependencies/

安装Hue的节点上最好没有安装过MySQL，否则可能有版本冲突

安装过程中需要联网，网络不好会有各种奇怪的问题

2.3、安装Maven

编译 Hue 还需要 Maven 环境，因此在编译前需要安装 Maven。

下载 apache-maven-3.6.3-bin.tar.gz，上传虚拟机解压缩，添加环境变量

vi /etc/profile

# 添加环境变量
export MAVEN_HOME=/opt/lagou/servers/apache-maven-3.6.3
export PATH=$PATH:$MAVEN_HOME/bin

source /etc/profile

# 验证安装
mvn --version

2.4、编译

# 进入 hue 源码目录，进行编译。使用 PREFIX 指定安装 Hue 的路径
cd /opt/lagou/software/hue-release-4.3.0
PREFIX=/opt/lagou/servers make install
cd /opt/lagou/servers

# 如果想把HUE从移动到另外一个地方，由于HUE使用了Python包的一些绝对路径,移动之
后则必须执行以下命令：

# 这里不要执行
rm app.reg
rm -r build
make apps

备注：这一步持续的时间比较长，还会从网上下载 jar；需要联网

2.5、修改 Hadoop 配置文件

在 hdfs-site.xml 中增加配置



    dfs.webhdfs.enabled
    true


    dfs.permissions.enabled
    false

在 core-site.xml 中增加配置



    hadoop.proxyuser.hue.hosts
    *


    hadoop.proxyuser.hue.groups
    *



    hadoop.proxyuser.hdfs.hosts
    *


    hadoop.proxyuser.hdfs.groups
    *

增加 httpfs-site.xml 文件，加入配置


    
    
        httpfs.proxyuser.hue.hosts
        *
    
    
        httpfs.proxyuser.hue.groups
        *

备注：修改完HDFS相关配置后，需要把配置scp给集群中每台机器，重启hdfs服务。

scp core-site.xml linux122:$PWD

2.6、Hue配置

# 进入 Hue 安装目录
cd /opt/lagou/servers/hue

# 进入配置目录
cd desktop/conf

# 复制一份HUE的配置文件，并修改复制的配置文件
cp pseudo-distributed.ini.tmpl pseudo-distributed.ini
vim pseudo-distributed.ini

# [desktop]
http_host=linux122
http_port=8000
is_hue_4=true
time_zone=Asia/Shanghai
dev=tru e
server_user=hue
server_group=hue
default_user=hue

# 211行左右。禁用solr，规避报错
app_blacklist=search

# [[database]]。Hue默认使用SQLite数据库记录相关元数据，替换为mysql

engine=mysql
host=linux123
port=3306
user=hive
password=12345678
name=hue

# 1003行左右，Hadoop配置文件的路径
hadoop_conf_dir=/opt/lagou/servers/hadoop-2.9.2/etc/hadoop

# 在mysql中创建数据库hue，用来存放元数据
mysql -uhive -p12345678
mysql> create database hue;

# 初始化数据库
build/env/bin/hue syncdb
build/env/bin/hue migrate

# 检查数据

2.7、启动 Hue 服务

# 增加 hue 用户和用户组
groupadd hue
useradd -g hue hue

# 在hue安装路径下执行
build/env/bin/supervisor

在浏览器中输入：linux122:8000，可以看见以下画面，说明安装成功。

第一次访问的时候，需要设置超级管理员用户和密码。记住它(hue/123456)。

第三部分 Hue整合Hadoop、Hive

修改参数文件 /opt/lagou/servers/hue/desktop/conf/pseudo-distributed.ini

3.1 集成HDFS、YARN

# 211 行。没有安装 Solr，禁用，否则一直报错
app_blacklist=search

# [hadoop] -- [[hdfs_clusters]] -- [[[default]]]
# 注意端口号。下面语句只要一个
# fs_defaultfs=hdfs://linux121:8020
fs_defaultfs=hdfs://linux121:9000

webhdfs_url=http://linux121:50070/webhdfs/v1

# 211 行
hadoop_conf_dir=/opt/lagou/servers/hadoop-2.9.2/etc/hadoop

# [hadoop] -- [[yarn_clusters]] -- [[[default]]]

resourcemanager_host=linux123

resourcemanager_port=8032

submit_to=True

resourcemanager_api_url=http://linux123:8088

proxy_api_url=http://linux123:8088

history_server_api_url=http://linux123:19888

3.2 集成Hive

集成Hive需要启动 Hiveserver2 服务，在linux123节点上启动 Hiveserver2

# [beeswax]
hive_server_host=linux123
hive_server_port=10000
hive_conf_dir=/opt/lagou/servers/hive-2.3.7/conf

3.3 集成MySQL

# [librdbms] -- [[databases]] -- [[[mysql]]]；1639行

# 注意：1639行原文： ##[[mysql]] => [[mysql]]；两个##要去掉!

[[[mysql]]]

nice_name="My SQL DB"

name=hue

engine=mysql

host=linux123

port=3306

user=hive

password=12345678

备注：name是数据库名，即 database 的名称

3.4 重启Hue服务

你可能感兴趣的:(3.2.1.3 Hive, 调优策略(架构/参数/SQL) , Hive案例；数据交互工具HUE, 概述, 安装,整合Hadoop/Hive)

使用 Python 实现批量发送电子邮件才华是浅浅的耐心 python 爬虫开发语言
引言：在日常工作中，我们可能会遇到需要批量发送邮件的场景，例如通知、营销邮件或测试邮件。如果手动发送，不仅效率低下，还容易出错。今天，我将分享一个使用Python实现的自动化邮件发送脚本，通过读取Excel文件中的发件人和收件人信息，轻松完成批量邮件发送任务。功能概述这个脚本的主要功能包括：从Excel文件中读取发件人信息（邮箱和授权码）和收件人信息（邮箱）。根据发件人邮箱的域名，自动匹配SMTP
Trae使用教程，帮助您快速上手这款编程神器。云上的阿七云计算
Trae是一款由字节跳动推出的AI驱动集成开发环境（IDE），旨在通过智能代码补全、多模态交互以及对整个代码库的上下文分析等功能，帮助开发者更高效地编写代码。其强大的AI能力能够理解开发者的需求并提供精准的代码生成和修改建议。目前，Trae提供免费版本，集成了Claude-3.5-Sonnet和GPT-4o等主流大模型。rae使用教程，帮助您快速上手这款编程神器。一、安装Trae访问官网：前往Tr
业务流程管理（BPM）：概念、起源与优势牛油果爱编程人工智能
产生背景BusinessProcessManagement（BPM），即业务流程管理，是一套达成企业各种业务环节整合的全面管理模式。BPM涵盖了人员、设备、桌面应用系统、企业级Backoffice应用等内容的优化组合，从而实现跨应用、跨部门、跨合作伙伴与客户的企业运作。BPM通常以Internet方式实现信息传递、数据同步、业务监控和企业业务流程的持续升级优化。显而易见，BPM不但涵盖了传统“工作
Mac 下 Go 的安装和卸载浅梦深蓝 macos golang linux
安装下载Go安装包，golangdownload点我跳转下载页面，选择Go版本后，再选择需要的安装包格式，有压缩包和安装包两种，选择自己需要的格式。以压缩包为例。下载完成后，将压缩包解压到$HOME/go文件夹下。在$HOME/.bash_profile配置本地环境变量。exportGOROOT=$HOME/goexportGOPATH=$HOME/Applications/GoexportPAT
我人生中最努力的200个小时（自学高项版）不是小盆友软考软考高项计算机考试软考苏景一软考软考高项信息系统项目管理师计算机考试 pat考试 PMP
在职，每天3个小时，三个月，拿下软考高项，中间多努力不用我多说了吧。下面给大家分享一些我的备考经验，希望能帮助大家提高.效率，一次上岸！-❤❤备考顺序先啃6-19章，接着20-24章，蕞后1-5章6-19章是核心板块，涵盖了大量的关键知识点，从综合知识选择题到案例分析，都是考试的重.点区域，必.须牢牢掌握-❤❤备考建议●选择题每天坚持刷题！建议用软考通、51CTO等app刷题，错题及时总结，做到举
LiteIDE中配置golang编译生成无CMD窗口EXE的步骤 ac.char golang 经验分享 golang 开发语言后端
LiteIDE中配置golang编译生成无CMD窗口EXE的步骤一、环境配置1、设置GOROOT‌2、配置GOPATH‌二、项目编译参数设置1、新建/打开项目‌2、修改编译配置‌3、其他优化选项（可选）‌三、构建与验证1、编译生成EXE‌2、验证无窗口效果‌四、注意事项一、环境配置1、设置GOROOT‌打开LiteIDE→菜单栏选择‌查看→编辑当前环境‌确认GOROOT变量指向Go语言的安装路径（
RAMS（区域大气建模系统）与 OpenFOAM 的耦合：构建跨尺度大气流动模拟平台 Hardess-god RAMS 算法人工智能机器学习
随着城市气象、风能开发和空气质量模拟需求的提升，单一尺度的模拟工具已难以满足复杂地形和城市结构下的精细气流场重建需求。RegionalAtmosphericModelingSystem（RAMS）作为区域尺度大气模式，在捕捉天气系统和地形强迫方面表现优异；而OpenFOAM则是功能强大的开源计算流体力学（CFD）平台，能够实现亚米级的湍流建模和局地流场分辨。将两者耦合，实现区域与城市尺度的联动模拟
相同的问题看看Grok3怎么回答-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型算法神经网络计算机视觉
关键要点研究表明，PPO（近端策略优化）是一种稳定高效的强化学习算法，适用于单代理或多代理场景，重点是最大化绝对奖励。GRPO（基于梯度的相对策略优化）似乎是专为多代理系统设计的，优化代理之间的相对表现，目前信息有限，可能较少为人所知。这两个算法在目标和应用领域上有显著差异，PPO更通用，GRPO更适合竞争性多代理环境。关于PPO的解释什么是PPO？PPO，全称近端策略优化，是一种强化学习算法，帮
第三十九个问题-详细讲讲PPO & GRPO原理释迦呼呼 AI一千问人工智能深度学习机器学习语言模型自然语言处理算法
PPO（ProximalPolicyOptimization）原理详解PPO（近端策略优化）是OpenAI于2017年提出的强化学习算法，旨在解决传统策略梯度方法中训练不稳定和样本效率低的问题。其核心思想是通过限制策略更新的幅度，确保新策略不会偏离旧策略太远，从而稳定训练过程。1.策略梯度（PolicyGradient）基础策略梯度方法通过直接优化策略参数θθ来最大化期望回报。目标函数为：J(θ)
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
【前端构建】使用Docker打包多个前端项目到一个Nginx镜像，并给conf文件动态传递参数 Zacks_xdc 前端 docker nginx
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录背景正文DockerFileNginx配置模板接收变量并替换Shell脚本将Nginx配置模板替换成配置文件使用构建镜像运行容器总结背景公司给一些客户要部署三个前端项目。最初，每个前端项目都以独立的镜像形式交付并部署。然而，随着客户数量的增加，每个客户都提出了一些自定义需求，后端也进行了对应改造。这导致了部署过程变得复杂且繁琐
Python图形界面(GUI)Tkinter笔记（十四）：Entry与Button的碰撞（1）小叶肥辉 tkinter python gui tkinter
用功能按钮(Button)、单行文本输入框(Entry)、文本框内容读取(get)实现一个极简易的加法运算，及与其他控件的交互，提高体验，主要体现其人机交互的意义。因为Entry()文本输入框没有限制输入内容属性的参数，它是把所有的输入都视作它特有的一个类属性，所以用get()方法读取出来是一个字符串而这字符串可包括字母或其它符号。因此我们必须对其进行判断后再计算，若直接计算可能会出现不可预料的错
利用 MATLAB/Simulink 建立完整的控制系统模型，并进行阶跃响应和负载扰动响应仿真神经网络15044 MATLAB专栏算法深度学习 matlab 网络开发语言
-利用MATLAB/Simulink建立完整的控制系统模型，包括单一控制回路(电流、速度、位置)和整个系统的级联模型仿真任务包括验证各回路的阶跃响应、负载扰动响应等，确保系统在动态性能上满足设计要求。以下是在MATLAB/Simulink中建立完整控制系统模型（包含单一控制回路和级联模型）并进行仿真的详细步骤和示例代码。步骤概述建立单一控制回路模型：分别构建电流、速度和位置控制回路。构建级联模型：
Java 在运行期、源码级别和字节码级别处理的对比分析，涵盖定义、实现方式、优缺点及典型应用场景爱的叹息 Java 基础整理 java python 开发语言
以下是Java在运行期、源码级别和字节码级别处理的对比分析，涵盖定义、实现方式、优缺点及典型应用场景：1.对比维度维度运行期处理源码级别处理字节码级别处理工作阶段程序运行时动态操作编译阶段生成/修改代码编译后到运行前修改字节码实现方式反射、动态代理、JVM工具注解处理器（APT）、模板引擎ASM、Javassist、ByteBuddy修改内容对象/类的属性、方法调用源代码文件字节码（.class文
攻克 CREO 到 STL 转换难关：技术挑战剖析 3D小将迪威模型联讯软件 SolidWorks模型 CATIA模型 UG模型 SketchUp模型 PROE模型 CAD图纸 MMD模型
一、引言CREO是一款功能强大的3DCAD/CAM/CAE一体化软件，在产品设计、模具开发、机械制造等多个领域广泛应用。它支持复杂的参数化设计、曲面建模和装配模拟等操作，能满足从概念设计到产品制造全过程的需求。而STL（Stereolithography）格式则是3D打印领域的标准文件格式，主要用于描述三维物体的表面几何形状。随着3D打印技术的普及，将CREO模型转换为STL格式，以便进行3D打印
JavaScript 案例购物车《嘘》安静 javascript 前端开发语言
思路：1、获取页面元素，本练习用的表格table实现2、声明一个数组，包含自己需要渲染的内容，每个内容需要声明一个默认值，便于之后用来判断是否被勾选3、封装渲染函数：通过遍历每一个元素，判断勾选状态，如果被勾选，就直接添加选中属性，没有则正常添加。4、接着遍历元素的每一个键，并分别赋值给每一个td。5、判断合计金额，每次遍历完成后，需要把被勾选的元素单价*数量并赋值给总价的元素。6、最后直接渲染到
JavaScript 案例留言板《嘘》安静 javascript css html
思路1、设置点击事件。点击留言按钮获取本地储存并转为数组。2、判断本地储存是否有值，如果有获取最后一个元素的id，如没有就把他赋值为一个新数组，把id值赋为1.3、在判断文本框是否有值，有值才能操作。4、调用时间函数，得到当前时间，当前用户名，以及当前内容以对象的方式存入数组。5、调用渲染函数，每次调用都把留言框的值为空，让他重新获取重新渲染。6、获取本地储存的数据数组，遍历每一个元素，就创建一个
代码随想录算法训练营第二十三天 | 回溯算法part02| 39. 组合总和、40.组合总和II、131.分割回文串 boguboji 刷题算法数据结构
39.组合总和这道题和前面组合问题的区别是，取的元素可以重复，也就是遍历的时候，同一个元素可以一直取。所以for循环里，逐个添加元素，判断和大于目标时break（否则会一直加）还是新建二维数组放结果，一维数组放path。输入参数为放结果数组、path、提供的数组、目标值、目前总和sum、startIndex提前把提供的数组排序，用Arrays.sort()这样sum超过target就break递归
剪辑软件国际版，完全免费使用！学术裁缝李师傅软件分享视频剪辑实用工具
01引言最近收到一些小伙伴私信："求推荐好用的剪辑软件呀！"悄悄告诉你们，我电脑里藏着个宝藏工具——国际版剪映CapCut，今天就把这个压箱底的神器分享给大家！02软件介绍先别急着下载国内版！虽然操作确实简单，但很多小伙伴都吐槽过会员专享功能太多。这里有个冷知识：同根同源的海外版本不仅功能全免费，还能一键切换中文界面！我特意对比过，特效库、转场动画这些国内要开会员的素材，在这里统统零门槛使用。在设
正交分析法 + Prompt Optimizer：五维复杂测试用例设计的终极指南** Python测试之道 prompt 测试用例 microsoft
在测试工程师的日常工作中，复杂的测试需求往往伴随着多维参数的组合爆炸式增长。如何在有限的资源下设计出高效且覆盖全面的测试用例？如何避免因测试用例数量过多而浪费时间？今天，我们将揭示一项“杀手级”技术——正交分析法，并结合PromptOptimizer提示词优化器，教你如何在五维甚至更多参数的场景中快速生成高质量测试用例。读完这篇文章，你将会对正交分析法在提示词优化中的潜力感到眼前一亮！为什么多维参
如何设计灵活且可扩展的促销系统：策略模式的电商应用实例 !! Java设计模式必知必会 AI Agent首席体验官策略模式 java 设计模式
1.Java策略模式模式策略模式是一种行为型设计模式，它就像是一个可以随时更换的工具箱。想象一下，您是一名厨师，面对不同的食材需要使用不同的切菜工具：切肉需要用到菜刀切面团需要用到面刀切菜需要用到水果刀在策略模式中：环境类(Context)：相当于厨师本人，可以根据需要拿起不同的刀具策略接口(Strategy)：相当于所有刀具的统一规范，都有"切东西"的功能具体策略(ConcreteStrateg
python智能合约编程_技术指南 | Python智能合约开发？看这一篇就够了 weixin_39897127 python智能合约编程
01前言在之前的技术视点文章中，我们介绍了目前本体主网支持的智能合约体系以及相应的智能合约开发工具SmartX。很多小伙伴都想上手练一练。在本期的技术视点中，我们将正式开始讲述智能合约语法部分。本体的智能合约API分为7个模块，分别是Blockchain&BlockAPI、RuntimeAPI、StorageAPI、NativeAPI、UpgradeAPI、ExecutionEngineAPI以及
前端简单数据存储：跳过后端数据库的一种高效策略，应对一些不需要后端访问数据库的简单操作：静态 Markdown 文件存储【D＇accumulation】前端数据库学习 vscode html5 vue.js
问题提出：在一些应用场景中，有些数据并不重要，也不需要频繁地进行动态增删改查，比如品牌历史、产品介绍等说明性内容。为此，我选择在前端直接存储这些静态数据，跳过后端数据库调用。本文将分享如何利用Vue工程中直接存放Markdown文件与内嵌数据，将数据管理与业务逻辑解耦，从而实现快速开发、便于维护和灵活更新的目的。静态Markdown文件存储方法案例：原理：将Markdown文件（如brandHis
java架构设计-COLA 芸尚非 java 开发语言
参考：https://github.com/alibaba/COLA架构要素：组成架构的重要元素结构：要素直接的关系意义：定义良好的结构，治理应用复杂度，降低系统熵值，改善混乱状态创建COLA应用：mvnarchetype:generate\-DgroupId=com.alibaba.cola.demo.web\-DartifactId=demo-web\-Dversion=1.0.0-SNAPS
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
SAP-ABAP:SAP事务码SE14深度解析：数据库表管理核心工具爱喝水的鱼丶 SAP-ABAP开发基础详解 ABAP开发之必须知道的 VIP详情查看专栏 SAP ABAP 开发运维运维数据库
SAP事务码SE14深度解析：数据库表管理核心工具SE14是SAP中用于激活并调整透明表的数据库结构的工具，主要用于字段修改、主键变更或数据类型调整后同步数据库表结构，支持数据迁移及重建索引SE14核心功能
领域驱动新实践：COLA框架全解析——架构设计与实战案例解析 Java进阶八股文后端
1.引言：为什么选择COLA实现DDD？——从“代码泥潭”到“领域清晰”的架构跃迁传统分层架构的痛点：当代码沦为“数据库操作说明书”在典型的MVC或三层架构中，业务逻辑常常被“撕碎”成零散的片段，散落在Service层的各个角落。以电商系统的订单管理为例，开发者可能会遇到这样的场景：java代码解读复制代码//传统Service层：贫血模型的典型代码publicclassOrderService{
深入浅出JVM性能优化：从理论到实践 rider189 java jvm
一、JVM架构与内存模型深度解析1.1JVM运行时数据区全景图方法区（元空间）：存储类信息、常量池等元数据堆内存：对象实例存储核心区域YoungGeneration（新生代）Eden区（对象诞生地）Survivor区（S0/S1，存活对象过渡区）OldGeneration（老年代）虚拟机栈：线程私有，存储栈帧本地方法栈：Native方法调用程序计数器：线程执行位置指示器1.2对象生命周期管理对象创
WebAssembly 与 JavaScript：高性能 Web 开发的未来 vvilkim JavaScript 现代WEB技术 wasm javascript 开发语言
在现代Web开发中，性能始终是一个关键问题。随着Web应用变得越来越复杂，开发者需要更高效的工具和技术来满足用户对速度和响应能力的需求。WebAssembly（简称Wasm）正是为此而生。它是一种低级的二进制指令格式，旨在为Web提供接近原生代码的执行性能。与此同时，它与JavaScript的关系也备受关注。本文将深入探讨WebAssembly是什么，以及它与JavaScript如何协同工作。什么
Windows操作系统部署Tomcat详细讲解 web15085415935 面试学习路线阿里巴巴 windows tomcat java
Tomcat是一个开源的JavaServlet容器，用于处理JavaWeb应用程序的请求和响应。以下是关于Tomcat的用法大全：一、安装Tomcat下载访问ApacheTomcat官方网站（https://tomcat.apache.org/），根据你的操作系统（如Windows、Linux、macOS）和需求选择合适的版本进行下载。例如，对于开发环境，通常选择较新的稳定版本。安装（以Windo
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

3.2.1.3 Hive, 调优策略(架构/参数/SQL) , Hive案例； 数据交互工具HUE, 概述, 安装,整合Hadoop/Hive

第十部分 Hive调优策略

第 1 节 架构优化

执行引擎

优化器

分区表

分桶表

文件格式

数据压缩

第 2 节 参数优化

本地模式

严格模式

JVM重用

并行执行

推测执行

合并小文件

Fetch模式

第 3 节 SQL优化

列裁剪和分区裁剪

sort by 代替 order by

group by 代替 count(distinct)

group by 配置调整

join 基础优化

第 4 节 优化小结

第十一部分 Hive案例

第 1 节 需求描述

第 2 节 数据说明

第 3 节 实现

1、按年统计销售额

2、销售金额在 10W 以上的订单

3、每年销售额的差值

4、年度订单金额前10位（年度、订单号、订单金额、排名）

5、季度订单金额前10位（年度、季度、订单id、订单金额、排名）

6、求所有交易日中订单金额最高的前10位

7、每年度销售额最大的交易日

8、年度最畅销的商品(即每年销售金额最大的商品)

数据交互工具 -- HUE

第一部分 Hue概述

第二部分 Hue编译安装

2.1、下载软件包

2.2、安装依赖

2.3、安装Maven

2.4、编译

2.5、修改 Hadoop 配置文件

2.6、Hue配置

2.7、启动 Hue 服务

第三部分 Hue整合Hadoop、Hive

3.1 集成HDFS、YARN

3.2 集成Hive

3.3 集成MySQL

3.4 重启Hue服务

你可能感兴趣的:(3.2.1.3 Hive, 调优策略(架构/参数/SQL) , Hive案例； 数据交互工具HUE, 概述, 安装,整合Hadoop/Hive)

3.2.1.3 Hive, 调优策略(架构/参数/SQL) , Hive案例；数据交互工具HUE, 概述, 安装,整合Hadoop/Hive

第 1 节架构优化

第 2 节参数优化

第 4 节优化小结

第 1 节需求描述

第 2 节数据说明

第 3 节实现

你可能感兴趣的:(3.2.1.3 Hive, 调优策略(架构/参数/SQL) , Hive案例；数据交互工具HUE, 概述, 安装,整合Hadoop/Hive)