吃鱼的羊

Hive优化

https://zhuanlan.zhihu.com/p/165343463?utm_source=wechat_session&utm_medium=social&utm_oi=1118145344197935104

减少处理的数据量

分区裁剪

为了尽早的过滤掉数据，减少每个阶段的数据量，对于分区表要加分区

查询涉及分区表时，在where子句或on子句中限制分区范围

select * from table where ds='2020-07-29'

列裁剪

值读取需要的列，忽略其他不关心的列，避免全表扫描

select * from.....  -------->select col1,col2 from .......

合理的设置map、reduce数量

增加map、reduce个数，增加并发数，可以提高计算速度，但是。。。

如果map、reduce数量过多会怎样

从单一任务角度看

task overhead 过大
调度成本大

从客户资源角度看

抢占资源，造成任务拥堵

默认Map数的计算公式为

default_num=total_size/block_size

影响map的个数因素为：

HDFS块的大小（默认为128M）
文件的大小
文件的个数
splitSize的大小（mapred.max.split.size和mapred.min.split.size)决定每个map处理的最大最小的文件大小

splitSize=Math.max(minSize,Math.min(maxSize,blockSize))

mapred.max.split.size指的是数据最大分割单元大小（默认为256M)

mapred.min.split.size指的是数据最小分割单元大小（默认为1B)

可以通过参数mapred.map.tasks来设置期望的map个数，但是这个个数只有大于default_num的时候才生效

合理设置reduce的个数

reduce个数并不是越多越好

和map一样，启动和初始化reduce也会消耗时间和资源；

另外，有多少个reduce，就会有多少个输出文件，如果小文件过多，而这些小文件是下游的输入，则会造成小文件过多的问题

只有单一的reduce也不是很好，什么情况下会造成只有一个reduce呢?

很多时候你会发现不管任务中的数据量有多大，不管你有没有设置reduce的个数，任务总是只有一个reduce

其实，只有一个reduce的情况，除了数据量小于hive.exec.reducers.bytes.per.reducer的参数情况外，还有以下原因：

没有group by 的汇总
用了order by
有笛卡尔积

在未设置reduce个数的情况下，计算公式如下

reducers=Math.min(maxReducers,totalInputFileSize/bytesPerReduces)

maxReducers有参数hive.exec.reduces.max设置（默认999）

bytesPerReduces由参数hive.exec.reducers.bytes.per.reducer设置（默认是1G）

举个例子：
1、如果一个文件不超过1G，那么只有一个reduce

2、如果一个文件有8.2G,那么有9个reduce

3、如果一个文件有8.2G,调整hive.exec.reducers.bytes.per.reducer参数的值，比如set hive.exec.reducers.bytes.per.reducer=500000000；（500M)那么会有18个reduce产出

4、直接设置reduce个数

set mapred.reduce.tasks=15;就会有15个reduce产生

小文件合并

输入阶段合并(即在map前合并小文件)

1、执行map前进行小文件合并

需要更改Hive的输入文件格式，即参数hive.input.format，默认值是org.apache.hadoop.hive.ql.io.HiveInputFormat，我们改成 set org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

2、每个map最大输入大小，决定合并后的文件数

set mapred.max.split.size=256000000;

3、一个节点上split的至少的大小，决定多个data node 上的文件是否需要合并

set mapred.min.split.size.per.node=100000000;

4、一个交换机下split的至少的大小，决定多个交换机上的文件是否合并

set mapred.min.split.size.per.rack=100000000;

mapred.min.split.size.per.node和mapred.min.split.size.per.rack，含义是单节点和单机架上的最小split大小。如果发现有split大小小于这两个值（默认都是100MB），则会进行合并。具体逻辑可以参看Hive源码中的对应类。

输出阶段合并

直接将hive.merge.mapfiles和hive.merge.mapredfiles都设为true即可，前者表示将map-only任务的输出合并，后者表示将map-reduce任务的输出合并。

另外，hive.merge.size.per.task可以指定每个task输出后合并文件大小的期望值，hive.merge.size.smallfiles.avgsize可以指定所有输出文件大小的均值阈值，默认值都是1GB。如果平均大小不足的话，就会另外启动一个任务来进行合并。

shuffle过程优化

什么事shuffle，shuffle就是map端输出到reduce输入的过程

可能存在的问题

磁盘IO
网络IO

优化思路

减少各种IO

优化方法

中间结果压缩（集群默认是开启的）

开启压缩中间结果

set mapred.compress.map.output=true;

设置中间压缩算法

set mapred.compress.output.compresssion.codec=com.hadoop.compression.lzo.LzoCodec

Join优化

利用map join特性

如果两张表关联，一张表非常大，一张表非常小，可采用mapjoin，小表叫build table，大表叫probe table

小表放左边，开启hive.auto.convert.join=true(默认是开启的)

select /*+mapjoin(a)*/ a.event_type,b.upload_time
from calendar_event_code a
inner join (
  select event_type,upload_time from calendar_record_log
  where pt_date = 20190225
) b on a.event_type < b.event_type;

上面的语句中加了一条map join hint，以显式启用map join特性。早在Hive 0.8版本之后，就不需要写这条hint了。map join还支持不等值连接，应用更加灵活。

多表join时key相同

这种情况会将多个join合并为一个MR job来处理，例如：

select a.event_type,a.event_code,a.event_desc,b.upload_time
from calendar_event_code a
inner join (
  select event_type,upload_time from calendar_record_log
  where pt_date = 20190225
) b on a.event_type = b.event_type
inner join (
  select event_type,upload_time from calendar_record_log_2
  where pt_date = 20190225
) c on a.event_type = c.event_type;

如果上面两个join的条件不相同，比如改成a.event_code = c.event_code，就会拆成两个MR job计算。

负责这个的是相关性优化器CorrelationOptimizer，它的功能除此之外还非常多，逻辑复杂，参考Hive官方的文档可以获得更多细节：https://cwiki.apache.org/confluence/display/Hive/Correlation+Optimizer。

数据倾斜优化

什么是数据倾斜，就是大量相同的key被分到了一个分区中，导致出现"一人累死，其他人闲死"的情况。

数据倾斜的表现，任务进度长时间维持在99%（或100%），查看任务监视页面，发现只有少量（1个或几个）子任务未执行，因为其他处理的数据量和其他reduce差异过大，单一的reduce记录数和平均记录数差异过大，通常可能达到3倍甚至更多。最长时长也远大于平均时长

数据倾斜优化--group by

先不按group by字段分发，随机分发做一次聚合
额外启动一轮job，拿前面聚合过的数据按group by字段分发再算结果

空值或无意义值

这种情况很常见，比如当事实表是日志类数据时，往往会有一些项没有记录到，我们视情况会将它置为null，或者空字符串、-1等。如果缺失的项很多，在做join时这些空值就会非常集中，拖累进度。

因此，若不需要空值数据，就提前写where语句过滤掉。需要保留的话，将空值key用随机方式打散，例如将用户ID为null的记录随机改为负值：

select a.uid,a.event_type,b.nickname,b.age
from (
  select 
  (case when uid is null then cast(rand()*-10240 as int) else uid end) as uid,
  event_type from calendar_record_log
  where pt_date >= 20190201
) a left outer join (
  select uid,nickname,age from user_info where status = 4
) b on a.uid = b.uid;

不同数据类型

这种情况不太常见，主要出现在相同业务含义的列发生过逻辑上的变化时。

举个例子，假如我们有一旧一新两张日历记录表，旧表的记录类型字段是(event_type int)，新表的是(event_type string)。为了兼容旧版记录，新表的event_type也会以字符串形式存储旧版的值，比如'17'。当这两张表join时，经常要耗费很长时间。其原因就是如果不转换类型，计算key的hash值时默认是以int型做的，这就导致所有“真正的”string型key都分配到一个reducer上。所以要注意类型转换：

select a.uid,a.event_type,b.record_data
from calendar_record_log a
left outer join (
  select uid,event_type from calendar_record_log_2
  where pt_date = 20190228
) b on a.uid = b.uid and b.event_type = cast(a.event_type as string)
where a.pt_date = 20190228;

数据倾斜优化

join时存在数据倾斜，优化分为两大方面：

skew join
重写业务逻辑

skew join

set hive.Optimize.skewjoin=true

记录数超过参数hive.skewjoin.key（默认为100000）设置大小就是特殊值

如何排查任务是否正常

map个数
reduce个数
hdfs读数据量，扫全表
每个task读数据量：数据倾斜
长尾task
业务查询分析

常见问题

涉及到分区表时，未设置分区限制

内存不足发生阶段，找到是在哪个阶段发生的并处理，map阶段，shuffle阶段，reduce阶段

map阶段：

一般存在mapjoin
通过设置参数hive.auto.convert.join=false转为reduce端 common join

shuffle阶段：

由于map端输出较大，但shuffle端选择的是拷贝map输出到内存导致
降低单个shuffle能够消耗占reduce所有内存占比（set mapreduce.reduce.shuffle.memory.limit.precent=0.10）使shuffle阶段拷贝map输出时选择落磁盘

reduce阶段

单个reduce处理数据量过大
通过设置参数mapred.reduce.tasks或mapreduce.job.reduces修改reduce的个数
如果存在数据倾斜，单纯修改reduce个数没有用

解决方案

参数调节

set hive.map.aggr=true (用于设置是否在map端聚合，默认为true）
set hive.groupby.skewindata=true(决定group by 是否支持数据倾斜）

2.增加jvm内存

这适用于唯一值非常少，极少数值有非常多的记录值的情况，通过增加硬件资源进行调优

3.增加reduce的个数

这适用于唯一值非常多，这个字段的某些值有远远多于某些记录数，大量相同的key被partition到一个分区了，从而一个reduce执行了大量工作，而增加了reduce个数，相对来说会好一点，毕竟节点多了，就算工作了还是不均匀，那还是会好一点

4.自定义分区

需要用户继承partition类，指定分区策略，分区策略弄的号，效果会比较显著。

5.重新设计key

有一种方案是map时在key前面加一个随机数，避免造成热点问题。这样就不会大量的key都往一个节点，到了reduce端再把随机数去掉

如果还是出现数据倾斜。可以做以下处理

set hive.exec.reduces.max=200
set mapred.reduces.tasks=200;增大reduce个数
set hive.groupby.mapaggr.checkinterval=100000----这个是group 的健对应记录条数超过这个值会进行分拆，值根据具体数据量进行决定
set hive.groupby.skewindata=true ，如果group by 出现数据倾斜，应该设置为true。
set hive.skewjoin.key=100000 ,这个是join的健对应的记录条数如果超过这个值，会进行拆分，值根据具体数据量进行决定
set hive.Optimize.skewjoin=true，如果join出现数据倾斜，应该设置为true

启动一个job应该多做事情，一个job能完成的事，不要两个job来做。
合理设置reduce个数，不宜多，也不宜少，看自己的数据量和资源决定
使用 hive.exec.parallel 参数控制同一个sql中不同的job是否可以同时运行，提高作业并发

前面主要讲的是一些hive参数的设置，和集群方面的设计，下面主要讲下从sql层面上怎么进行优化，因为对于一个业务方来说，只需要写sql。而且sql的优化往往会大大的提高任务的执行效率

sql优化

1.使用相同的连接健

当对三个或者更多表进行join的时候，如果每个on条件都采用相同的条件，那么只会产生一个MapReduce job

2.尽量原子化操作

尽量避免一段sql包含复杂逻辑，可以采用中间表来完成复杂逻辑

3.用insert into 代替union all

如果union all 的部分大于2，或者每个union all的表数据量过大，应该拆分多个inset，测试表明，效率能提升50%

insert overwrite table tablename partition(ds=.....)
select * from (select ... from A 
union all select .... from B
union all select .... from C)R
where ....

改为
insert overwrite table tablename partition(ds=.....) select ... from A
insert overwrite table tablename partition(ds=.....) select ... from B
insert overwrite table tablename partition(ds=.....) select ... from C

4.空值或无意义值

过滤掉null值不连接

select * from log a join b on a.userId is not null and a.userId=b.userId
union all
select * from log where a.userId is null

函数过滤null

select * from log a join b on case when a.userId is null then cancat('hive',RAND())
else a.userId End =b.userId

方案一job数为2，方案2job数为1

5.不同数据类型

这种情况不太常见，主要出现在相同业务含义的列发生过逻辑上的变化时。

select a.uid,a.event_type,b.record_data
from calendar_record_log a
left outer join (
  select uid,event_type from calendar_record_log_2
  where pt_date = 20190228
) b on a.uid = b.uid and b.event_type = cast(a.event_type as string)
where a.pt_date = 20190228;

6.消灭子查询的group by

select * from(select * from A group by col1,col2
union all select * from B group by col1,col2)
group by col1,col2)

改为

select * from(select * from A 
union all select * from B)
group by col1,col2)

sort by代替order by

HiveQL中的order by与其他SQL方言中的功能一样，就是将结果按某字段全局排序，这会导致所有map端数据都进入一个reducer中，在数据量大时可能会长时间计算不完。

如果使用sort by，那么还是会视情况启动多个reducer进行排序，并且保证每个reducer内局部有序。为了控制map端数据分配到reducer的key，往往还要配合distribute by一同使用。如果不加distribute by的话，map端数据就会随机分配到reducer。

举个例子，假如要以UID为key，以上传时间倒序、记录类型倒序输出记录数据：

select uid,upload_time,event_type,record_data
from calendar_record_log
where pt_date >= 20190201 and pt_date <= 20190224
distribute by uid
sort by upload_time desc,event_type desc;

distribute by 控制map的数量
sort by 不是全局排序，只是会保证每个reduce有序
order by全局排序，但是只会有一个reduce
cluster by col1 等价于 distribute by col1 sort by col1

总结

观察hadoop的处理过程，有几个显著的特征：

不怕数据多，就怕数据倾斜
对job数比较多的任务，运行效率相对比较低，比如即使是一张只有几百行表的数据，多次关联汇总，产生十几个job，每半个小时是跑不完的。主要的map reduce作业初始化时间比较长
对于sum count这些函数，不存在数据倾斜
对count(distinct )，效率较低，数据一多，准出问题，特别是多个count(distinct) 效率更慢

优化可以从这几个方面入手

解决数据倾斜问题
减少job数
合理设置map reduce task的个数，能够提升效率（比如10W+的表，用120个reduce，相当浪费，用一个就够了）
尽量手写sql解决数据倾斜。set hive.groupby.skewindata=true是通用手法，有时候没有改进sql带来的效率提升大
不用count(distinct) 语法
小文件进行合并
优化时把握整体，单个作业最优不如整体最优

优化后的任务，效率提升不止提升了一点点。。。

开发过程中还是需要注意下语句使用的。。。

套用公司大佬的一句话。优化其实就是一个思路。需要计算的内容提前把数据量缩小。。

文章灵感主要来自是公司内部的分享，可能还有不足的点，欢迎大佬指点改进

共勉。。。。。

读书||陶新华《教育中的积极心理学》1—28 流水淙淙2022
读一本好书，尤如和一位高尚者对话，亦能对人的精神进行洗礼。但是若不能和实践结合起来，也只能落到空读书的状态。读书摘要与感想1、塞利格曼在《持续的幸福》一书中提出了幸福2.0理论，提出幸福由5个元素决定——积极情绪、投入的工作和生活、目标和意义、和谐的人际关系、成就感。2、人的大脑皮层在进行智力活动时，都伴有皮下中枢活动，对这些活动进行体验请假，并由此产生了情感解读。人的情绪情感体验总是优先于大脑的
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
坚持“三步走”，推动我国人权事业发展 Ariel_Yogurt
6月16日出版的第12期《求是》杂志将发表中共中央总书记、国家主席、中央军委主席习近平的重要文章《坚定不移走中国人权发展道路，更好推动我国人权事业发展》。尊重和保障人权，是中国共产党人的不懈追求。努力夯实理论基础。推动人权事业发展的第一步是理解人权。作为青年干部，要想在人权事业全民发展的新浪潮中站稳脚步，就应该积极接受人权理论学习，坚持以人民为中心的人权思想，深刻认识党的领导是中国特色社会主义人权
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
2022-05-22光印随思60学习要与现实打通无名之米8
20220522光印随思60学习要与现实打通今天在匆忙中完成了新网师课程的第七次预习作业。每次完成预习作业的过程都是一次艰难的学习，先要学习相关的文本和文件，了解作业需要的理论知识，之后需要把理论知识运用于实际工作和生活中。这也是学习的真正价值所在。在很多时候，会有这样的感觉，读了很多书为什么没有啥长进？现在回想应该就是，当只有阅读和感受，没有把阅读心得转化为文字，没有把阅读的知识运用到实际的场景
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
内经简介（上）骆长珊
哈喽大家好我是骆长珊今天是2017年1月9日，今天是我每天一篇文章的第四十八篇。最近在重温《黄帝内经》，我在不断记颂原文的过程也不断的找相关资料来看。最终目的，以教为学，写出自己知道的，提神自己的觉悟。黄帝内经》是我国传统医学四大经典著作之一（《黄帝内经》、《伤寒论》、《金匮要略》、《温病条辨》），也是第一部冠以中华民族先祖“黄帝”之名的传世巨著，是我国医学宝库中现存成书最早的一部医学典籍。在理论
这样共读一本书 eggplant
2021年10月6日星期三本期学校阳光管理轮训共读刘铁芳教授的《以教学打开生命——个体成人的教学哲学阐释》，这是继共读刘教授《什么是好的教育》之后的第二本书籍，这两本书籍都是有关教育的哲学书籍，应该说，《以教学打开生命——个体成人的教学哲学阐释》是《什么是好的教育》的延伸、丰富与升华，理论性更强，哲学意味更浓，对于一线教师来说，接触哲学类的书籍较少，在阅读上有些内容的理解有难度，但是，有难度才更值
python可以制作大型游戏_python能做游戏吗-python能开发游戏吗靖dede python可以制作大型游戏
python可以写游戏，但不适合。下面我们来分析一下具体原因。用锤子能造汽车吗？谁也没法说不能吧？历史上也确实曾经有些汽车，是用锤子造出来的。但一般来说，还是用工业机器人更合适对吗？比较大型的，使用Python的游戏有两个，一个是《EVE》，还有一个是《文明》。但这仅仅是个例，没有广泛意义。一般来说，用来做游戏的语言，有两种。一是C++。。一是C#。。Python理论上，不仅不适合做游戏，而是只要
前端CSS面试常见题剑亦未配妥前端面试前端 css 面试
边界塌陷盒模型有两种：W3C盒模型和IE盒模型，区别在于宽度是否包含边框定义：同时给兄弟/父子盒模型设置上下边距，理论上边距值是两者之和，实际上不是注意：浮动和定位不会产生边界塌陷；只有块级元素垂直方向才会产生margin合并margin计算方案margin同为正负：取绝对值大的值一正一负：求和父子元素边界塌陷解决父元素可以通过调整padding处理；设置overflowhidden，触发BFC子
教师资格考试中学《教育知识与能力》知识点｜高频考点汇总小山丘
温馨提示：更多汇总详情留言小编哦！！！认知过程之易混知识点剖析社会中心课程论情绪——重要考点皮亚杰教你带孩子斯金纳强化规律你的心理足够强大吗?教育心理学的效应德育有规律常考人物思想之夸美纽斯中学常考教学原则孔子及《论语》中的重要教育思想教育学创立阶段人物之赫尔巴特学习策略分类知识点梳理教师资格证辨析题作答思路综合课程的类型班杜拉的学习理论马斯洛需要层次理论记忆类型的四大分类柏拉图和他的《理想国》感
变频器：原理、应用及其在现代工业与生活中的节能与智能控制作用智能科技前沿人工智能科技生活单片机嵌入式硬件
创作不易，您的打赏、关注、点赞、收藏和转发是我坚持下去的动力！1.变频器的原理变频器（Inverter），是一种将固定频率的交流电（通常是50Hz或60Hz）转换为可变频率和电压的交流电的电气设备。其工作原理是基于电力电子技术和控制理论的应用，能够通过改变供给电机的电源频率来控制电动机的速度和扭矩。变频器的基本工作原理可以分为以下几个阶段：整流：首先，将输入的交流电（AC）通过整流器（通常是二极管
基于TRIZ的救援机器人轻量化设计天行健王春城老师 TRIZ 机器人
在救援机器人设计中，轻量化是一个至关重要的目标，它直接关系到机器人的便携性、运输效率以及在复杂环境中的作业能力。TRIZ理论为我们提供了一套系统化的工具和方法，用于解决设计过程中遇到的各种挑战，特别是在实现轻量化目标时，TRIZ能够帮助我们识别并消除设计中的冗余与低效部分，同时保留或增强其关键功能。具体如深圳天行健企业管理咨询公司下文所述：1.功能分析与矛盾识别TRIZ理论强调对系统功能的深入分析
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
2020.5.20【第三十八天打卡】 CY的好运很哇塞呦
2020.5.20【第三十八天打卡】：一、今日进度：1.会计直播课程：《经济法基础》两个小时，主要内容：经济法基础相关理论知识～纯理论的课程，加上心里的烦躁，完整地听完一节课，真的是太难为自己了，需要明天重新看一遍回放。2.读其他书7章。二、今日待进步：1.练字0%2.表格学习0%3.TED0%三、明日安排：（一）每日常规三件事：1.读书半小时2.练字半小时3.学习半小时（二）每日新增一事（兴趣工
读书：《精神病学的人际关系理论》-引言-人格理论家妤
1.基本观点：人际关系。沙利文认为，人的本质是人的社会性，这种社会性表现为人际关系。也就是说，人是人际关系的存在，人只有在人际情境中才能生存和发展。2.人格含义：人际情境的持久模式。沙利文将人格定义为：使人类生活具有特征的周期性人际情境的相对持久的模式。他说“每个人有多少种人际关系，它就有多少种人格。”3.人格动态过程：紧张与能量转化。沙利文认为人类具有趋于心理健康的动力，同时每个人都有减少内心紧
Matlab在工业机器人中的运用,基于MATLAB的工业机器人建模与仿真.docx weixin_34518801
摘要：机器人运动系统作为机器人系统中最重要的组成部分之一，其重要性不言而喻，因为它影响着机器人的主要性能，因此为了提高机器人的质量，对机器人进行运动学分析和仿真是不可或缺的。本次毕业设计主要对KUKA机器人的三维仿真进行了一系列的分析，主要是以下几个内容：(1)研究了机器人运动学仿真的背景意义及发展趋势。(2)通过对齐次坐标变换理论的研究,说明了KUKA机器人结构及参数,并且建立了相应的D-H参数
《刘润商业洞察力》：结构性张力飘皓宇
结构性张力是发现理想与现实的差距后忍不住缩小期望与现实之间差距的力量，它是增强回路系统里的“元动力”。这个原动力通常要靠我们自己的努力和奋斗来填平，也就是自驱动。自驱动除了使命以外，还可以靠外力吗？按照弗鲁姆的“期望理论”是可以建立员工个体的自驱力的。如果你用找“结构性张力”的视角找“元动力”，世界就不一样了。比如，美丽，是女孩子买漂亮衣服的元动力吗？准确地说，不是。和美丽之间的“差距”，才是。成
让真善美成为人格的中坚和个人IP标签 matou
大家都知道，价格围绕价值波动，这是符合逻辑的经济原理。一旦价格偏离了价值，作为生产价值的人就会焦虑不安，害怕价格会一路走低，自己的付出会打水漂。所以便产生了急功近利，希望价格波动小一些，希望价格上升快一些，甚至开始信奉价值应该围绕价格波动的理论。价格高蜂拥而上，价格降低又匆匆而退。忘了去创造价值，而是堕入焦虑，到处寻找收益高、前景好、风险低的项目。我们不惜牺牲健康、违背伦理、违反法律，只为先人一步
《你的顾客需要一个好故事》有感皮皮爱世界
“让顾客成为故事的主人公”，就是营销的终极秘籍。这也是今年罗胖的跨年演讲的“接口理论”的验证和诠释，我们必须要在我们与要解决的问题之间，找到接口，然后深度链接。顶级的营销是要打造一种闭环，简而言之就是发现或者挖掘痛点，然后构建思路和程序来解决痛点，而其中的角色定位，就是两方，即顾客和营销人员，现实中这种对立面的关系让营销加大了难度，顾客更多置身于产品之外，很难完全融入产品细节中，而通过这本书，我们
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
练就理论联系实际的真功夫 TBC
理论联系实际是中国共产党的三大作风之一，理论从实际中来，要到实际中去。理论不是唯一的真理，理论要在现实中接受实践的检验，才能更好地指导实践，理论脱离实际就会变成一种僵硬的教条，茶杯硬套锅盖，风马牛不相及。理论从实际中来，并接受实践的检验。理论是一种经验总结，是我们的指导手册，引导我们的方向盘，它能指引我们在贯彻落实工作中少走弯路。理论是前人阶段性工作的经验总结，它使得我们能站在“巨人的肩膀”上更为
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
《与爱逆行》二十九阿依迪
二十九蝴蝶理论喜迎奥运的热浪催开了2008年春天火红的花朵。Z大奥运开幕式入场式引导员的选拔也进入了白热化阶段，向天已经冲进了前四，离全国集训只有一步之遥了。她忙得更是见不到人影了。我没事的时候就到她宿舍楼下舍管大妈的小屋门口坐等，这样向天经过的时候，可以和她说上几句话。这天晚上，舍管大妈递给我一个饭盒：“你是等向天的吧，我该换班了，她回来的时候你把这个交给她吧。”打开看里面是饺子，心想向天人缘真
【这里是新疆】（2）“有效光照理论”下的新疆美好生活…… 拈花老夏
图片发自App【这里是新疆】（2）“有效光照理论”下的新疆人，及新疆人们的生活……（这一篇，最好在读完上一篇后进行！前面谈“有效光照”下的植物与作物，本篇谈人，其实本为一整体，但是太长，发不出来[撇嘴]）老夏每年游学南方各省，经常听人这么说：新疆人个子就是高大，结实……其实人也与一棵植物，一棵庄稼没有根本区别！作为生命个体的代表，决定人生命的，其实一是具有能量的、高质量的食物（国际医学及科学普遍认
学习的斑斓世界小白记录本
心仪的书总舍不得读完，总舍不得合上书放下。这本书写于2017年，是一本新书，通过刘秀老师读到了这本书，荣幸之极。以前读过华德福华德福教育的创始人鲁道夫斯坦纳的著作《斯坦纳给教师的建议》，了解到一些华德福的教育思想，一些教育理论性的，思想指导性的东西，让我眼前一亮，印象深刻。今天看到这么通俗易懂的华德福教育理念，以及详细贴地气的华德福的教育案例，让我觉得既兴奋又激动。华德福的教育来源于德国，这本书的
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

Hive优化

目录

减少处理的数据量

小文件合并

shuffle过程优化

Join优化

数据倾斜优化

数据倾斜优化

如何排查任务是否正常

常见问题

解决方案

如果还是出现数据倾斜。可以做以下处理

sql优化

总结

优化可以从这几个方面入手

你可能感兴趣的:(数仓理论,HIVE)