E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HIVE优化
大厂都在用的
Hive优化
作者|TMH_ITBOY原文|https://blog.csdn.net/LLJJYY001/article/details/113994130前言Hive作为大数据分析领域常用的仓库工具,即使是现在流式计算如火如荼背景下,Hive依然倍受各大厂商挚爱。使用Hive过程中,面对各种各样的查询需求,需要具有针对性的优化下面内容就给大家分别介绍下。1.启用压缩压缩可以使磁盘上的数据量变小,例如,文本文
大数据老哥
·
2023-03-26 21:00
30分钟掌握 Hive SQL 优化(解决数据倾斜)
HiveSQL几乎是每一位互联网分析师的必备技能,相信每一位面试过大厂的童鞋都有被面试官问到
Hive优化
问题的经历。
未来在这儿
·
2023-03-23 13:42
Hive
SQL
hive
hadoop
大数据
Hive调优
HiveSQL优化HiveSQL基本上适用大数据领域离线数据处理的大部分场景.HiveSQL的优化也是我们必须掌握的技能,而且,面试一定会问.那么,我希望面试者能答出其中的80%优化点,在这个问题上才算过关.
Hive
OverLight
·
2023-03-12 19:40
Hive优化
篇-Hive数据存储格式
前言本文讲解Hive的数据存储,是Hive操作数据的基础。选择一个合适的底层数据存储文件格式,即使在不改变当前HiveSQL的情况下,性能也能得到数量级的提升。这种优化方式对学过MySQL等关系型数据库的小伙伴并不陌生,选择不同的数据存储引擎,代表着不同的数据组织方式,对于数据库的表现会有不同的影响。Hive数据存储常用的格式如下:行式存储文本格式(TextFile)二进制序列化文件(Sequen
顶尖高手养成计划
·
2023-02-18 07:47
Hive
hive
大数据
hadoop
hive优化
(2020-03-10)
合理的分区分桶来达到优化如果小文件太多,建议开启小文件合并的配置项,可以有效减少maptask的数量shuffle在所难免,采用合适的压缩格式来避免太多的网络传输,达到优化
梦境中_i
·
2023-01-31 23:42
flume kafka hive spark flink笔记
六:
hive优化
七:hive存
小梦爱学习
·
2022-12-26 08:19
kafka
flume
hive
HIVE优化
:语句、参数、表结构优化
文章目录map相关配置reduce相关配置表结构分区分桶索引列筛选语句优化大表join小表:Replicationcount(distinct)表过滤参数优化with语句向量运算Hintmapjoinmap端预聚合文件压缩合并小文件作业并行相关性优化本地执行Fetch抓取其他连接优化器其他相关查看SQL执行计划show:查看信息desc:描述库表信息load:数据加载export命令showcon
爱弥儿er
·
2022-12-23 10:36
SQL
hive
大数据
hadoop
HIVE优化
hive优化
基础1
1.
hive优化
基础1开启分桶sethive.enforce.bucketing=true;设置reduce个数setmapreduce.job.reduces=3;hive表->orc和parquet
大道独行之BIGDATA
·
2022-12-23 10:06
hive
hive
hadoop
Hive的优化
Hive优化
列裁剪和分区裁剪谓词下推sortby和orderbygroupby和distinctg
keepHungery
·
2022-12-23 10:34
Hive学习
hive
Hive优化
https://zhuanlan.zhihu.com/p/165343463?utm_source=wechat_session&utm_medium=social&utm_oi=1118145344197935104目录减少处理的数据量合理的设置map、reduce数量小文件合并Shuller过程优化join优化数据倾斜优化减少处理的数据量分区裁剪为了尽早的过滤掉数据,减少每个阶段的数据量,对于
吃鱼的羊
·
2022-12-23 10:33
数仓理论
HIVE
「Hive进阶篇」详解存储格式及压缩方式
一、前言
hive优化
除了有hql语句逻辑优化,hql参数调优等等,还有一个不起眼的细节容易被忽视掉,那便是hive数仓模型表的存储格式和压缩方式,hive底层数据是依托在hadoop,以HDFS文件存储在集群上的
大数据阶梯之路
·
2022-12-16 21:01
hive
hadoop
大数据
hive优化
(数据倾斜)
#
hive优化
(数据倾斜)#问题描述:倾斜小文件join大文件内容倾斜JOBS多joinunionsub_querycount(distinct)建议使用groupby,因为在hive底层中,自带对groupby
lucky乐琪
·
2022-08-10 13:06
HIVE
hive
hive数据倾斜及优化
文章目录前言一、hive转化为MapReduce过程二、hive数据倾斜1.数据倾斜是什么2.数据倾斜的原因3.数据倾斜的底层原理三.
hive优化
3.1架构优化3.2参数优化3.3SQL优化前言Hive
小陈CZY
·
2022-08-10 13:03
hive
大数据
HIVE优化
和数据倾斜、合并小文件
HIVE优化
和数据倾斜、合并小文件执行计划(explain)Fetch抓取本地模式小表join大表(MapJoin)大表join大表空值异常key需要过滤空值非异常需要转换Groupby优化笛卡尔积行列过滤合理设置
吃再多糖也不长胖
·
2022-08-10 13:00
hive
hive
大数据
hadoop
Hive优化
语句
hive建表设计层面1.使用分区表优化分区表是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如果筛选条件里有分区字段,那么Hive只需要遍历对应分区目录下的文件即可,不需要遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。也就是说:当一个Hive表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适合创建为分区表,该字段即为分区字段。2.使用分桶表优化跟分区的概念很
lz_N_one
·
2022-07-28 10:41
数据仓库
Hive基础
hive
hadoop
大数据
「Hive进阶篇」万字长文超详述hive企业级优化
肝了几个晚上,梳理总结了一份万字长文超详述hive企业级优化文章,也整理了一份
hive优化
总结思维导图和
hive优化
详细PDF文档,有需要可关注公众号《大数据阶梯之路》找小编获取,学习和复习都是绝佳,公众号不断分享技术相关文章
大数据阶梯之路
·
2022-07-18 09:38
关于Hive中的存储格式及压缩格式详解
Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件存储格式及压缩方式,也是
Hive优化
的一个重点。
Keven He
·
2022-07-12 09:51
#
Hive
hive
hadoop
big
data
数据仓库理论与实践
维度建模的步骤二、数据采集2.1通用数据采集框架2.2日志服务器日志采集工具(Flume)三、Hive离线数仓实践3.1数仓分层与意义3.2ODS层3.3DWD层3.3DWS层3.4ADS层四、用户画像系统五、
Hive
oahaijgnahz
·
2022-07-04 12:51
大数据相关
面试
flink
hadoop
大数据
经验分享
数据仓库
HiveSQL优化方法
Hive调优集锦Hive/HiveSQL常用优化方法全面总结关于
Hive优化
的四种方法总结HiveSQL优化Hive数据倾斜问题Hive常见的数据倾斜及调优技巧HiveSQL排序Hive作为大数据领域常用的数据仓库组件
天线嘟嘟茄
·
2022-06-15 14:14
hive优化
大全(hive的优化这一篇就够了)
文章目录写在前面一、概述1.1数据倾斜1.2MapReduce二、产生原因三、解决方案和避免方案3.1Hive语句初始化配置3.1.1join过程的配置3.1.2mapjoin过程的设置3.1.3combiner过程3.1.4groupby过程3.1.5map或者reduce过程3.1.6mapper设置3.1.7reducer设置3.1.8存储与压缩格式3.1.9动态分区3.1.10并行执行jo
绝域时空
·
2022-03-20 07:53
大数据框架的源码笔记
大数据组件
hive
hadoop
big
data
数据倾斜
语句优化
hiveSQL的执行顺序以及
hive优化
前段时间在面试橙鹰数据的时候被问了一道SQL执行顺序的题目,之前虽然写过很多sql,但是没有从一个更高的视角来看自己写的代码,更不要提该如何优化了。随着数据量的增大,掌握sql的执行原理并进行优化是一项非常必要的技能。这篇文章会对一个sql语句的执行顺序进行总结,并进一步推导出可以优化的点。因为工作时以hivesql为主,所以本文以hivesql进行讲解。hive是基于Hadoop的MapRedu
YFSZ
·
2022-02-07 11:57
Hive性能调优实战读书笔记
文件块大小输入文件划分与Map数量(3)数据格式SequenceFile二进制key/value结构平面分拣Parquet列式数据存储格式ORC优化RCFile存储,主流选择(4)表设计分区、分桶2、
hive
kaiker
·
2022-02-04 20:50
大数据开发之
Hive优化
篇5-使用ORC文件格式优化Hive
备注:Hive版本2.1.1如果使用Hive作为大数据仓库,强烈建议主要使用ORC文件格式作为表的存储格式一.ORC文件格式概述ORC(OptimizedRowColumnar)文件格式为Hive数据提供了一种高效的存储方式。它的设计是为了克服其他Hive文件格式的限制。使用ORC文件可以提高Hive读写和处理数据时的性能。例如,与RCFile格式相比,ORC文件格式有很多优点,如:单个文件作为每
只是甲
·
2022-02-03 18:14
hive积累大全
此篇内容:hive自定义函数UDF、UDTF,压缩存储方式,
hive优化
、hive实际编程基本涵盖了hive基础及常用场景,输出这篇单纯是为了忘记了时候可以有地方翻看查找。
大数据阶梯之路
·
2021-10-21 11:36
Hive优化
一、修改引擎默认处理引擎是MapReduce可以修改处理引擎位Spark修改为Spark引擎后速度提升10多倍二、参数设置2.1、启动时提示下面需要设置Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.bytes.per.reducer=Inordertolimitthemaximumnumberofre
·
2021-08-01 10:13
hive
大数据之HIVE的优化
理解hadoop的核心能力,是
hive优化
的根本长期观察Hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
TOTinker
·
2021-06-09 23:35
码农周刊分类整理 -- H
HADOOP[PPT]
Hive优化
以及执行原理(杨新彦)腾讯大规模Hadoop集群实践(翟艳堂)系列文章:跟着实例学习ZooKeeper的用法(@colobu)[PDF]Hadoop源代码分析(@童燕群
harrytsz
·
2021-06-07 21:29
Hive优化
笔记
1.hive参数优化1.1map个数优化map的个数是如何决定的:mapred.min.split.size:数据的最小分割单元大小,默认值是1Bmapred.max.split.size:数据的最大分割单元大小,默认值是256MB一个文件在执行数据处理的时候,被分成文件的个数如下:if(一个文件的大小=min.split.size>=min.size.per.node>=min.size.per
zhglance
·
2021-06-01 19:41
##[优化]
hive优化
总结
hive优化
总结-上帝之手-博客频道-CSDN.NEThttp://blog.csdn.net/preterhuman_peak/article/details/40649213Hadoop的计算框架,
葡萄喃喃呓语
·
2021-05-06 02:05
Day13:
Hive优化
及数据倾斜
知识点01:回顾知识点02:目标知识点03:Hive函数:多行转多列知识点04:Hive函数:多行转单列知识点05:Hive函数:多列转多行知识点06:Hive函数:多列转单行知识点07:Hive函数:反射函数知识点08:Hive函数:Python脚本知识点09:Hive函数:JSON处理知识点10:Hive函数:窗口聚合函数知识点11:Hive函数:窗口位置函数知识点12:Hive函数:窗口分析
保护胖丁
·
2021-05-05 22:48
大数据
java
数据仓库
hive
9、
Hive优化
Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT*FROMemployees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是mini
ZFH__ZJ
·
2021-05-05 18:05
Hive优化
之小文件问题及其解决方案_lavimer-CSDN博客
小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HDFS中,每个小文件对象约占150byt
·
2021-04-14 16:00
Hive调优 | Hive常见的几种优化模式
本文就介绍那些耳熟但不能详的几种
Hive优化
模式。
大数据技术架构
·
2021-04-05 08:32
大数据开发之
Hive优化
篇1-Hive 优化概述
备注:Hive版本2.1.1文章目录一.Hive的实现原理二
Hive优化
2.1选择合理的存储格式和压缩格式2.2MRJob优化2.3Join优化2.3.1MapJoin优化2.3.2SMBJoin优化2.4
只是甲
·
2021-01-19 09:28
大数据和数据仓库
#
Hive
hive优化
之distinct转group by实战
说明:一个公司有多个业务biz_id,每个业务收款的时候通过不同或者相同的account去收款业务需要需要计算出该公司有过滤重复后biz_count和过滤重复后的account_count1先来个distinct,占用内存,容易oom,所以一般都会把distinct改为groupbyselectcompany_name,count(distinctbiz_id),count(distinctacc
cclovezbf
·
2020-12-29 16:25
hive
hive
distinct
group
by
hive优化
和数据倾斜解决方案
Hive优化
一、常见的Hive的优化方式有哪些二、表的优化三、如何防止数据倾斜3.1、产生数据倾斜的原因3.2、数据倾斜通用的处理方法3.3、产生数据倾斜的场景和解决方案3.3.1groupby产生数据倾斜
xiaoxaoyu
·
2020-12-17 19:44
Hive
数据倾斜
hive
hive优化
企业级调优Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT*FROMemployees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认
MosesDon
·
2020-12-09 21:45
hive
hive优化
企业级调优Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT*FROMemployees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认
MosesDon
·
2020-12-09 21:44
hive
技本功|
Hive优化
之监控(三)
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的一个点,因此掌握一些Hive调优是必不可少的技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要是从监控运维的角度对Hive进行整体性能把控,通过对hive元数据监控,提前发现Hive表的不合理
云掣科技
·
2020-11-24 21:28
运维
mysql
大数据
优化
云服务
技本功|
Hive优化
之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优
云掣科技
·
2020-11-24 21:24
大数据
hive
spark
技本功|
Hive优化
之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线数仓的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要结合实际业务情况,在使用Spark作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优
云掣科技
·
2020-10-09 12:10
大数据
hive
spark
hive优化
之-控制hive任务中的map数和reduce数
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块
flyeagle88
·
2020-09-15 19:23
hadoop
hive sql 优化
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
仲景武
·
2020-09-15 12:01
hive
大数据之
Hive优化
1压缩与存储1.1Hadoop压缩配置通过Hadoop命令可查看当前支持的压缩方式:[
[email protected]
]$hadoopchecknative20/09/1316:03:51INFObzip2.Bzip2Factory:Successfullyloaded&initializednative-bzip2librarysystem-native20/09/1316:
yutao_Struggle
·
2020-09-15 06:50
big
data
大数据
hive
Hive中小表与大表关联(join)的性能分析zz
其实
hive优化
的建议是多表关联的时候将大表放在后面,因为前面的关联结果要放入内存。不过博主文章本身写的也不错。
TechChan
·
2020-09-15 00:08
Hadoop
Hive 实战优化策略
2018-06-14更新:更新8Hive在大数据执行时,真的是很慢,跑一张表经常就是跑几个小时,一天下来跑不了几张表,通过一段时间学习,总结几个常用的
Hive优化
方法,希望对新手有点帮助,我也是新手,博客存在问题的地方
三印
·
2020-09-14 23:03
Hive
13_
Hive优化
Hive优化
要点:优化时,把hivesql当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是
hive优化
的根本。
weixin_34393428
·
2020-09-14 23:40
hive优化
策略
优化一:开启本地模式对于小数据集,执行时间可以明显被缩短。如果是单次任务开启本地模式的话,那么可以直接在命令行里执行下面set语句,然后再执行hql语句。如果当前用户想将自己的任务启动本地模式,则可以将下面的配置写到$HOME/.hiverc文件里(因为每次hive启动都会去加载执行.hiverc里的命令。)如果希望所有的用户都使用这个配置,那么将下面的配置直接写到hive-site.xml文件里
浮萍人生丶
·
2020-09-14 22:37
Hive优化
原则-策略-过程简述(持续更新完善中)
原则优化时把握整体,单个作业最优不如整体最优合理控制mapreduce数量减少job数量(合并,大的分拆)合并小文件避免倾斜从表连接的角度优化:尽量使用内连接,因为内连接是两表都满足的行的组合,而外连接是以其中一个表的全部为基准从索引的角度优化:对那些常用的查询字段简历索引,这样查询时值进行索引扫描,不读取数据块可以在查询的过程中减少不必要的分区,字段好Hadoop的首要任务是增大每次任务所搭载的
斜月明寒草
·
2020-09-14 22:47
大数据
hive
Hive----4.Hive 优化策略
Hive优化
策略1、Hadoop框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。
XiaodunLP
·
2020-09-14 21:39
Hive
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他