E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HIVE优化
总结:Hive,Hive on Spark和SparkSQL区别
HiveonMapreduceHive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看
Hive优化
方法可以看看我总结的这篇Hive
哈士奇说喵
·
2017-08-04 22:07
Hadoop
Spark
Hive
hive优化
一、Hadoop框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的3、sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题4、count(distinctuser
fanren224
·
2017-07-21 17:38
大数据
hive优化
总结
1、列裁剪、分区裁剪只查询需要的字段和分区,不使用select*2、join优化小表放左边3、空值处理(1)NULL和数字相加的问题,为避免这种情况先nvl或者coalesce先处理(2)NULL值关联时,可排除掉不参与关联,也可随机分散开避免倾斜4.排序优化不需要全局排序时,可用distributebysortby而不用orderby5.去重优化根据实际需要,用groupby替换distinct
安金龙
·
2017-06-11 11:22
Hive
Hive优化
一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。案例:SELEC
艾伦蓝
·
2017-04-11 11:14
Hive优化
学习(join ,group by,in)
[color=red][b]一、join优化[/b][/color]Join查找操作的基本原则:应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的j
艾伦蓝
·
2017-04-05 18:45
Hadoop
Hive
Hive 优化参数
HIVE优化
参数hive>set;_hive.hdfs.session.path=/tmp/hive/root/bd4f450f-2f3f-460d-8539-5ee573701e59_hive.local.session.path
小徐xfg
·
2017-03-13 21:21
hive
hive优化
学习笔记:
hive优化
1.join查询操作的基本原则:应该将条目少的表/子查询放在join操作符的左边,原因是在join操作的Reduce阶段,位于join操作符左边的表内容会被加载进内存,将条目少的表放在左边
一米三的老阿姨
·
2016-11-28 12:23
hive
hbase和hive的一些调优心得
Hive优化
:1、开启limit,防止过多的数据查询造成时延2、开启严格模式,禁止三种模式的查询(查询全部分区而没有where限制、使用orderby查询而没有limit限制,表联结使用on以限制笛卡儿积的查询
do_what_you_can_do
·
2016-11-20 16:13
20161120
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
dashabiooo
·
2016-10-26 14:19
hive
Hive中小表与大表关联(join)的性能分析
阅读更多经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询
x10232
·
2016-10-26 14:00
Hive优化
--定位调优指导
1.1.日志搜集1.1.1.HiveServer日志获取Hive调优需要看HiveServer的运行日志及GC日志。HiveServer日志路径为:HiveServer节点的/var/log/Bigdata/hive/hiveserver/。文件名日志内容hive.logHiveServer运行日志hive-omm-gc.log.0.currentHiveServerGC日志1.1.1.MapRe
CristianT
·
2016-10-20 23:56
Hive
Hive优化
--关键参数及HQL案例
1.关键参数及HQL案例1.1.当输入数据量较大时减小Map处理的最大数据量已知表midsrc有1.5亿条记录,如下:分别设置map处理最大数据量为1024000000、512000000、256000000、128000000观察以下语句的执行情况。统计信息如下:Map处理的最大数据量Mapper数执行时长(秒)10240000005117.098512000000967.62256000000
CristianT
·
2016-10-20 23:51
Hive
Hive优化
--关键参数配置指导
1.关键参数配置指导1.1.Container内存相关1.1.1.map的内存大小【参数值】mapreduce.map.memory.mb【参数解析】map任务的内存限制。【如何调优】默认:4096MBmapreduce.map.memory.mb控制每个map任务的内存大小,默认值为4G,对于当前任务是内存密集型任务(如ORC文件读取/写入、全局排序)的场景,建议增大内存值,但不能超过yarn.
CristianT
·
2016-10-20 23:16
Hive
Hive优化
--分区表与分桶表
1.根据业务特征创建分区表使用分区表能有效地分隔数据,分区条件作为查询条件时,减少扫描的数据量,加快查询的效率。如果业务数据有明显的时间、区域等维度的区分,同时有较多的对应维度的查询条件时,建议按照相应维度进行一级或多级分区。2.根据业务特征创建分桶表分桶的目的是便于高效采样和为BucketMapJoin及SMBJoin做数据准备。对于Hive表有按照某一列进行采样稽核的场景,建议以该列进行分桶。
CristianT
·
2016-10-20 23:43
Hive
Hive优化
--文件格式
1.Hive调优前相关规划设计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供HiveSQL(简称HQL)查询功能,可以将HQL语句转换为MapReduce、Tez、Spark任务运行。本文仅讨论HiveonMapReduce的性能调优场景。在进行Hive参数调优和SQL调优之前,要进行相应的规划设计,包括:Hive表使用高效的文件格式,Hive表文件
CristianT
·
2016-10-20 23:47
Hive
关于
Hive优化
的四种方法总结
问题导读:1、Hive整体架构优化点有哪些?2、如何在MR阶段进行优化?3、Hive在SQL中如何优化?4、Hive框架平台中如何优化?一、整体架构优化现在hive的整体框架如下,计算引擎不仅仅支持Map/Reduce,并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存储系统。整体架构优化点:1、根据不同业务需求进行日期分区,并执行类型动态分区。相关参数设置:0.14中
javastart
·
2016-08-31 19:25
hive
Hive解决SQL的join or
在处理数据时,遇到joinon的条件有多个,然而hive不支持onor,因此问了度娘,找了google才发现这东西还涉及
hive优化
,吭哧了一下午终于弄出来,心情豁然开朗,希望本文能帮到遇到难题的你们。
筱Mary
·
2016-08-02 16:18
Hive
大数据入门
Hive 优化 (important)
理解hadoop的核心能力,是
hive优化
的根本。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
秉寒CHO
·
2016-06-13 00:10
Hive
09-Hive查询操作Distributed by 和sort by
很多人都说Hive语法很简单,跟写sql语句差不多,但是
hive优化
就比较难了,这一点我也感觉到了。那设置mapjoi
自我再教育
·
2016-06-06 21:42
Hive
【性能优化】
Hive优化
1.概述继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。
显天
·
2016-06-06 16:50
大数据
hive优化
记录----合并小文件压缩输出
Hive简要介绍Hive是基于Hadoop的数据仓库平台,由Facebook贡献,其支持类似SQL的结构化查询功能。Hive的组件总体上可以分为以下几个部分:用户接口(UI)、驱动、编译器、元数据(Hive系统参数数据)和执行引擎。1)对外的接口UI包括以下几种:命令行CLI,Web界面、JDBC/ODBC接口;2)驱动:接收用户提交的查询HQL;3)编译器:解析查询语句,执行语法分析,生成执行计
djd已经存在
·
2016-06-03 19:39
hive学习
hive学习之三:项目中的
hive优化
实践
1.小表放入内存,在map端join,并不是所有聚合操作都在reducer端操作,慎重使用mapjoin,一般行数小于2000行,大小小于1M2.hive.groupby.skewindata变量从上面groupby语句可以看出,这个变量是用于控制负载均衡的。当数据出现倾斜时,如果该变量设置为true,那么Hive会自动进行负载均衡。当该变量设为true时候,不可以使用distinct关键字对多列
anickname
·
2016-05-17 21:49
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那
xuguokun1986
·
2016-04-25 20:00
hive优化
原则
转载:http://blog.sina.com.cn/s/blog_9f48885501017cq8.html使用过hive一段时间,发现楼主讲的非常正确。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10 andB.userid10
levy_cui
·
2016-04-13 14:00
Hive优化
的五种方式
hive执行优化:1.使用tez[codelanguage=”SQL”]sethive.execution.engine=tez;[/code]设置以上属性后,每次hive查询都会利用tez执行任务。2.使用ORCFile存储数据Hive支持ORCFile, [codelanguage=”SQL”] CREATETABLEA_ORC(customerIDint,namestring,ageint,
amazon10
·
2016-03-15 10:05
优化
hive
Hive优化
总结
1.Hive表优化1.1分区分区是以字段的形式在表结构中存在,通过describetable命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。1.1.1静态分区createtableifnotexiststablename(idint,namestring,telstring) partitionedby(dtstring) rowformatdelimited
Xw_Classmate
·
2016-03-12 19:00
hive优化
Hive 12、
Hive优化
理解hadoop的核心能力,是
hive优化
的根本。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
拉斐尔[Raphael]
·
2016-02-26 20:00
Hive优化
技巧
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhere
·
2016-02-17 17:00
优化
hive
Hadoop 统计一个目录的文件大小
xd502djj/p/3799432.htmlHadoopHive基础sql语法http://www.cnblogs.com/HondaHsu/p/4346354.htmlmap和reduce 个数的设定 (
Hive
wspiderw
·
2016-02-04 21:08
hive优化
--增加减少map数
如何合并小文件,减少map数?假设一个SQL任务:Selectcount(1)frompopt_tbaccountcopy_meswherept=‘2012-07-04’;该任务的inputdir/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件,其中很多是远远小于128m的小文件,总大小
yntmdr
·
2016-02-02 10:54
hive
hive优化
之-控制hive任务中的map数和reduce数
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128
wspiderw
·
2016-02-02 09:33
Hive优化
之小文件问题及其解决方案
小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。 小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HDFS中,每个小文件对象约占150by
importdate
·
2016-01-31 17:00
Hive优化
概述:一个Hive查询生成多个mapreduecjob,一个mapreducejob又有map,reduce,spill,Shuffle,sort等几个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会分细节),针对MR全局的优化,和针对整个查询(多MRjob)的优化,下文会分别阐述。在开始之前先把MR的流程图贴出来(摘自Hadoop权威指南),方便后面对照。另外要说明
importdate
·
2016-01-31 17:00
hive参数——深入浅出学Hive(五)
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理第一部分:Hive
东方神剑
·
2016-01-15 10:00
hive
Hive JDBC——深入浅出学Hive(四)
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理第一部分:搭建
东方神剑
·
2016-01-15 00:00
hive
Hive 内建操作符与函数开发——深入浅出学Hive(三)
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理第一部分:关系运算
东方神剑
·
2016-01-13 18:00
hive
初始Hive —— 深入浅出学Hive(二)
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理第一部分:软件准备与环境规划
东方神剑
·
2016-01-13 15:00
hive安装
初始Hive —— 深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理第一部分:Hive
东方神剑
·
2016-01-13 15:00
hive
关于
hive优化
的补充和重新描述
join优化 1小表在保证在map段join过滤大量数据 2自动开启map段join,设置hive.mapjoin.smalltable.filesize大小,在这范围内为小表自动mapjoin 3自联结采用groupby替换join操作Reducer数量 了解:hive.exec.reducers.bytes.per.reducer(默认是1GB)和hive.exec.reducer.
osenlin
·
2015-12-27 23:00
Hive优化
_1. 数据文件优化篇
之前转载了一篇。博主总结的很不错。这里本人将自己平时积累的资料汇总了一下,来补充一下这篇文章:针对方法上篇的优化方法1,2,3主要建立在Hive触发了一个MapReduceJob。但是我们都知道,启用MapReduceJob会消耗系统开销的(从我这篇博文Hive_4.DDL--数据库&内部表&外部表可以发现当使用Like关键词的时候效率比CTAS要快很多倍)。对于这个问题,Hive从0.10.0版
Mike_H
·
2015-12-02 13:08
Hive
Hadoop
优化
hive优化
1、sethive.auto.convert.join=true设置此参数可以在最大表通过mapper的时候将小表完全放入内存中,从而省略掉常规reduce过程,有时可以减少map过程步骤,启动时执行优化放入$HOME/.hiverc文件中用户可以配置小表大小(字节)hive.mapjoin.smalltable.filesize=25000000hive对于右外连接和全外链接不支持这个优化2、s
yntmdr
·
2015-12-01 19:41
hive优化
Hive性能优化
无意间在部门的svn看到以前老员工的
Hive优化
文档,看看了,写的挺详细的,结合hadoop In action(陆) 一书的内容在这里做个汇总 1,列裁剪
·
2015-11-13 20:00
hive
hive优化
要点总结
个人认为总体两种思想: 1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标 再好的硬件没有充分利用起来,都是白扯淡。 比如: (1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要. (2) 合理
·
2015-11-13 09:45
hive
hive优化
之------控制hive任务中的map数和reduce数
转自:http://superlxw1234.iteye.com/blog/1582880 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hiv
·
2015-11-13 09:57
reduce
hive优化
之--控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改)
·
2015-11-12 15:05
reduce
Hive优化
一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与joi
·
2015-11-12 09:03
hive
Hive优化
一、 Hive join优化 1. 尽量将小表放在join的左边,我们使用的Hive-0.90,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小
·
2015-11-12 09:58
hive
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数 1. 本地模式(小任务):需要满足以下条件: 1.job的输入
·
2015-11-11 17:56
hive
[
Hive优化
] 之 MapJoin
根据mapjoin的计算原理,MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情况下即使笛卡尔积也不会对任务运行速度造成太大的效率影响。 mapjoin的应用场景如下: 1.有一个极小的表<1000行 2: 需要做不等值join的where操作(a.x < b.y 或者 a.x like b.y等,注:目前版本join下
·
2015-11-11 16:55
hive
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. &
·
2015-11-11 07:08
reduce
上一页
2
3
4
5
6
7
8
9
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他