E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hive优化
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
qq85609655
·
2014-08-25 03:00
JOIN
hive
性能分析
HIVE优化
提示-如何写好HQL
一、 Hivejoin优化1. 尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行mapsidejoin(性能好),这是由参数hive.auto.convert.join=true和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可以适当调整此参数,
today20080808
·
2014-08-15 17:00
优化
HQL
hive
hive sql优化
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
达达喜羊羊
·
2014-07-28 17:50
hive表关联性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
ZHXIA
·
2014-06-29 20:00
转 > map和reduce 个数的设定 (
Hive优化
)经典
map和reduce个数的设定(
Hive优化
)经典 一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。
ZHXIA
·
2014-06-29 20:00
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么had
zq602316498
·
2014-05-30 12:00
sql
hive
大数据
hive优化
之------控制hive任务中的map数和reduce数
文章源地址:http://superlxw1234.iteye.com/blog/1582880关于hive选项:hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat,cdh4版的hive0.10默认已经设置合并,但文件块大小是256M,需要根据自己的情况设置.hive>setmapred.max.split.s
ljq32
·
2014-05-14 16:00
hadoop
hive
hive优化
思路
转载:http://blog.csdn.net/johnny_lee/article/details/8867632最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了),当时使用的0.8的版本(现在最新版本是0.8.1),一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等,一一都体验了一把!总的来说,除了目前网上所介绍的常规hive使用和优化外。因为目前hiv
An342647823
·
2014-05-13 13:00
hive优化
原则
转载:http://blog.sina.com.cn/s/blog_9f48885501017cq8.html使用过hive一段时间,发现楼主讲的非常正确。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid10)ajoin(sel
forever_ai
·
2014-05-13 13:24
hive
hive优化
原则
转载:http://blog.sina.com.cn/s/blog_9f48885501017cq8.html使用过hive一段时间,发现楼主讲的非常正确。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10 andB.userid10
An342647823
·
2014-05-13 13:00
Hive优化
使用Hive有一段时间了,目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢。 Reduce过程比较慢的现象又可以分为两类:情形一:map已经达到100%,而reduce阶段一直是99%,属于数据倾斜情形二:使用了count(distinct)或者groupby的操作,现象是reduce有进度但是进度缓慢,31%-32%-34%.
TonyLee0329
·
2014-05-08 10:00
优化
hive
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
维尼弹着肖邦的夜曲
·
2014-05-02 21:37
mapreduce优化
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那
atco
·
2014-04-15 16:00
转-Hive QL——深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理配套视频课程第一部分
jiaaq2008
·
2014-04-12 10:13
Hive
Hive导入10G数据的测试
目录导出MySQL数据导入到
Hive优化
导入过程HiveBucket执行查询1.导出MySQL数据下面是我的表,每天会产生一新表,用日期的方式命名。今天是
郑云飞
·
2014-04-09 23:00
hive
hive调优
(当然我们可以在写hive语句的时候,可以看看hive是怎么把sql语句编程mapreduce的)理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
lixiyuan
·
2014-04-01 15:00
Hive优化
Hive性能调校提高Hive总体性能的若干技巧本报告主要就如何提高Hive执行的总体性能进行了调研,下面以分条的形式列举出来。1.设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggreg
stevie
·
2014-03-25 11:14
云计算
hive
Hive优化
----各种参数的设置
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMITn语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1.本地模式(小任务):需要满足以下条件:1.job的输入数据大小必须小
stevie
·
2014-03-25 11:38
hive
map和reduce 个数的设定 (
Hive优化
)经典
一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块
寂寞烟
·
2014-03-18 17:31
map和reduce
个数的设定
Hiv
hive
hive优化
方式和使用技巧
转载:http://blog.csdn.net/z_l_l_m/article/details/8773505#t4谢谢分享,非常实用.部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1.基本UDF(1)SHOWFUNCTIONS:
An342647823
·
2014-03-14 18:00
Hive 内建操作符与函数开发
Hive内建操作符与函数开发目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构
oaimm
·
2014-03-12 15:40
hive
hive优化
之-控制hive任务中的map数和reduce数
一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块
龙明倩
·
2014-03-07 15:42
Hive
Hive优化
总结
转载:http://sznmail.iteye.com/blog/1499789长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。mapreduce作业初始化的时间是比较长的。3.对sum,count来说,不存在数据倾斜问题。4.对c
blue大数据
·
2014-02-24 19:41
hive
Hive中小表与大表关联(join)的性能分析
转载:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快
blue大数据
·
2014-02-24 19:28
hive
hive优化
之------控制hive任务中的map数和reduce数
转载自:http://www.dataguru.cn/article-3269-1.html一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a
q79969786
·
2014-02-20 10:33
hadoop相关
Hive调优实战
Hive优化
总结 ---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
skywhsq1987
·
2014-01-16 21:00
hive
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该
skywhsq1987
·
2014-01-16 21:00
reduce
Hive 高级编程??深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理 配套视频课程
heuydjhg
·
2014-01-16 12:45
java
Hive 内建操作符与函数开发??深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理 第一部分:
heuydjhg
·
2014-01-15 17:56
java
Hive体系结构 —— 深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理 配套视频课程
jendgh
·
2014-01-11 11:00
hive
Hive优化
---mapjoin和union all避免数据倾斜
mapjoin和unionall避免数据倾斜发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是
stevie
·
2014-01-08 16:56
hive
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询
wisgood
·
2014-01-01 21:00
Hive优化
2
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select ... from A
kelvinliu117
·
2013-12-27 18:00
hive
Hive优化
总结(转)
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
rcvgt
·
2013-12-27 18:16
hive
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
kelvinliu117
·
2013-12-27 18:00
hive
Hive优化
----distribute by和sort by
下面是一段排序,分组后取每组第一行记录的SQLINSERTOVERWRITETABLEt_wa_funnel_distinct_tempPARTITION(pt='${SRCTIME}')SELECTbussiness_id,cookie_id,session_id,funnel_id,group_first(funnel_name)funnel_name,step_id,group_first(
stevie
·
2013-12-17 12:46
hive
hive优化
方式和使用技巧
部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1.基本UDF(1)SHOWFUNCTIONS:这个用来熟悉未知函数。 DESCRIBEFUNCTION;(2)AISNULL AISNOTNULL(3)ALIKEB普
wisgood
·
2013-12-13 14:00
hadoop&
hive优化
说明:本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法MR基础知识重用Text等Writable类型不要用context.write(newText(...),newText(...))而是用key.set(...);value.set(...);使用StringBuilder不要使用Formatter,不要使用StringBuffer,不要介意使用+//StringBuilder
扫大街的程序员
·
2013-12-10 15:25
hadoop&hive
hadoop&
hive优化
说明:本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法 MR基础知识重用Text等Writable类型不要用context.write(newText(...),newText(...)) 而是用 key.set(...); value.set(...); 使用StringBuilder不要使用Formatter,不要使用StringBuffer,不要介意使用+//StringBu
u012914981
·
2013-12-10 15:00
hive优化
之 —— 控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么had
wisgood
·
2013-12-07 12:00
Hive体系结构 ―― 深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理配套视频课程第一部分
Suunnny
·
2013-12-04 13:35
java
开发
课程
Hive体系结构
hive优化
之--控制hive任务中的map数和reduce数<转>
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么had
yongjian_luo
·
2013-11-18 20:00
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMITn语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1.本地模式(小任务):需要满足以下条件:1.job的输入数据大小必须小
iteye_15756
·
2013-10-09 19:42
hive
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数 1. 本地模式(小任务):需要满足以下条件: 1.job的输入数
228298566
·
2013-10-09 19:00
hive
hive优化
要点总结
个人认为总体两种思想:1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1)启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要.(2)合理设置reduce个数reduce个数过少没有真正发挥
u011750989
·
2013-09-27 06:00
hive
优化
hive优化
要点总结
个人认为总体两种思想:1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要.(2)合理设置reduce个数reduce个数过少没有真正
u011750989
·
2013-09-26 22:00
优化
hive
总结
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMITn语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1.本地模式(小任务):需要满足以下条件:1.job的输入数据大小必须小
liou825
·
2013-09-23 21:00
hive优化
之------控制hive任务中的map数和reduce数
文章来自:http://www.dataguru.cn/article-3269-1.html一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:
suxain
·
2013-08-28 11:26
hadoop
hive优化
之------控制hive任务中的map数和reduce数
文章来自:http://www.dataguru.cn/article-3269-1.html 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群
suxain
·
2013-08-28 11:00
hadoop
hive
HIVE 优化的几个切入点
HIVE优化
的几个切入点一、合理设计schema1.使用分区,但避免使用大量的分区2.合理设计临时表3.合理设计buckets4.针对不同的表,合理使用压缩特性二、查询优化1.使用适当的MAP与REDUCE
aqszhuaihuai
·
2013-07-25 22:19
hadoop
hive
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他