E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HIVE优化
hive优化
hive优化
——深入浅出学Hive转载出处【http://sishuok.com/forum/blogPost/list/0/6229.html】目录:初始HiveHive安装与配置Hive内建操作符与函数开发
ljk12111217
·
2013-07-03 17:39
hadoop
数据库
大数据
shell
hive优化
hive 优化——深入浅出学Hive 转载出处【 http://sishuok.com/forum/blogPost/list/0/6229.html】 目录: 初始Hive Hive安装与配置 Hive 内建操作符与函数开发 Hive JDBC hive参数 Hive 高级编程 Hive QL Hive Shell
lelglin
·
2013-07-03 17:00
hive
CArchive、CObject::Serialize、CFile之间的简单关系
2、CArc
hive优化
了CFile的操作,提供了一个指定大小的文件内存缓冲区。同时CArchive类自带了基本类型的">"操作。如果想为自定义的类提供CArchive的>操作,要提供重载函数。
hemeinvyiqiluoben
·
2013-06-23 21:00
【转】
hive优化
总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下:mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd
xiaolang85
·
2013-06-09 15:00
hive 优化总结 持续更新
hive优化
总结:使用limit的时候可以只扫描部分文件: hive.limit.optimize.enable true Whethertoenabletooptimizationto tryasmallersubsetofdataforsimpleLIMITfirst
baiyangfu
·
2013-05-30 09:00
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
228298566
·
2013-05-29 13:00
hive
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
bigsea
·
2013-05-09 10:00
JOIN
性能
hive
hive优化
最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了),当时使用的0.8的版本(现在最新版本是0.8.1),一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等,一一都体验了一把!总的来说,除了目前网上所介绍的常规hive使用和优化外。因为目前hive只支持0.20的相关版本,所以我们的环境还是使用的0.20版本的hadoop来进行搭建。使用hive和hadoop
Johnny_Lee
·
2013-04-29 18:00
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么had
qiaochao911
·
2013-04-25 14:00
hive
hive优化
方式和使用技巧
部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一.UDFS函数介绍1.基本UDF(1)SHOWFUNCTIONS:这个用来熟悉未知函数。 DESCRIBEFUNCTION;(2)AISNULL AISNOTNULL(3)ALIKEB普
z_l_l_m
·
2013-04-08 17:00
优化
hive
一个非常不错的hive学习链接
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理 配套视频课程
zongquanliu
·
2013-03-29 19:55
hive
学习
hive优化
总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下:mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd
luyee2010
·
2013-01-24 21:00
hive优化
总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下:mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd
akingde
·
2013-01-20 18:00
hive
Hive优化
总结
Hive优化
总结 ---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
·
2013-01-15 16:00
hive
hive优化
之------控制hive任务中的map数和reduce数
一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块
ganliang13
·
2013-01-14 21:43
hive
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么ha
ganliang13
·
2013-01-14 21:00
reduce
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。
caodaoxi
·
2012-12-29 17:00
hive
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。
caodaoxi
·
2012-12-29 17:00
hive
map和reduce 个数的设定 (
Hive优化
)经典
一、<wbr><wbr><wbr>控制hive任务中的map数:</wbr></wbr></wbr><wbr></wbr>1.<wbr><wbr><wbr>通常情况下,作业会通过input的目录产生一个或者多个map任务。</wbr&
caodaoxi
·
2012-12-25 19:00
reduce
map和reduce 个数的设定 (
Hive优化
)经典
一、<wbr><wbr><wbr>控制hive任务中的map数:</wbr></wbr></wbr><wbr></wbr>1.<wbr><wbr><wbr>通常情况下,作业会通过input的目录产生一个或者多个map任务。</wbr&
caodaoxi
·
2012-12-25 19:00
reduce
Hive安装与配置——深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理 配套视频课程
lichangzai
·
2012-11-27 17:00
Hive安装与配置——深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理配套视频课程第一部分
wsql
·
2012-11-27 17:00
hive
hive 调优
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
idatamining
·
2012-10-31 17:40
数据挖掘
数据库
Hive安装与配置——深入浅出学Hive
目录:初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作
hive优化
Hive体系结构Hive的原理 配套视频课程
jenmhdn
·
2012-10-31 16:00
hive
hive优化
的几篇博文
http://blog.sina.com.cn/s/blog_4112736d01017sjw.htmlhttp://zelfendo.sinaapp.com/2011/12/13/hive-tips/http://blog.csdn.net/chenyi8888/article/details/7254103
shuhuai007
·
2012-10-21 12:00
优化
Hive优化
(5)之选择合适的map数
Hive是基于Hadoop分布式框架下的数据仓库解决方案,可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求,而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理,那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录,都会影响到海量数据处理的效率。
lpxuan151009
·
2012-09-14 20:00
hadoop
优化
框架
集群
数据仓库
hive优化
(4)之mapjoin和union all避免数据倾斜
发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务
lpxuan151009
·
2012-09-14 20:00
JOIN
sql
c
优化
任务
Hive优化
(3)之随机数避免数据倾斜
发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务
lpxuan151009
·
2012-09-14 20:10
Hadoop&Hive
Hive优化
(3)之随机数避免数据倾斜
发生数据倾斜时,通常的现象是:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。查看未完成的子任务,可以看到本地读写数据量积累非常大,通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的,大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务
lpxuan151009
·
2012-09-14 20:00
JOIN
sql
优化
table
任务
hive优化
之 —— 控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么had
xrzs
·
2012-09-10 13:00
Hive优化
(2)之系统评估reduce数为1的MR Job优化
名词解释:云霄飞车:hive本身对MRJob的reduce数估算不合理,导致reduce分配过少,任务运行很慢,云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes:map输入文件大小,单位:bytesmap_output_bytes:map输出文件大小,单位:bytes优化背景:云霄飞车一期存在如下问题:只能优化reduce数>1的MRJob。原因在于无法确
lpxuan151009
·
2012-09-07 20:44
Hadoop&Hive
Hive优化
(2)之系统评估reduce数为1的MR Job优化
名词解释:云霄飞车:hive本身对MRJob的reduce数估算不合理,导致reduce分配过少,任务运行很慢,云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes:map输入文件大小,单位:bytesmap_output_bytes:map输出文件大小,单位:bytes 优化背景:云霄飞车一期存在如下问题:只能优化reduce数>1的MRJob。原因在于无法
lpxuan151009
·
2012-09-07 20:00
优化
算法
input
任务
output
hive优化
(1)之mapjoin
hive>createtablelpx_mapjoinas >SELECT'2012-04-17'asstat_date > ,b.admin_member_id > ,a.category_level2_id > ,b.keywords > ,sum(shownum)assum_prod_show_cnt > ,
lpxuan151009
·
2012-09-07 20:00
mapreduce
JOIN
优化
Date
command
input
Hive优化
Hive针对不同的查询进行了优化,优化可以通过配置进行控制,本文将介绍部分优化的策略以及优化控制选项。列裁剪(ColumnPruning)在读数据的时候,只读取查询中需要用到的列,而忽略其他列。例如,对于查询:SELECTa,bFROMTWHEREe<10;其中,T包含5个列(a,b,c,d,e),列c,d将会被忽略,只会读取a,b,e列这个选项默认为真: hive.optimize.cp=t
fanshadoop
·
2012-09-07 10:00
hive优化
之------控制hive任务中的map数和reduce数
阅读更多一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔
书音棋
·
2012-08-17 18:00
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数
书音棋
·
2012-08-17 18:00
reduce
hive优化
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下:mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd
书音棋
·
2012-08-15 17:00
java
mapreduce
hive 调优
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
书音棋
·
2012-08-15 14:00
hadoop
sql
算法
family
hive 调优
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
书音棋
·
2012-08-15 14:00
hadoop
sql
算法
family
hive 调优
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
书音棋
·
2012-08-15 14:00
sql
hadoop
算法
family
hive优化
【增加执行的map数,reduce数】
hive中的启动的map数据量,以及reduce的数据量,都是由系统给控制的,一般来说,map的数据量是由文件的个数,以及文件量的大小所决定。如果你的文件很多,那么每个文件必然会启动一个map进行处理,或者你的文件非常大,是hdfs中block_size的N倍,那么就会分成N个文件,同样会启动N个map进行处理。而reduce的数据量则是根据你的key多少来决定的,一旦你的map生成的key非常多
cajeep2001
·
2012-07-30 22:34
hive优化
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
iteye_2386
·
2012-07-09 15:41
云计算
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
yeshuqiang
·
2012-07-09 15:00
hive优化
之------控制hive任务中的map数和reduce数
阅读更多一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔
superlxw1234
·
2012-07-09 14:00
hive
hive优化
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 
superlxw1234
·
2012-07-09 14:00
hive
hive优化
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 
superlxw1234
·
2012-07-09 14:00
hive
hive优化
hive优化
之------控制hive任务中的map数和reduce数
阅读更多一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔
superlxw1234
·
2012-07-09 14:00
hive
hive优化
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
datong838
·
2012-06-15 09:00
并行计算
Hive调优实战
Hive优化
总结 ---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
sznmail
·
2012-04-26 14:00
hive
hive优化
总结
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下:mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置,如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd
A221133
·
2011-10-09 18:00
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他