hive优化第8页

Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。

qq85609655·2014-08-25 11:00

Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。

qq85609655·2014-08-25 03:00

HIVE优化提示-如何写好HQL

一、 Hivejoin优化1. 尽量将小表放在join的左边，我们这边使用的hive-0.12.0,所以是自动转化的，既把小表自动装入内存，执行mapsidejoin(性能好),这是由参数hive.auto.convert.join=true和hive.smalltable.filesize=25000000L）参数控制（默认是25M），如果表文件大小在25M左右，可以适当调整此参数，

today20080808·2014-08-15 17:00

hive sql优化

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

达达喜羊羊·2014-07-28 17:50

hive表关联性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。

ZHXIA·2014-06-29 20:00

转 > map和reduce 个数的设定（Hive优化）经典

map和reduce个数的设定（Hive优化）经典一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。

ZHXIA·2014-06-29 20:00

hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么had

zq602316498·2014-05-30 12:00

hive优化之------控制hive任务中的map数和reduce数

文章源地址:http://superlxw1234.iteye.com/blog/1582880关于hive选项:hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat,cdh4版的hive0.10默认已经设置合并,但文件块大小是256M,需要根据自己的情况设置.hive>setmapred.max.split.s

ljq32·2014-05-14 16:00

hive优化思路

转载：http://blog.csdn.net/johnny_lee/article/details/8867632最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了)，当时使用的0.8的版本（现在最新版本是0.8.1），一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等，一一都体验了一把！总的来说，除了目前网上所介绍的常规hive使用和优化外。因为目前hiv

An342647823·2014-05-13 13:00

hive优化原则

转载：http://blog.sina.com.cn/s/blog_9f48885501017cq8.html使用过hive一段时间，发现楼主讲的非常正确。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10andB.userid10)ajoin(sel

forever_ai·2014-05-13 13:24

hive优化原则

转载：http://blog.sina.com.cn/s/blog_9f48885501017cq8.html使用过hive一段时间，发现楼主讲的非常正确。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywhereA.userid>10 andB.userid10

An342647823·2014-05-13 13:00

Hive优化

使用Hive有一段时间了，目前发现需要进行优化的较多出现在出现join、distinct的情况下，而且一般都是reduce过程较慢。 Reduce过程比较慢的现象又可以分为两类：情形一：map已经达到100%,而reduce阶段一直是99%,属于数据倾斜情形二：使用了count(distinct)或者groupby的操作，现象是reduce有进度但是进度缓慢，31%-32%-34%.

TonyLee0329·2014-05-08 10:00

Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。

维尼弹着肖邦的夜曲·2014-05-02 21:37

map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那

atco·2014-04-15 16:00

转-Hive QL——深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程第一部分

jiaaq2008·2014-04-12 10:13

Hive导入10G数据的测试

目录导出MySQL数据导入到Hive优化导入过程HiveBucket执行查询1.导出MySQL数据下面是我的表，每天会产生一新表，用日期的方式命名。今天是

郑云飞·2014-04-09 23:00

hive调优

（当然我们可以在写hive语句的时候，可以看看hive是怎么把sql语句编程mapreduce的）理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

lixiyuan·2014-04-01 15:00

Hive优化

Hive性能调校提高Hive总体性能的若干技巧本报告主要就如何提高Hive执行的总体性能进行了调研，下面以分条的形式列举出来。1.设置hive.map.aggr=true，提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行，从而减轻清洗阶段数据传输和Reduce阶段的执行时间，提升总体性能。缺点：该设置会消耗更多的内存。注：顶层的聚合操作（top-levelaggreg

stevie·2014-03-25 11:14

Hive优化----各种参数的设置

hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMITn语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数1.本地模式(小任务)：需要满足以下条件：1.job的输入数据大小必须小

stevie·2014-03-25 11:38

map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块

寂寞烟·2014-03-18 17:31

hive优化方式和使用技巧

转载：http://blog.csdn.net/z_l_l_m/article/details/8773505#t4谢谢分享，非常实用.部分内容出处：http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一．UDFS函数介绍1.基本UDF（1）SHOWFUNCTIONS：

An342647823·2014-03-14 18:00

Hive 内建操作符与函数开发

Hive内建操作符与函数开发目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构

oaimm·2014-03-12 15:40

hive优化之-控制hive任务中的map数和reduce数

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块

龙明倩·2014-03-07 15:42

Hive优化总结

转载：http://sznmail.iteye.com/blog/1499789长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。mapreduce作业初始化的时间是比较长的。3.对sum，count来说，不存在数据倾斜问题。4.对c

blue大数据·2014-02-24 19:41

Hive中小表与大表关联(join)的性能分析

转载：http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快

blue大数据·2014-02-24 19:28

hive优化之------控制hive任务中的map数和reduce数

转载自：http://www.dataguru.cn/article-3269-1.html一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：a

q79969786·2014-02-20 10:33

Hive调优实战

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。

skywhsq1987·2014-01-16 21:00

map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该

skywhsq1987·2014-01-16 21:00

Hive 高级编程??深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程

heuydjhg·2014-01-16 12:45

Hive 内建操作符与函数开发??深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理第一部分：

heuydjhg·2014-01-15 17:56

Hive体系结构 —— 深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程

jendgh·2014-01-11 11:00

Hive优化---mapjoin和union all避免数据倾斜

mapjoin和unionall避免数据倾斜发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是

stevie·2014-01-08 16:56

Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询

wisgood·2014-01-01 21:00

Hive优化2

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则： 1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段 select ... from A

kelvinliu117·2013-12-27 18:00

Hive优化总结（转）

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

rcvgt·2013-12-27 18:16

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

kelvinliu117·2013-12-27 18:00

Hive优化----distribute by和sort by

下面是一段排序，分组后取每组第一行记录的SQLINSERTOVERWRITETABLEt_wa_funnel_distinct_tempPARTITION(pt='${SRCTIME}')SELECTbussiness_id,cookie_id,session_id,funnel_id,group_first(funnel_name)funnel_name,step_id,group_first(

stevie·2013-12-17 12:46

hive优化方式和使用技巧

部分内容出处：http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一．UDFS函数介绍1.基本UDF（1）SHOWFUNCTIONS：这个用来熟悉未知函数。 DESCRIBEFUNCTION;（2）AISNULL AISNOTNULL（3）ALIKEB普

wisgood·2013-12-13 14:00

hadoop&hive优化

说明：本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法MR基础知识重用Text等Writable类型不要用context.write(newText(...),newText(...))而是用key.set(...);value.set(...);使用StringBuilder不要使用Formatter，不要使用StringBuffer，不要介意使用+//StringBuilder

扫大街的程序员·2013-12-10 15:25

hadoop&hive优化

说明：本文主要涉及hadoop、hive查询统计基础知识及一些进阶方法 MR基础知识重用Text等Writable类型不要用context.write(newText(...),newText(...)) 而是用 key.set(...); value.set(...); 使用StringBuilder不要使用Formatter，不要使用StringBuffer，不要介意使用+//StringBu

u012914981·2013-12-10 15:00

hive优化之 —— 控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么had

wisgood·2013-12-07 12:00

Hive体系结构 ―― 深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程第一部分

Suunnny·2013-12-04 13:35

hive优化之--控制hive任务中的map数和reduce数<转>

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么had

yongjian_luo·2013-11-18 20:00

Hive优化

hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMITn语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数1.本地模式(小任务)：需要满足以下条件：1.job的输入数据大小必须小

iteye_15756·2013-10-09 19:42

Hive优化

hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMIT n语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数 1. 本地模式(小任务)：需要满足以下条件：　　1.job的输入数

228298566·2013-10-09 19:00

hive优化要点总结

个人认为总体两种思想：1、让服务器尽可能的多做事情，榨干服务器资源，以最高系统吞吐量为目标再好的硬件没有充分利用起来，都是白扯淡。比如:(1)启动一次job尽可能的多做事情，一个job能完成的事情,不要两个job来做通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要.(2)合理设置reduce个数reduce个数过少没有真正发挥

u011750989·2013-09-27 06:00

hive优化要点总结

个人认为总体两种思想：1、让服务器尽可能的多做事情，榨干服务器资源，以最高系统吞吐量为目标再好的硬件没有充分利用起来，都是白扯淡。比如:(1) 启动一次job尽可能的多做事情，一个job能完成的事情,不要两个job来做通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要.(2)合理设置reduce个数reduce个数过少没有真正

u011750989·2013-09-26 22:00

Hive优化

hive.optimize.cp=true：列裁剪hive.optimize.prunner：分区裁剪hive.limit.optimize.enable=true：优化LIMITn语句hive.limit.row.max.size=1000000：hive.limit.optimize.limit.file=10：最大文件数1.本地模式(小任务)：需要满足以下条件：1.job的输入数据大小必须小

liou825·2013-09-23 21:00

hive优化之------控制hive任务中的map数和reduce数

文章来自：http://www.dataguru.cn/article-3269-1.html一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：

suxain·2013-08-28 11:26

hive优化之------控制hive任务中的map数和reduce数

文章来自：http://www.dataguru.cn/article-3269-1.html 一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群

suxain·2013-08-28 11:00

推荐频道

hive优化

Hive中小表与大表关联(join)的性能分析

Hive中小表与大表关联(join)的性能分析

HIVE优化提示-如何写好HQL

hive sql优化

hive表关联性能分析

转 > map和reduce 个数的设定 （Hive优化）经典

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

hive优化思路

hive优化原则

hive优化原则

Hive优化

Hive中小表与大表关联(join)的性能分析

map和reduce 个数的设定 （Hive优化）经典

转-Hive QL——深入浅出学Hive

Hive导入10G数据的测试

hive调优

Hive优化

Hive优化----各种参数的设置

map和reduce 个数的设定 （Hive优化）经典

hive优化方式和使用技巧

Hive 内建操作符与函数开发

hive优化之-控制hive任务中的map数和reduce数

Hive优化总结

Hive中小表与大表关联(join)的性能分析

hive优化之------控制hive任务中的map数和reduce数

Hive调优实战

map和reduce 个数的设定 （Hive优化）经典

Hive 高级编程??深入浅出学Hive

Hive 内建操作符与函数开发??深入浅出学Hive

Hive体系结构 —— 深入浅出学Hive

Hive优化---mapjoin和union all避免数据倾斜

Hive中小表与大表关联(join)的性能分析

Hive优化2

Hive优化总结（转）

Hive优化总结

Hive优化----distribute by和sort by

hive优化方式和使用技巧

hadoop&hive优化

hadoop&hive优化

hive优化之 —— 控制hive任务中的map数和reduce数

Hive体系结构 ―― 深入浅出学Hive

hive优化之--控制hive任务中的map数和reduce数<转>

Hive优化

Hive优化

hive优化要点总结

hive优化要点总结

Hive优化

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

转 > map和reduce 个数的设定（Hive优化）经典

map和reduce 个数的设定（Hive优化）经典

map和reduce 个数的设定（Hive优化）经典

map和reduce 个数的设定（Hive优化）经典