HIVE优化第9页

hive优化

hive优化——深入浅出学Hive转载出处【http://sishuok.com/forum/blogPost/list/0/6229.html】目录：初始HiveHive安装与配置Hive内建操作符与函数开发

ljk12111217·2013-07-03 17:39

hive优化

hive 优化——深入浅出学Hive 转载出处【 http://sishuok.com/forum/blogPost/list/0/6229.html】目录：初始Hive Hive安装与配置 Hive 内建操作符与函数开发 Hive JDBC hive参数 Hive 高级编程 Hive QL Hive Shell

lelglin·2013-07-03 17:00

CArchive、CObject::Serialize、CFile之间的简单关系

2、CArchive优化了CFile的操作，提供了一个指定大小的文件内存缓冲区。同时CArchive类自带了基本类型的">"操作。如果想为自定义的类提供CArchive的>操作，要提供重载函数。

hemeinvyiqiluoben·2013-06-23 21:00

【转】hive优化总结

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下：mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd

xiaolang85·2013-06-09 15:00

hive 优化总结持续更新

hive优化总结：使用limit的时候可以只扫描部分文件： hive.limit.optimize.enable true Whethertoenabletooptimizationto tryasmallersubsetofdataforsimpleLIMITfirst

baiyangfu·2013-05-30 09:00

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

228298566·2013-05-29 13:00

Hive中小表与大表关联(join)的性能分析

经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。

bigsea·2013-05-09 10:00

hive优化

最近使用hive一个多月下来(终于完成第一期数据分析迁移工作了)，当时使用的0.8的版本（现在最新版本是0.8.1），一个多月下来收获很多。从安装环境、调试、开发、业务理解、技术攻关、业务实现等，一一都体验了一把！总的来说，除了目前网上所介绍的常规hive使用和优化外。因为目前hive只支持0.20的相关版本，所以我们的环境还是使用的0.20版本的hadoop来进行搭建。使用hive和hadoop

Johnny_Lee·2013-04-29 18:00

map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么had

qiaochao911·2013-04-25 14:00

hive优化方式和使用技巧

部分内容出处：http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail/4392/515 一．UDFS函数介绍1.基本UDF（1）SHOWFUNCTIONS：这个用来熟悉未知函数。 DESCRIBEFUNCTION;（2）AISNULL AISNOTNULL（3）ALIKEB普

z_l_l_m·2013-04-08 17:00

一个非常不错的hive学习链接

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程

zongquanliu·2013-03-29 19:55

hive优化总结

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下：mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd

luyee2010·2013-01-24 21:00

hive优化总结

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下：mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd

akingde·2013-01-20 18:00

Hive优化总结

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。

·2013-01-15 16:00

hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2.举例：a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块

ganliang13·2013-01-14 21:43

hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大小为780M,那么ha

ganliang13·2013-01-14 21:00

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。

caodaoxi·2012-12-29 17:00

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。

caodaoxi·2012-12-29 17:00

map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。</wbr&

caodaoxi·2012-12-25 19:00

map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数:1.通常情况下，作业会通过input的目录产生一个或者多个map任务。</wbr&

caodaoxi·2012-12-25 19:00

Hive安装与配置——深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程

lichangzai·2012-11-27 17:00

Hive安装与配置——深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程第一部分

wsql·2012-11-27 17:00

hive 调优

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

idatamining·2012-10-31 17:40

Hive安装与配置——深入浅出学Hive

目录：初始HiveHive安装与配置Hive内建操作符与函数开发HiveJDBChive参数Hive高级编程HiveQLHiveShell基本操作hive优化Hive体系结构Hive的原理配套视频课程

jenmhdn·2012-10-31 16:00

hive优化的几篇博文

http://blog.sina.com.cn/s/blog_4112736d01017sjw.htmlhttp://zelfendo.sinaapp.com/2011/12/13/hive-tips/http://blog.csdn.net/chenyi8888/article/details/7254103

shuhuai007·2012-10-21 12:00

Hive优化（5）之选择合适的map数

Hive是基于Hadoop分布式框架下的数据仓库解决方案，可以方便地对数据进行清洗、转化和加载。Hive处理海量数据是数据仓库的基本需求，而如何通过hive充分利用Hadoop集群的分布式并行功能就至关重要。如果不能充分利用分布式并行处理，那么处理大数据量就会变得低效。而一张数据表需要多少个map来处理和一个map处理多少数据记录，都会影响到海量数据处理的效率。

lpxuan151009·2012-09-14 20:00

hive优化（4）之mapjoin和union all避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务

lpxuan151009·2012-09-14 20:00

Hive优化（3）之随机数避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务

lpxuan151009·2012-09-14 20:10

Hive优化（3）之随机数避免数据倾斜

发生数据倾斜时，通常的现象是：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成。查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。数据倾斜一般是由于代码中的join或groupby或distinct的key分布不均导致的，大量经验表明数据倾斜的原因是人为的建表疏忽或业务可以规避的。如果确认业务

lpxuan151009·2012-09-14 20:00

hive优化之 —— 控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有：input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么had

xrzs·2012-09-10 13:00

Hive优化（2）之系统评估reduce数为1的MR Job优化

名词解释：云霄飞车：hive本身对MRJob的reduce数估算不合理，导致reduce分配过少，任务运行很慢，云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes：map输入文件大小，单位：bytesmap_output_bytes：map输出文件大小，单位：bytes优化背景：云霄飞车一期存在如下问题：只能优化reduce数>1的MRJob。原因在于无法确

lpxuan151009·2012-09-07 20:44

Hive优化（2）之系统评估reduce数为1的MR Job优化

名词解释：云霄飞车：hive本身对MRJob的reduce数估算不合理，导致reduce分配过少，任务运行很慢，云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes：map输入文件大小，单位：bytesmap_output_bytes：map输出文件大小，单位：bytes 优化背景：云霄飞车一期存在如下问题：只能优化reduce数>1的MRJob。原因在于无法

lpxuan151009·2012-09-07 20:00

hive优化（1）之mapjoin

hive>createtablelpx_mapjoinas >SELECT'2012-04-17'asstat_date > ,b.admin_member_id > ,a.category_level2_id > ,b.keywords > ,sum(shownum)assum_prod_show_cnt > ,

lpxuan151009·2012-09-07 20:00

Hive优化

Hive针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（ColumnPruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询：SELECTa,bFROMTWHEREe<10;其中，T包含5个列(a,b,c,d,e)，列c，d将会被忽略，只会读取a,b,e列这个选项默认为真： hive.optimize.cp=t

fanshadoop·2012-09-07 10:00

hive优化之------控制hive任务中的map数和reduce数

书音棋·2012-08-17 18:00

hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数

书音棋·2012-08-17 18:00

hive优化

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下：mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd

书音棋·2012-08-15 17:00

hive 调优

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

书音棋·2012-08-15 14:00

hive 调优

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

书音棋·2012-08-15 14:00

hive 调优

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

书音棋·2012-08-15 14:00

hive优化【增加执行的map数,reduce数】

hive中的启动的map数据量，以及reduce的数据量，都是由系统给控制的，一般来说，map的数据量是由文件的个数，以及文件量的大小所决定。如果你的文件很多，那么每个文件必然会启动一个map进行处理，或者你的文件非常大，是hdfs中block_size的N倍，那么就会分成N个文件，同样会启动N个map进行处理。而reduce的数据量则是根据你的key多少来决定的，一旦你的map生成的key非常多

cajeep2001·2012-07-30 22:34

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

iteye_2386·2012-07-09 15:41

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

yeshuqiang·2012-07-09 15:00

hive优化之------控制hive任务中的map数和reduce数

superlxw1234·2012-07-09 14:00

hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.

superlxw1234·2012-07-09 14:00

hive优化之------控制hive任务中的map数和reduce数

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.

superlxw1234·2012-07-09 14:00

hive优化之------控制hive任务中的map数和reduce数

superlxw1234·2012-07-09 14:00

Hive优化总结

理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。

datong838·2012-06-15 09:00

Hive调优实战

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。

sznmail·2012-04-26 14:00

hive优化总结

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下：mapred.child.java.opts-Xmx1024m2.hive默认建表时的路径也可以在hive-site.xml里配置，如下:hive.metastore.warehouse.dirvalue>/user/hive/warehousedescription>locationofd

A221133·2011-10-09 18:00

推荐频道

HIVE优化

hive优化

hive优化

CArchive、CObject::Serialize、CFile之间的简单关系

【转】hive优化总结

hive 优化总结 持续更新

Hive优化总结

Hive中小表与大表关联(join)的性能分析

hive优化

map和reduce 个数的设定 （Hive优化）经典

hive优化方式和使用技巧

一个非常不错的hive学习链接

hive优化总结

hive优化总结

Hive优化总结

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

Hive优化总结

Hive优化总结

map和reduce 个数的设定 （Hive优化）经典

map和reduce 个数的设定 （Hive优化）经典

Hive安装与配置——深入浅出学Hive

Hive安装与配置——深入浅出学Hive

hive 调优

Hive安装与配置——深入浅出学Hive

hive优化的几篇博文

Hive优化（5）之选择合适的map数

hive优化（4）之mapjoin和union all避免数据倾斜

Hive优化（3）之随机数避免数据倾斜

Hive优化（3）之随机数避免数据倾斜

hive优化之 —— 控制hive任务中的map数和reduce数

Hive优化（2）之系统评估reduce数为1的MR Job优化

Hive优化（2）之系统评估reduce数为1的MR Job优化

hive优化（1）之mapjoin

Hive优化

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

hive优化

hive 调优

hive 调优

hive 调优

hive优化【增加执行的map数,reduce数】

Hive优化总结

Hive优化总结

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

hive优化之------控制hive任务中的map数和reduce数

Hive优化总结

Hive调优实战

hive优化总结

hive 优化总结持续更新

map和reduce 个数的设定（Hive优化）经典

map和reduce 个数的设定（Hive优化）经典

map和reduce 个数的设定（Hive优化）经典