E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HIVE优化
Hadoop项目开发笔录
点击链接可直接跳到指定位置 Hadoop社区版集群的搭建 hive的安装部署 sqoop的安装部署 hbase和zookeeper的安装和部署 网站日志统计案例分析与实现
hive
·
2015-10-30 13:18
hadoop
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改)
·
2015-10-21 11:47
reduce
hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMITn语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1.本地模式(小任务):需要满足以下条件:1.job的输入数据大小必须小
huangjin0507
·
2015-09-16 11:00
hive
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
ibanez_lysf
·
2015-09-08 01:23
优化
hive
Hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
ibanez_lysf
·
2015-09-08 01:23
优化
hive
hive优化
方式和使用技巧
hive优化
方式和使用技巧部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article/detail
XZC.Log
·
2015-08-06 17:00
hive优化
1、提前过滤数据,减少中间数据依赖:尽量尽早的过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的数据。如下,改写后的写法将会大大减少join的数据量select…fromAjoinBonA.key=B.keywhereA.userid>10andB.userid10)ajoin(select….fromBwheredt=’201200417’anduserid10;sele
zzuiezhangqihui
·
2015-08-06 12:00
Hive优化
策略
hive优化
目标在有限的资源下,执行效率高。
李国冬
·
2015-07-22 09:38
Hive
Hive之翼
[一起学Hive]之十二-Hive SQL的优化
阅读更多关键字:
Hive优化
、HQL优化、Hive数据倾斜十一、HiveSQL的优化本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。
superlxw1234
·
2015-06-29 09:00
一起学hive
hive优化
[一起学Hive]之十二-Hive SQL的优化
阅读更多关键字:
Hive优化
、HQL优化、Hive数据倾斜十一、HiveSQL的优化本章只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。
superlxw1234
·
2015-06-29 09:00
一起学hive
hive优化
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该
王书兴
·
2015-06-17 14:00
reduce
map和reduce 个数的设定 (
Hive优化
)经典
一、控制hive任务中的map数:1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块
王书兴
·
2015-06-17 14:00
map
reduce
设定
map和reduce 个数的设定 (
Hive优化
)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那
王书兴
·
2015-06-17 06:00
hive
map
reduce
Hive优化
一、什么时候可以避免执行MapReduce?select*where语句中只有分区字段二、Jion优化驱动表最右边查询表表的大小从左边到右边依次增大标志机制显示的告知查询优化器哪张表示大表/*+streamtable(table_name)*/三、Map-side聚合sethive.map.aggr=true;这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗 阶段数据传输和Red
超人学院
·
2015-06-12 16:00
hadoop
hive
超人学院
hive优化
(4)
一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与joi
zhangxiong0301
·
2015-06-11 09:00
hive
hive优化
(3)
个人认为总体两种思想: 1、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标 再好的硬件没有充分利用起来,都是白扯淡。 比如: (1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要. (2)&nb
zhangxiong0301
·
2015-06-11 09:00
hive
hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数 1. 本地模式(小任务):需要满足以下条件: 1
zhangxiong0301
·
2015-06-10 21:00
hive
hive优化
(2)
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则: 1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段 select ... from A
zhangxiong0301
·
2015-06-10 21:00
hive
hive优化
(2)
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。 基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select...fromAjoinBonA.key=B.keywher
zhangxiong0301
·
2015-06-10 13:00
优化
hive
hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMITn语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1.本地模式(小任务):需要满足以下条件:1.job的输入数据大小必须小
zhangxiong0301
·
2015-06-10 13:00
优化
hive
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文件a,大小为780M,那么hadoop
datapro
·
2015-06-08 16:00
Hive优化
2
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数 http://www.cnblogs.com/yshb/p/314
lixuguang
·
2015-06-05 10:00
hive 优化
hive优化
之自动合并输出的小文件
1.先在hive-site.xml中设置小文件的标准. hive.merge.smallfiles.avgsize 536870912 Whentheaverageoutputfilesizeofajobislessthanthisnumber,Hivewillstartanadditionalmap-reducejobtomergetheoutputfilesintobiggerfiles.Th
houzhizhen
·
2015-06-04 09:00
优化
hive
hive优化
-----控制hive任务的reduce数
1.Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)hive.exec.reducers.max(每个任务最大的reduce数,默认为999)计
超人学院
·
2015-05-06 15:00
hive
reduce
hive优化
----控制hive中的reduce数:
1.Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)hive.exec.reducers.max(每个任务最大的reduce数,默认为999)计
超人学院66
·
2015-05-06 15:18
优化
reduce
hive
hive优化
----控制hive中的reduce数:
1.Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G)hive.exec.reducers.max(每个任务最大的reduce数,默认为999)计
超人学院66
·
2015-05-06 15:18
优化
hive
reduce
hive优化
--增加减少map数
如何合并小文件,减少map数?假设一个SQL任务:Selectcount(1)frompopt_tbaccountcopy_meswherept=‘2012-07-04’;该任务的inputdir/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件,其中很多是远远小于128m的小文件,总大小
超人学院
·
2015-05-05 15:00
hive
map
hive优化
---增加减少map数量
如何合并小文件,减少map数?假设一个SQL任务:Selectcount(1)frompopt_tbaccountcopy_meswherept=‘2012-07-04’;该任务的inputdir/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件,其中很多是远远小于128m的小文件,总大小
超人学院66
·
2015-05-05 15:16
优化
hive
map
hive优化
---增加减少map数量
如何合并小文件,减少map数?假设一个SQL任务:Selectcount(1)frompopt_tbaccountcopy_meswherept=‘2012-07-04’;该任务的inputdir/group/p_sdo_data/p_sdo_data_etl/pt/popt_tbaccountcopy_mes/pt=2012-07-04共有194个文件,其中很多是远远小于128m的小文件,总大小
超人学院66
·
2015-05-05 15:16
优化
hive
map
hive优化
----控制hive中的map数
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块
超人学院66
·
2015-05-04 15:32
hadoop
hive
map
hive优化
hive优化
----控制hive中的map数
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块
超人学院66
·
2015-05-04 15:32
hadoop
hive
map
hive优化
hive优化
----控制hive中的map数
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块
超人学院66
·
2015-05-04 15:32
map
Hadoop
hive
首页
hive优化
----控制hive中的map数
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块
超人学院
·
2015-05-04 14:00
hive
map
hive优化
hive优化
之------控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么had
ldds_520
·
2015-03-22 22:00
hadoop
hive
Hive基础学习文档和入门教程
4.
hive优化
有哪些常用方法?摘要:Hive是建立在Hadoop上的数据仓库基础构架。
stark_summer
·
2015-03-12 15:00
mapreduce
hive
map
数据仓库
Derby
Hive调优实战
Hive优化
总结优化时,把hivesql当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
nysyxxg
·
2015-02-08 10:00
Hive优化
之小文件问题及其解决方案
小文件是如何产生的1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增。2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的)。3.数据源本身就包含大量的小文件。小文件问题的影响1.从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。2.在HDFS中,每个小文件对象约占150byt
lzm1340458776
·
2015-02-06 17:09
Hive
Hive优化
概述:一个Hive查询生成多个mapreduecjob,一个mapreducejob又有map,reduce,spill,Shuffle,sort等几个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会分细节),针对MR全局的优化,和针对整个查询(多MRjob)的优化,下文会分别阐述。在开始之前先把MR的流程图贴出来(摘自Hadoop权威指南),方便后面对照。另外要说明
lzm1340458776
·
2015-02-01 15:00
优化
hive
hive
hive
SQL优化
hive优化
job
平台优化
Hive优化
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMITn语句hive.limit.row.max.size
nysyxxg
·
2014-12-14 16:00
Hive优化
常见问题
一、总体思想http://blog.csdn.net/u011750989/article/details/120243011、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,
Admirals
·
2014-12-12 11:00
Hive优化
常见问题
原文链接:https://my.oschina.net/aspoman/blog/355305一、总体思想http://blog.csdn.net/u011750989/article/details/120243011、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1)启动一次job尽可能的多做事情,一个job能完成的事情,不要两
chuyang4613
·
2014-12-12 11:00
HIVE SQL优化
map和reduce 个数的设定 (
Hive优化
)经典一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。
pingli0204
·
2014-11-28 16:14
hive
大数据
SQL优化
数据仓库
hive优化
方式和使用技巧
hive优化
方式和使用技巧存储,学习,分享部分内容出处:http://www.atatech.org/article/detail/5617/0http://www.atatech.org/article
wulantian
·
2014-11-06 10:00
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
豆慧
·
2014-11-03 21:00
hive
hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
preterhuman_peak
·
2014-10-31 09:58
分布式和NoSQL
hive优化
总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
preterhuman_peak
·
2014-10-31 09:00
Hive调优知识点总结
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。
zhongwen7710
·
2014-09-26 01:00
优化
hive
Hive调优实战
理解hadoop的核心能力,是
hive优化
的根本。这是这一年来,项目组所有成员宝贵的经验总结。
qq85609655
·
2014-08-26 10:00
hive
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
qq85609655
·
2014-08-25 11:00
hive
Hive中小表与大表关联(join)的性能分析
经常看到一些
Hive优化
的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。
qq85609655
·
2014-08-25 11:00
hive
大表
关联
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他