E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hiveQL
Hive性能调校
1.设置hive.map.aggr=true,提高
HiveQL
聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。
维尼弹着肖邦的夜曲
·
2020-08-18 12:18
hadoop
Spark SQL:Hive数据源复杂综合案例实战
HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用
HiveQL
语法编写SQL的功能。
weixin_34390996
·
2020-08-18 12:36
8.Spark SQL:Hive数据源实战
HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用
HiveQL
语法编写SQL的功能。
十点进修
·
2020-08-18 12:29
spark
HiveQL
中如何排查数据倾斜问题
如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。说明:表cheat_imei,7500万条,无大key,为作弊的imei。表imei_open_app,5亿6526万条,为每个imei打开的appid。该表中存在大key,md5imei=54b
午后的红茶meton
·
2020-08-18 12:48
Hadoop分析与理解
Hive数据倾斜
当我们在执行
HiveQL
或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。
cbh_sbj
·
2020-08-18 11:57
Hive
SparkSql概述
事实上的标准2.易学易用3.受众面大Shark:HIveontezHiveonmapreduceHiveonSparkshark推出:欢迎,基于spark,基于内存的列式存储,与hive能够兼容缺点:
hiveql
慧有未来
·
2020-08-18 11:34
大数据
数据倾斜
1.数据倾斜是进行大数据计算时,最常遇到的问题之一,当我们在执
HiveQL
或者运行MR作业时,如果遇到一直卡在map100%,reduce99%,最后的1%花了几个小时都没有跑完,这种情况一般就是遇到了数据倾斜的问题
哪有天生的学霸,一切都是厚积薄发
·
2020-08-18 11:02
数据倾斜
HiveQL
的DDL操作(二)——创建、分区、查询、修改、删除表
DDL(datadefinitionlanguage)数据库定义语言:关键词:create、select、alter、drop,对表的操作。这篇博文主要详细整理了Hive中对于数据表的常用基本操作,创建一个demo表进行演示。目录一、创建表1.1创建表的完整语法及字段解释1.2管理表(内部表)(1)普通创建表(2)根据查询结果创建表(createtable~asselect*from~)(3)根据
攻城狮Kevin
·
2020-08-18 10:11
Hive
Spark SQL之Hive数据源实战
saveAsTable命令四:查询分数大于80分的学生的完整信息一:HiveContext与SQLContext的区别HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及用
HiveQL
威少SOS
·
2020-08-18 10:29
#
Spark
SQL
Spark
SQL之Hive数据源实战
Hive解析
HiveQL
语句生成抽象语法树和逻辑计划
试了下解析TPCH里面的Q9,解释如下:hive>explaininsertoverwritetableq9_product_type_profit>select>nation,o_year,sum(amount)assum_profit>from>(>select>n_nameasnation,year(o_orderdate)aso_year,>l_extendedprice*(1-l_dis
Aragorn_XH
·
2020-08-15 02:58
hive
Hive之 hive架构
元数据metadata存储,通常是存储在关系数据库如mysql,derby中的系统参数底层驱动:包括
HiveQL
解释器、编译器、优化器、执行器(引擎)。Hadoop:用HDFS进行存储,利用Ma
张冲andy
·
2020-08-14 22:29
hive
Hive
Hive所使用的语言
HiveQL
是一种类似SQL的语言,它与大部分的SQL语法兼容,但是并不完全支持SQL标准,如
HiveQL
不支持更新操作,也不支持索
weixin_30700099
·
2020-08-14 20:09
HiveSQL常用优化方法全面总结
对Hive的调优既包含对
HiveQL
语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
jiedaodezhuti
·
2020-08-14 17:34
hive
hive
Hive两种模式安装
支持一种与SQL几乎完全相同的语言
HiveQL
,除了不支持更新、索引和事务。可以看成是从SQL到Map-Reduce的映射器。提供shell、JDBC/ODBC、thrift、Web等接口。
bingdongguke1
·
2020-08-14 16:34
数据库
大数据
shell
HiveQL
--随机生成日期
随机生成从某年某月某日到某年某月某日的日期例如随机生成从‘2017-05-01’到‘2018-05-31’的日期,可以使用如下HiveSql语句:selectid_card_no,card_name,date_add('2017-05-01',cast(rand()*396asint))asback_timefromshabi.testgroupbyid_card_no,card_name这里需要
Sun_Sherry
·
2020-08-14 01:55
SQL
【转】基于Hadoop的数据仓库Hive 基础知识
zhuanlan.zhihu.com/p/25608332Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–
HiveQL
曳落
·
2020-08-13 23:33
Hive
hadoop
hive
HiveSQL优化总结
对Hive的调优既包含对
HiveQL
语句本身的优化,也包含Hive配置项和MR方面的调整。
Share-Get
·
2020-08-11 23:10
Hive
【Hive】性能调优 - EXPLAIN
Hive版本:hive-1.1.0-cdh5.14.2用户提交
HiveQL
查询后,Hive会把查询语句转换为MapReduce作业。
NextAction
·
2020-08-11 20:50
Hive
关于
HiveQL
的常用语法总结(二)——DML
本节,应该是数据库作业中使用最频繁的内容,也是至为重要的一节。但是也不必紧张,无非就是增删改查,重点在于查,为什么呢?在大数据时代,最重要的两个主题是分析和挖掘。无论是分析还是挖掘,其基础都是有数据可依据,那么就需要将目标数据查找出来,因此这是最基础的一步,当然也就是用的最多的一步。本节主要讲四个方面:导入数据,插入数据,删除数据,查询数据。1、导入数据一般来说,在SQL创建表后,我们可以使用in
pends
·
2020-08-11 05:08
大数据学习
兄台别走,带您去看Hadoop和Spark的不同!!!
SparkSql–运行在Spark上的SQL查询语句,支持一系列SQL函数和
HiveQL
。但是还不是很成熟,所以不要在生产系统中使用;而
HiveQL
集成了需要的hive元数据和Hive相关的jar包。
我还有大把的头发
·
2020-08-11 05:21
Hive
HiveQL
基础知识及常用语句总结
https://blog.csdn.net/u012386109/article/details/78214894https://blog.csdn.net/u010385646/article/details/53167707基础语句CREATEDROP建表、删表建表----------------------------------------1.直接建表-------------------
hlang8160
·
2020-08-11 05:10
算法
基于Hadoop的数据仓库Hive基础知识
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–
HiveQL
,可通过HQL语句实现简单的MR统计,Hive
anningzhu
·
2020-08-11 05:54
hive
Hive从入门到放弃——
HiveQL
表级别DDL设计的艺术性(五)
HiveQL
数据库中的表DDL操作 博客Hive从入门到放弃——
HiveQL
数据库级别DDL设计的艺术性(四)聊完了数据库的基本操作,我们再来聊聊Hive内表的操作。
╭⌒若隐_RowYet
·
2020-08-10 06:06
Hadoop
Hive
Hive从入门到放弃——Hive优化实践(十六)
另外一点,其实之所以需要优化,基本的本质原因是因为数据倾斜导致的,
HiveQL
的各种优化方法基本都和数据倾斜密切相关,说白了就
╭⌒若隐_RowYet
·
2020-08-10 06:06
Hadoop
Hive
大二暑假第六周总结--开始学习Hadoop基础(五)
是一个构建于Hadoop顶端的数据仓库工具支持大规模数据存储,分析,具有良好的可扩展性某种程度上可以看做是用户编程接口,本身不存储和处理数据依赖分布式系统HDFS存储数据定义了简单的类似SQL的查询语言——
HIVEQL
weixin_30781775
·
2020-08-04 04:16
spark sql 执行流程
SparkSQL支持在Spark中执行SQL,或者
HiveQL
的关系查询表达式。列式存储的类RDD(DataSet/Dat
大数据系统工程师
·
2020-08-02 21:40
Spark
SQL
Hive学习之Hive数据库DDL
虽然本人对SQL有一定的了解,但绝不敢自称熟悉SQL,所以准备对
HiveQL
进行深入的学习,按照SQL通常的学习曲线,先学习DDL,再学习DML(数据操作语言)。
skyWalker_ONLY
·
2020-08-02 13:11
Hive
勤奋的Hive
Hive之自定义函数UDF使用&实现时间段转小时批次demo
maven项目2.上传jar包到hdfs上3.创建函数4.使用函数0.需求来源最近,接到这么一个需求,需要统计用户在一天中的各个时间段(比如02:00-09:00点)的电影播放时长,评估了一下需求,使用
hiveql
iayay222
·
2020-08-01 12:07
Hive
Java
Spark Sql-Sql on Hive
对hive的
hiveql
也提供了良好的支持。本章主要介绍spark如何对hql进行支持的。
raincoffee
·
2020-08-01 00:17
cdh5版本中的oozie hive action使用及踩坑集锦
本来的出发点是想做一个能够提交
hiveql
的web接口,然后我可以在接口层面做很多定制的功能,于是开始找hiverestful接口相关的信息,发现Hive有个webhcat服务,可以提交
hiveql
然后还可以将输出写入到指定的
xiao_jun_0820
·
2020-07-31 11:27
oozie
hive
cloudera
mamager
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTask错误,Hive是基于hadoop的封装,所有,hive在执行
hiveql
陈沅龙
·
2020-07-30 17:36
hive
ParseException line 20:7 Failed to recognize predicate 'timestamp'. Failed rule: 'identifier' in tab
今天在执行
hiveql
时,突然出现了这个错误,之前没遇到过。就自己在网上找原因,看了几篇回复都是不搭边的,都不想继续了,不过也给自己了个思路,有一篇英文贴是有效的。
星月情缘02
·
2020-07-30 05:59
ETL技术
Hadoop
HiveQL
的DDL操作(一)——创建、查询、修改、删除数据库
版权声明:本文为博主原创文章,未经博主允许不得转载。https://blog.csdn.net/wx1528159409目录一、创建数据库二、查询数据库2.1显示所有数据库(showdatabases)2.2模糊查询数据库(showdatabaseslike'*')2.3显示数据库信息(descdatabase)2.4显示数据库详细信息(descdatabaseextended)2.5切换当前数据
攻城狮Kevin
·
2020-07-29 00:24
Hive
Hive
大数据项目测试项目的测试工作
0.功能测试1.性能测试2.自动化测试3.文档评审4.脚本开发一、后台数据处理端后端的测试重点,主要集中在数据的采集处理、标签计算效率、异常数据排查(功能),测试脚本编写(
HiveQL
)、自动化脚本编写
weixin_30642029
·
2020-07-28 16:25
大数据-第07章 hive 结构原理图
执行流程:①客户编写
hiveQL
语句,并发送与hive服务器Driver②根据语句在数据源里面查找元数据③根据语句进行解释、编译、优化并发送与hadoop(1)将
hiveQL
语句先转换为抽象语法树(2)
lkk_123456
·
2020-07-28 02:55
大数据
hive
Hive Index
用户可以使用EXPLAIN语法来分析
HiveQL
语句是否可以使
a280966503
·
2020-07-27 18:02
hive
Spark SQL简介
从Shark说起Shark即HiveonSpark,为了实现与Hive兼容,Shark在
HiveQL
方面重用了Hive中的
HiveQL
解析、逻辑执行计划翻
tracy_668
·
2020-07-27 09:33
[hive]
hiveql
基础操作
1.显示当前的数据库信息直接修改hive.site.xml,永久显示2.建表,模糊显示表信息droptable表名称;--删除表showtables;--显示所有表showtableslike"*u*";---模糊匹配表信息createtable;---语法和mysql相似,创建表describe表名字;desc表名字;--查看表结构3.修改表名字altertable表名字renameto新表名。
a84480766
·
2020-07-15 19:08
HiveQL
:数据定义
–查看数据库sshowdatabases;–创建数据库createdatabasehuman_resources;–查找开头为h的所有数据库showdatabaselike'h.*';–创建数据库,并指定位置createdatabasefinancialslocation'my/dir'–创建数据库。并添加说明createdatabasefinancialscomment'Holdsallfina
hxhh
·
2020-07-15 14:44
Hive
Spark SQL入门基础
SparkSQL简介###从Shark说起Shark即hiveonSpark,为了实现与Hive兼容,Shark在
HiveQL
方面重用了Hive中
HiveQL
的解析、逻辑执行计划、翻译执行计划优化等逻辑
zxc123e
·
2020-07-15 13:36
Spark
Impala和Hive之间的SQL差异
HiveQL
功能在Im
xu704928452
·
2020-07-15 10:22
impala
HiveQL
常用查询函数——nvl、case when、concat、collect_set、collect_list、explode & lateral view、窗口函数、rank
目录1.nvl(value,default_value)2.casewheneg1:对表emp_sex,求每个部门男女人数eg2:统计每个国家隶属洲的人口数(已知字段数据按照另一种条件分组)eg3:统计不同国家男女个数(完成不同条件的分组)3.concat、concat_ws、collect_set(列转行)4.explode&lateralview(行转列)5.窗口函数(聚合函数+窗口函数,指定
攻城狮Kevin
·
2020-07-15 09:17
Hive
HiveQL
常用查询语句where、group by、having、join子句记录
由于hivesql中查询语句时,常用查询条件比较多,所以专门写一篇博文对
HiveQL
的查询语句进行总结,理清联系和区别。
攻城狮Kevin
·
2020-07-15 09:17
Hive
Hive数据倾斜解决方法总结
当我们在执行
HiveQL
或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。
weixin_30417487
·
2020-07-15 03:58
【Hive】07-
HiveQL
:视图
视图可以允许保存一个查询并像对待表一样对这个查询进行操作。这是一个逻辑结构,因为它不像一个表会存储数据。换句话说,Hive目前暂不支持物化视图。当一个查询引用一个视图时,这个视图所定义的查询语句将和用户的查询语句组合在一起,然后供Hive制定查询计划。从逻辑上讲,可以想象为Hive先执行这个视图,然后使用这个结果进行余下后续的查询。1、使用视图来降低查询复杂度当查询变得长或复杂的时候,通过使用视图
一直不懂
·
2020-07-14 22:35
Hive
nohup 命令 - 将程序以忽略挂起信号的方式运行起来
使用场景:一般我们都会使用XShell等终端模拟软件连接Linux服务器,但是在运行比较长时间的脚本(特别是一些
HiveQL
脚本)的时候,往往都要跑上个把小时甚至更长,这期间如果关闭终端窗口,运行的进程就会被杀死
qiongjingzhuan5515
·
2020-07-14 16:20
Linux
nohup
Hive取非Group by字段数据的方法
执行以下
hiveql
语句:SELECTsid,class_idFROMtable2GROUPBYsid;123456SELECTsid,class_idFROMtable2GROUPBYsid;会报错:
蚂蚁学Python
·
2020-07-14 16:15
Hive 用户自定义函数(UDF)
用户自定义函数UDF一、定义二、解释三、实例3.1导入相应的包3.2编写代码3.3打包3.4上传jar、编译、打包成jar包并添加到Hive中四、验证一、定义在Hive中,用户可以自定义一些函数用于扩展
HiveQL
Double_Road
·
2020-07-14 15:58
hive
Hive/
HiveQL
常用优化方法全面总结(下篇)
本文接上篇(https://www.jianshu.com/p/8e2f2f0d4b6c)继续讲解Hive/
HiveQL
常用优化方法,按照目录,会从“优化SQL处理join数据倾斜”说起。
LittleMagic
·
2020-07-14 06:06
hive自定义函数(UDF)
概述用户自定义函数(UDF)是一个允许用户扩展
HiveQL
的强大的功能。
冰上浮云
·
2020-07-14 01:55
hive
hadoop
bigdata
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他