E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hivesql
HiveSQL
中常见的聚合函数,窗口函数有哪些?作用是什么?
1.聚合函数(把多行处理成一行)sum:求和count:计算总数max:最大值min:最小值avg:平均值。。。2.窗口函数over():指定分析函数工作的窗口的大小。currentrow:当前行npreceding:往前n行数据nfollowing:往后n行数据unbounded:起点unboundedprecening:从前面的起点开始unboundedfollowing:表示到后面的终点la
有风微冷
·
2020-07-11 18:12
知乎 Hive Metastore 实践:从 MySQL 到 TiDB
作者介绍:胡梦宇,知乎数据架构平台开发工程师背景ApacheHive是基于ApacheHadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并且提供了
HiveSQL
进行查询和分析,在离线数仓中被广泛使用
PingCAP
·
2020-07-11 13:25
hive
mysql
tidb
Impala安装文档完整版
除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(
HiveSQL
),ODBC驱动程序和用户界面(HueBeeswax)。
joerong888
·
2020-07-11 09:18
hadoop
SparkSql中时间阈操作【窗口函数】
最长签到,累计消费等问题,其实映射到其他业务场景也就变成了类似的计算;如游戏领域,连续登陆时间,连续签到时长,最大连续签到天数等常见的业务场景;方法都是共通的,这里就用sparksql来实现一些方法,
hivesql
哈士奇说喵
·
2020-07-10 22:08
SQL
Spark
Hadoop
Hive SQL 优化
要想做好hive优化,首先要理解MR过程,
HiveSQL
转换为MR的过程,以及Hive表的分区分桶机制。本质上的优化是,减少读,避免shuffle和增加并发度。
Mr_Hagrid
·
2020-07-10 20:51
小白爱AI
hive SQL基础经典练习题(上)
hiveSQL
基础经典练习题(上)
hiveSQL
入门容易,精通很难。基础的巩固相当重要,看起来简单易入门的SQL其实是千变万化的,能一次写正确SQL的工程师,亦然遵守二八法则。
Hero.Lin
·
2020-07-10 10:58
大数据
hive
Hive sql和Presto sql的一些对比
最近由于工作上和生活上的一些事儿好久没来博客园了,但是写博客的习惯还是得坚持,新的一年需要更加努力,困知勉行,终身学习,每天都保持空杯心态.废话不说,写一些最近使用到的PrestoSQL和
HiveSQL
weixin_30699235
·
2020-07-10 06:57
Hive之数据类型
Hive是基于Hadoop的一个数据仓库工具,一个数据仓库分析系统,在Hadoop中用来处理结构化数据,可以将结构化的数据映射为一张数据库表,并提供HQL(
hiveSQL
)查询功能,底层数据是存储在HDFS
摘星大师
·
2020-07-09 18:34
linux执行命令返回值问题
问题背景:在linux中执行python脚本,脚本中使用cmd调用hive-e来执行
hivesql
,脚本使用命令的exitcode退出。
「已注销」
·
2020-07-09 12:23
linux
踩坑小记
Hive/
HiveSQL
常用优化方法全面总结
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。
xinxindsj
·
2020-07-09 02:59
大数据
人工智能
互联网
大数据干货丨Hive 与 ElasticSearch 的数据交互
本文将详细介绍利用ES与Hive直接的数据交互;通过Hive外部表的方式,可以快速将ES索引数据映射到Hive中,使用易于上手的
HiveSQL
实现对数据的进一步加工。
xinxindsj
·
2020-07-09 02:58
大数据
人工智能
互联网
Spark SQL概述
Hive:将SQL语句转换成MapReduce程序执行,
HiveSQL
查询的MapReduce作业转化过程:输入将SQL转换成抽象语法树将抽象语法树转换成查询块将查询块转换成逻辑查询计划重写逻辑查询计划将逻辑查询计划转成物理计划选择最佳的优化查询策略输出
夕阳惜夏
·
2020-07-08 19:52
spark
Hive-
hiveSQL
调优
2019独角兽企业重金招聘Python工程师标准>>>前言很早以前也是写过
hivesql
优化分享,但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。
weixin_34114823
·
2020-07-08 16:22
Hive调优实战
Hive优化总结---by食人花优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。
szn
·
2020-07-08 07:39
mapjoin解析
今天遇到一个hive的问题,如下
hivesql
:selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录
love others as self
·
2020-07-08 05:09
MR
Hive SQL常用命令总结,大数据开发人员按需收藏
这种SQL就是
HiveSQL
,她可以将SQL语句转换为MapReduce任务运行,通过特殊的SQL去查询分析需要的内容,使不熟悉mapreduce的用户很方便的利用SQL语言查询,
技术大咖秀
·
2020-07-08 05:42
Hive
随手笔记
Run Hive on spark tasks with Hue, always running more than 30 min
环境CDH6.3.1Hive2.1.1(执行引擎Spark)HueSpark2.4.0问题Hue执行
hivesql
:理论上14.005s已经执行完了,结果已经正常返回,但是hue上的job持续了30m才结束
bertramlau
·
2020-07-07 13:30
大数据
Hive SQL 解析及应用
SQL已经成为各家"数据公司"必不可少的数据查询语言.Hive在其中的地位也更是显而易见,大多数批处理任务还是在使用
HiveSQL
开发.从Table级别看,一个
HiveSQL
文件,包含了如下信息:DROP
haitaoyao
·
2020-07-07 12:17
hive调优案例
Hive优化核心思想:把
HiveSQL
当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain显示执行计划EXPLAIN
浮生若梦1379
·
2020-07-06 19:19
hive
HiveSQL
DQL join与union
3.3join查询将多个表通过字段关联在一起,形成查询结果创建student_location表,存储学生的地理位置信息CREATETABLEstudent_location(idstringcomment'stdno',provincestringcomment'provincename',citystringcomment'cityname',regionstringcomment'regio
想艳阳天里的你
·
2020-07-06 04:20
hive
hive sql 的总结分析
旨在对
hivesql
整体总结记录todo总结一、hive的不同种类的joinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,union支持LEFTSEMIJOIN和CROSSJOIN
lianchaozhao
·
2020-07-06 02:02
hive
hive
Spark SQL
SparkSQL是支持在Spark中使用Sql、
HiveSql
、Scala中的关系型查询表达式。
weixin_34124939
·
2020-07-06 00:08
hiveSql
第十二单元常用函数、窗口函数(开窗函数)1、常用函数1.1字符串--字符串拼接函数concatselectconcat('abc','def');selectconcat_ws('-','abc','def');--求字符串长度lengthselectlength('jsdfijsdkfjkdsfjkdf');1.2日期--日期函数to_dateselectto_date('2019-09-111
故里良田
·
2020-07-05 21:27
hiveSQl
学习
语法:https://blog.csdn.net/hguisu/article/details/7256833Hive入门及常用指令:https://blog.csdn.net/u014236541/article/details/78245924外部表与内部表区别:https://blog.csdn.net/qq_36743482/article/details/78393678创建分区表:ht
Kevinniec
·
2020-07-05 05:47
数据中台
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-07-05 01:27
大数据
spark
sql
hadoop
flink
mapreduce 实现内连接,左连接,右连接,全连接,反连接
mapreduce可以实现sql所做的任何查询操作,通过写mapreduce可以了解hadoop里面的数据操作,提高
hivesql
的性能。
勿在浮沙筑高台LS
·
2020-07-04 11:09
Hadoop
大数据学习路线(完整详细版)
清洗:Spark、
HiveSQL
/SparkSQL、MapReduce(已经过时)存储:HDFS、Alluxio(分布式内存存储)、Redis(高速缓存)
✾ ͡冷೨夏ʚɞ͜✿
·
2020-07-04 01:19
大数据学习
大数据开发
Hadoop
大数据
大数据开发
大数据学习
编程语言
程序员
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-07-02 16:00
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-07-02 16:00
【赵强老师】什么是Spark SQL?
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
collen7788
·
2020-07-02 15:54
Spark
SQL
大数据
Ubuntu16安装HIVE全程记录
什么是HiveHive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
)查询功能,底层数据是存储在HDFS上。
chengshuo678
·
2020-07-02 05:41
Hive
HiveSQL
基础之常用函数
1.如何把时间戳转换成日期语法from_unixtime(bigintunixtime,stringformat)format1.yyyy-MM-ddhh:mm:ss2.yyyy-MM-ddhh3.yyyy-MM-ddhh:mm4.yyyyMMdd举例SELECTfrom_unixtime(paytime,'yyyy-MM-ddhh:mm:ss')FROMuser_tradeWHEREdt='20
华夏_数据分析
·
2020-07-01 09:48
HiveSQL
SQL
Hive/
HiveSQL
常用优化方法全面总结
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。
大数据技术与架构
·
2020-07-01 05:54
Spark基本架构及运行原理
SparkSQL:Spark处理结构化数据的库,就像
HiveSQL
,Mysql一样,企业中用来做报表统计。SparkStreaming:实时数据流处理组件,类似Storm。SparkStrea
zxc123e
·
2020-06-30 20:51
Spark
Hive的10种常用优化总结,再也不怕MapReduce分配不均了
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
Leo.yuan
·
2020-06-30 10:29
[Hive]Hive调优:让任务并行执行
业务背景extract_trfc_page_kpi的
hivesql
如下:setmapred.job.queue.name=pms;sethive.exec.reducers.max=8;setmapred.reduce.tasks
yeweiouyang
·
2020-06-30 07:53
[大数据]Hive
Apache
Hive
Oozie作业调度 - Demo
可靠的工作流调度系统,它内部定义了三种作业:1.工作流作业:由一系列动作构成的有向无环图(DAGs)2.协调器作业:按时间频率周期性触发Oozie工作流的作业3.Bundle作业:管理协调器作业一、首先示例提交
HiveSQL
迷失技术de小猪
·
2020-06-30 06:19
大数据
数据开发
Hive调优实战
优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
xch_w
·
2020-06-29 23:33
Hive
hive
性能
hive部分:hive的优化,MapReduce的优化
hive核心思想:把
HiveSQL
当做Mapreduce程序去优化。以下SQL不会转为Mapreduce来执行:select仅查询本表字段;where仅对本表字段做条件过滤。
道法—自然
·
2020-06-29 22:26
大数据开发面试
HiveSql
性能优化
一、解决数据倾斜1.过滤掉null部分key值存在大量空字段,会hash到同一reduce,造成reduce长尾,将null值过滤掉举例:selectuser_idfromlogswherestatdate='20170815'whereuser_idisnotnull;2.hivejoin倾斜:设置joinskew参数解决sethive.optimize.skewjoin=true;sethiv
攻城狮Kevin
·
2020-06-29 22:52
Hive
HiveSql
中limit10的坑——对大数据量的表查询加group by
一般查询hive表中某个字段是否存在某个值,会使用如下查询语句select*from表名wheredt=XXXXand字段like'%某个值%'limit10;这种比较适合hive表数据量较小的情况,出现limit10,hive会默认判断此表数据量不大,只开启一个map进行查询,如果对于大表,比如好几百G上T的数据量,这么大的数据量只开一个map一方面查询慢,另一方面,因为数据量太大容易把机器跑崩
攻城狮Kevin
·
2020-06-29 22:52
Hive
dip-data-analyze 使用的hiveserver 实践之 jvm调优
其中5分钟任务有2个,小时任务有20个以上,晚上执行的任务有6个.任务并不多,都是使用
hivesql
连接到hiveserver去执行。本周曾经有2次hiveserver失效。
wf1982
·
2020-06-29 17:54
SparkSQL之一张贴告诉你什么是SparkSQL
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
王傲旗的大数据之路
·
2020-06-29 11:17
Spark
HiveSQL
解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
ming_rw
·
2020-06-29 09:19
Hive
impalasql和
hivesql
的窗口函数和根据月份时间增量取数
窗口函数和根据月份时间增量取数今天跟大家分享一下窗口函数举个例子:假设当前环境为impala,droptableifexistsdw.stu;----dw库中的stu表-------------------createtabledw.stu(fperiodstringcomment’年月’,namestringcomment’姓名’,ageintcomment’年龄’,salarydoubleco
全能小孩
·
2020-06-29 08:31
原创作者
hive sql 实现 时间循环
实现效果:
hivesql
实现:–根据开始时间和结束时间生成时间段内所有时间selectregexp_replace(date_add(dt,row_number()over(orderbydt)-1),
西西南偏南
·
2020-06-29 08:26
hbase
hive
大数据
hive
sqoop
flink SQL 外关联
flinkSQL的底层解析用的是apachecalcite,
hiveSQL
也用的calcite解析,因此flinkSQL的大致原理和我们常见的sql差不
呔 小怪兽休走
·
2020-06-28 22:53
scala
算法人必懂的Hive知识-四道Hive面试&笔试题解析
近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的
HiveSQL
问题,Hive作为算法工程师的一项必备技能,在面试中也是极有可能被问到的,所以有备无患,本文将对这四道题进行详细的解析,还是有一定难度的
悄悄的努力
·
2020-06-28 21:26
hive学习二
主要是想了解一下和
hivesql
是如何转换成mapreduce任务的,所以开搞。这个图主要描述了hive对于各种参数如-e、-f等参数的解析和对
hivesql
语句的完整性的处理等。
想什么就写什么
·
2020-06-28 21:47
HiveSQL
优化
HiveSQL
优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了(没有之一的那种),单独写MapReduce任务的应该不多了,主要还是用的
HiveSQL
一直青蛙
·
2020-06-28 20:44
BigData
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他