E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hivesql
HiveSql
中limit10的坑——对大数据量的表查询加group by
一般查询hive表中某个字段是否存在某个值,会使用如下查询语句select*from表名wheredt=XXXXand字段like'%某个值%'limit10;这种比较适合hive表数据量较小的情况,出现limit10,hive会默认判断此表数据量不大,只开启一个map进行查询,如果对于大表,比如好几百G上T的数据量,这么大的数据量只开一个map一方面查询慢,另一方面,因为数据量太大容易把机器跑崩
攻城狮Kevin
·
2020-06-29 22:52
Hive
dip-data-analyze 使用的hiveserver 实践之 jvm调优
其中5分钟任务有2个,小时任务有20个以上,晚上执行的任务有6个.任务并不多,都是使用
hivesql
连接到hiveserver去执行。本周曾经有2次hiveserver失效。
wf1982
·
2020-06-29 17:54
SparkSQL之一张贴告诉你什么是SparkSQL
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
王傲旗的大数据之路
·
2020-06-29 11:17
Spark
HiveSQL
解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
ming_rw
·
2020-06-29 09:19
Hive
impalasql和
hivesql
的窗口函数和根据月份时间增量取数
窗口函数和根据月份时间增量取数今天跟大家分享一下窗口函数举个例子:假设当前环境为impala,droptableifexistsdw.stu;----dw库中的stu表-------------------createtabledw.stu(fperiodstringcomment’年月’,namestringcomment’姓名’,ageintcomment’年龄’,salarydoubleco
全能小孩
·
2020-06-29 08:31
原创作者
hive sql 实现 时间循环
实现效果:
hivesql
实现:–根据开始时间和结束时间生成时间段内所有时间selectregexp_replace(date_add(dt,row_number()over(orderbydt)-1),
西西南偏南
·
2020-06-29 08:26
hbase
hive
大数据
hive
sqoop
flink SQL 外关联
flinkSQL的底层解析用的是apachecalcite,
hiveSQL
也用的calcite解析,因此flinkSQL的大致原理和我们常见的sql差不
呔 小怪兽休走
·
2020-06-28 22:53
scala
算法人必懂的Hive知识-四道Hive面试&笔试题解析
近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的
HiveSQL
问题,Hive作为算法工程师的一项必备技能,在面试中也是极有可能被问到的,所以有备无患,本文将对这四道题进行详细的解析,还是有一定难度的
悄悄的努力
·
2020-06-28 21:26
hive学习二
主要是想了解一下和
hivesql
是如何转换成mapreduce任务的,所以开搞。这个图主要描述了hive对于各种参数如-e、-f等参数的解析和对
hivesql
语句的完整性的处理等。
想什么就写什么
·
2020-06-28 21:47
HiveSQL
优化
HiveSQL
优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了(没有之一的那种),单独写MapReduce任务的应该不多了,主要还是用的
HiveSQL
一直青蛙
·
2020-06-28 20:44
BigData
hive精选50题
Hivesql
语句必练50题-入门到精通(1)spark-shell–masterspark://node1:7077–executor-memory1g–total-executor-cores2–jars
浮生若梦1379
·
2020-06-28 20:39
hive
Hive学习之路 (一)Hive初识
Hive简介什么是Hive1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(
HiveSQL
)查询功能5、底层数据是存储在
weixin_33704234
·
2020-06-28 03:03
Pandas处理大数据的一些小技巧
近期的工作和
HiveSQL
打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享近期的工作和
HiveSQL
打交道比较多
weixin_33682719
·
2020-06-28 03:23
[大数据面试题]hadoop核心知识点
*这里不涉及
HiveSQL
和HBase操作的笔试题,这些东西另有总结。1.MR意义。MR是一个用于处理大数据的分布式离线计算框架,它采用”分而治之“的思想。
weixin_30750335
·
2020-06-28 00:25
hive数据类型及其数据转换
由于需要使用
hivesql
进行数据查询,同时涉及多个不同类型的字段的组合,看
Hivesql
的文档相关和资料才知道,hive是支持大部分基础数据类型之间的相互转换的。
weixin_30730151
·
2020-06-28 00:28
hive引擎的选择:tez和spark
问题&&不便tez:在
hivesql
中使用了union或join操作tez会将任务切分,每个小任务,创建一个文件文件夹,如下:这就会造成一个非常严重的问题,假如这张表的下文,使用这张表没有用tez,而是使用
weixin_30709061
·
2020-06-27 23:31
HiveSQL
解析过程详解
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
weixin_30487317
·
2020-06-27 20:04
hiveSql
常见错误记录
1.Instrictmode,ifORDERBYisspecified,LIMITmustalsobespecified.这个错误提示是因为在hive下写的sql使用了orderby对数据进行数据排序,因为orderby事实上是全局排序,因此,在reduce阶段仅为一个reduce做汇总,为此,数据量庞大,在hive的严格模式下禁止全局排序的。两种解决方案更改hive严格模式设定sethive.m
weixin_30375427
·
2020-06-27 18:06
Hadoop Hive sql语法详解
分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查询分析需要的内容,这套SQL简称
HiveSQL
weixin_30355437
·
2020-06-27 18:47
HiveSQL
解析过程详解
HiveSQL
解析过程详解Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。
ljtyxl
·
2020-06-27 08:09
bigdata
一、
HiveSQL
基本操作
文章目录一、Hive数据类型1、基本类型2、复杂类型二、存储格式1、textfile2、SequenceFile3、RCFile4、ORCFile5、Parquet三、操作数据库1、创建数据库2、删除数据库3、进入数据库四、操作表属性1、显示数据库下面所有表2、删除表3、显示建表结果4、显示表分区5、修改表属性6、表重命名7、新增列8、删除列9、修改列10、删除分区11、增加分区12、修改分区、L
Wells·Lee
·
2020-06-27 05:50
【Hive】
hive表自增列实现方法(完全实现表中数据自增列唯一)之优化一(加快文件处理速度,已经非常非常快了)
Hive表自增列的实现,我在网上找了好久,大都是自己编写UDF(或者是UDAF/UDTF)之类的,或者是直接使用hive的lib库中提供的jar包,加载之后创建方法,然后在
hivesql
中调用,不过这些都会遇到一个问题
第一片心意
·
2020-06-27 04:22
hive
java
Hive 报错:Error: Error while compiling statement: FAILED: ParseException line 1:7 Failed to recognize
执行
hiveSQL
语句“selectoutfromXXX”时报错如下:Error:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:7Failedtorecognizepredicate'out
程序媛三妹
·
2020-06-27 01:53
Hive
Spark job在hue-oozie中的另一种方式调度
工作中使用的是hue来配置oozie工作流调度及任务中调度关系,sparkjob的输入是由
hivesql
产生输出的表,在配置sparkjob由于一些客观关系出现很多问题导致无法正确的执行,在oozie中支持
xubc
·
2020-06-27 00:14
spark
自动可视化报表搭建项目
一、项目基本信息目的:给某互联网客服中心搭建自动可视化报表供运营层使用;使用对象:运营总监、经理、主管;此使用对象决定底层表最小粒度;该项目使用工具:
Hivesql
、MySQL、Python、powerBI
tan_rong
·
2020-06-26 17:32
Hive1.2.2(三)
一、课前准备1.安装hive环境2.掌握hivesqlDDL和DML操作3.掌握
hivesql
的分区表创建和使用二、课堂主题本课堂主要围绕hive的查询操作进行讲解,主要包括以下几个方面1.select
起始的地方
·
2020-06-26 16:00
kylin sql查询验证
beta版中,SQL在cube中无法找到的数据将不会重定向到
HiveSQL
查询验证选择窗口最上方的Insight标签,输入SQL语句查询上面步骤创建的StreamingTable,点击Submit执行SQL
1057718341_h
·
2020-06-26 08:56
kylin
kylin
HiveSQL
找出连续日期及连续的天数
参考:https://www.cnblogs.com/Joetao/p/3842242.html参考关键代码:select本期起始日期=min(rq),本期终止日期=max(rq),持续天数=max(id1)-min(id1)+1,距上一期天数=casea.id1-a.id2when-1then0elsemax(datediff(d,rq2,rq))endfrom(selectid1=datedi
卡卡大叔
·
2020-06-26 07:59
Hive
hivesql
效率优化
1.groupby数据倾斜问题hive是根据groupby的key进行数据分发的,某个key相同的数据太多的会被分发到一个reducer上,key的数据分布不均匀会导致大量数据被shuffle到某个或者某些reducer上,出现严重的数据倾斜,使得数据计算变慢配置任务参数sethive.groupby.skewindata=true;原理:该配置会触发hive增加额外的mr过程,随机化key后进行
夜雨滴空阶
·
2020-06-26 07:58
工欲善其事
必先利其器
hive 执行计划
1,
hivesql
的执行顺序from...where....select...groupby...having...orderby...2,explain查看执行计划explainselectcity,
scottzcw
·
2020-06-26 02:15
HiveSQL
例题-常用函数与基础语法讲解
我们通过一些简单的案例来讲解Hive的常用基础语法以及一些常用的函数。学习目标:1.掌握HIVE基础语法、常用函数及其组合使用2.掌握一些基本业务指标的分析思路与实现技巧1、基础语法:SELECT…A…FROM…B…WHERE…C…A:列名B:表名C:筛选条件需求1:某次经营活动中,商家发起了"异性拼团购",试着针对某个地区的用户进行推广,找出匹配用户。思考:根据需求,我们可以参考实现选出地区城市
糖潮丽子
·
2020-06-25 16:17
大数据
学会使用JOIN语句
Hivesql
只支持等值连接,不支持非等值连接以及or连接(而标准sql是支持非等值连接的,
hivesql
不支持非等值连接的原因是,通过mapreduce很难实现这种类型的连接)。
upup-我是昵称存在的分割线
·
2020-06-25 09:37
Hive
葵花宝典--SparkSQL
它进行了优化;并且提供了两个抽象类:DadaFrame和DataSet2、特点易整合:完美的把sql和spark进行了无缝连接统一的数据访问:使用相同的方式连接不同的数据源兼容HIVE:在现有的仓库运行sql和
HiveSql
张薄薄
·
2020-06-25 07:45
HiveSQL
数据笔试题
题目一:计算平台的每一个用户发过多少朋友圈、获得多少点赞已知,数据如下:T1:10万行数据uid(用户id)log_id(日记id)uid1log_id1uid1log_id2uid2log_id3……T2:1000万行数据(注:没有被点赞的日记此表不做记录)log_id(日记id)like_uid(点赞的用户id)log_id1uid2log_id1uid3log_id1uid4log_id3u
流风雨情
·
2020-06-25 04:39
数据仓库&Hive
机器学习特征工程经验总结一
其实大部分人都是在跑数据,各种map-reduce,
hiveSQL
,数据仓库搬砖,数据清洗、数据清洗、数据清洗,业务分析、分析cas
levy_cui
·
2020-06-24 03:20
机器学习/数据挖掘
hiveSQL
常见面试题
小编前几天去面试了一个大数据分析的岗位,学习了几个月信心满满的小编被无情的面试教育了,被教育的不是一些高深的算法理论,而是一些
hiveSQL
。这些题小编真不是不会,场景都非常熟悉,但就是容易忘。
AI课工场
·
2020-06-24 00:51
技术文章
hiveSQL
程序员面试
面试题
代码
sparkSQL flinkSQL
hiveSQL
性能对比
最近在研究flink,发现较新版的flink支持sql,这下好了,我用spark两年了,对用法和性能算是踩过一些坑了。听说flink挺快的,那么flinkSQL和sparkSQL到底哪个快呢?想必很多人也想知道吧,那就拿数据说话(虽然不是自己做的基线测试,但好歹也找了好久)下图是hive,spark,flink的sql执行速度对比:下图是平均的综上所述,flinkSQL和sparkSQL的性能只差
dianfuwo9488
·
2020-06-23 04:32
写一个测试用例testcase,分别验证TXT文件和gzip文件的可并行计算性?
2)写
hivesql
,通过某种计算两种不同形式的数据文件对应的表,查看其map个数的差异3)下个结论txt文件测试:TXT压缩成gzip文件的时候保留原TXT文件:gzip-cinput.txt就生成了
classics_moon
·
2020-06-22 23:34
Hadoop为基础关于Hive的安装配置及连接(安装)MySQL和Navicat
Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
米卡玛卡
·
2020-06-21 20:06
笔记
Hive SQL执行计划深度解析
HiveSQL
执行计划深度解析转载:http://blog.csdn.net/moon_yang_bj/article/details/31744381分类:hadoop&hive2014-06-1711
forever_ai
·
2020-06-21 16:27
hive
Hive学习笔记(6)DDL
官方参考文档LanguageManualDDL创建/删除/更改/使用数据库在
hivesql
中database关键词和schema关键词可以互换,意思是一样的创建数据库CREATE(DATABASE|SCHEMA
井地儿
·
2020-06-21 08:41
Hive-谈谈你对Hive的认识
Hive通过把
HiveSQL
进行解析和转换,最终生成一系列在hadoop上运行的mapreduce任务,通过执行这些任务完成数据分析与处理。
吕二口
·
2020-06-04 17:00
Spark SQL 教程
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写Ma
weare_b646
·
2020-05-29 12:48
PHP 正则表达式 详细讲解如何提取两个字符串之间的字符(支持单个&多个)
场景:假如我有一个
hiveSQL
语句,需求为:将变量{@date}替换成具体的日期,如20200526,select"F"assex,c.movienameasname,avg(a.rate)asavgrate
申文哲
·
2020-05-26 20:00
pandas dataframe 中的explode函数用法详解
在使用pandas进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于
hivesql
中的explode函数。这个函数如下:Code#!
Sinsa_SI
·
2020-05-18 14:06
在hue oozie调度中执行含中文(汉字)的sql出现乱码
问题描述用的是cdh6,在hue是上编辑了一个
Hivesql
,其中包含了汉字。在hive编辑页面执行正常,通过工作流执行hive节点时会出现中文乱码。
Ryan_Fn
·
2020-05-14 13:22
【赵强老师】在Spark SQL中读取JSON文件
如果大家了解Hive的话,应该知道它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
collen7788
·
2020-05-11 15:08
大数据
Spark
SQL
hivesql
中使用join 关联表时where 和 on、join 的执行先后顺序
在
hivesql
中,总会遇到表关联的同时还需要对左右表进行过滤数据,但是where,on,join之间的先后顺序是怎么的呢?下面我们来一一探讨一下。
春风化雨~_~
·
2020-05-05 16:16
SQL
hive
sql
数据库
【赵强老师】在Spark SQL中读取JSON文件
如果大家了解Hive的话,应该知道它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
赵强老师
·
2020-04-13 07:58
spark
大数据
sql
hadoop
flink
Spark sql简介
类比hive,是将
hivesql
转化为mapreduce,然后提交到集群上执行,大大简化了程序的复杂性。由于mapreduce这种计算模型执行效率比较慢,所以sparksql应运而生。
bobo
·
2020-04-06 18:19
spark
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他