E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hivesql
大数据系列——Spark学习笔记之 Spark SQL
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写Ma
EVAO_大个子
·
2019-06-14 00:00
spark
大数据开发实战:美团是如何应用Spark处理大数据的?
前言美团最初的数据处理以
HiveSQL
为主,底层计算引擎为MapReduce,部分相对复杂的业务会由工程师编写MapReduce程序实现。
yoku酱
·
2019-06-10 16:14
一文弄懂Hive基本架构和原理
文章目录概述Hive架构Hive数据模型
HiveSQL
的编译Hive执行计划
HiveSql
的MapReduce实现原理Join的实现原理GroupBy的实现原理Distinct的实现原理Hive文件压缩和文件存储
HaiwiSong
·
2019-06-07 19:39
大数据:hive
大数据
一文弄懂系列
数据仓库之拉链表
拉链表适用情况及优点1.适用情况2.优点三.拉链表举例(订单域)1.订单表结构2.为实现订单表存储,常用解决方案及存在问题(1)快照表(2)全量历史表==(3)历史拉链表==3.拉链表更新方案(1)假设(2)表结构及
hivesql
HW_870754395
·
2019-06-03 21:40
大数据
数据仓库
Hive Sql列转行 行专列 及Spark Dataframe Api使用
文章目录1.列转行1.1
HiveSql
1.2DataframeApi使用2.行转列2.1
HiveSql
2.2DataframeApi使用sparkdataframeapi1.6并不支持使用2.0后才支持使用
oiupoiupga1
·
2019-06-01 14:06
Hive Sql 性能优化——看这一篇就够啦!
今天听组内SQL小王子分享了一篇
HiveSql
性能优化的总结报告,甚觉精彩,赶紧来分享给大家!!一、尽量使用索引,避免全表查询①在where和orderby常用的字段上创建索引,提升效率的核心!
数据小斑马
·
2019-05-29 22:10
SQL
阿里云odps基本语法
odpssql:与
hivesql
语法基本一致odpscmd.batSQL语句不分大小写,使用“–”进行注释,使用分号作为语句结束符号数据定义语言(DDL),数据操作语言(DML),数据控制语言(DCL)
猿程序G
·
2019-05-29 15:32
阿里云odps
odps常用操作
大数据技术
HiveSQL
中的开窗函数 (窗口函数)
HiveSQL
窗口函数(开窗函数)1.相关函数说明OVER():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化。
Demo_chen
·
2019-05-22 21:19
Hive
SQL技巧高级系列②——聚合函数和CASE WHEN的使用
orderby)SQL技巧初级系列③——数据拼接(集合运算union和列连接join)SQL技巧中级系列①——字符串函数的使用SQL技巧中级系列②——日期函数的使用SQL技巧高级系列①——窗口分析函数的使用
HiveSql
数据小斑马
·
2019-05-19 20:44
SQL
SQL技巧高级系列①——窗口分析函数的使用
SQL技巧初级系列③——数据拼接(集合运算union和列连接join)SQL技巧中级系列①——字符串函数的使用SQL技巧中级系列②——日期函数的使用SQL技巧高级系列②——聚合函数和CASEWHEN的使用
HiveSql
数据小斑马
·
2019-05-19 19:06
SQL
SQL技巧初级系列②—聚合和排序(group by,having,order by)
union和列连接join)SQL技巧中级系列①——字符串函数的使用SQL技巧中级系列②——日期函数的使用SQL技巧高级系列①——窗口分析函数的使用SQL技巧高级系列②——聚合函数和CASEWHEN的使用
HiveSql
数据小斑马
·
2019-05-19 13:58
SQL
HIVE 动态分区的需要注意的问题
问题的引入在
hivesql
中使用动态分区非常方便,也比较常用,但是在使用的过程中会带来一些问题。
叫我不矜持
·
2019-05-11 11:00
hiveSql
对count(distinct *)的详细优化介绍
对原字段做处理后的分组groupbycasewhenurl=‘国美黄金官方商城’then‘生活’elseurlend对大数据里distinct的使用总结:只能放在第一个字段的前面,一个查询语句只能使用一次为啥只能使用一次?大数据里distinct去重是对所有查询字段的去重,所以只能出现一次不方便使用的时候,可以使用groupby代替;createtabletmp.c1asselect1asb,2a
学海无涯2.0
·
2019-04-30 10:59
hive学习
SparkSQL 学习笔记----Hive数据源实战
HiveContext继承自SQLContext,但是增加了在Hive元数据库中查找表,以及
HiveSQL
语法编写SQL的功能。除了sql()方法,HiveContext还提供了hq
PZ~浪味仙
·
2019-04-26 16:46
Spark
SQL
hive sql语句转换成mapreduce作业流程
在工作中,透彻的理解
hivesql
执行mapreduce的过程是非常有必要的;以下2种使用场景;1)SQL执行过程慢,要理解整个mapreduce过程,对于排查原因是非常有帮助的;2)面试的时候,有经验的从业人员都会问到这个问题
bigdata_lzw
·
2019-04-23 14:35
hive
sql
mapreduce
Hive
Hive,Mysql,Sqoop安装使用数据导入导出
查询功能,将SQL语句转换为MapReduce任务进行适合静态数据分析,数据变化不频繁不支持记录级别的更新插入或者删除,不支持事务提供ETL数据提取转化加载,可以维护海量数据,对数据挖掘后形成任意报告表单
HiveSQL
宁缺100
·
2019-04-22 23:18
大数据
数据仓库
HIVE的执行流程及UDF
HIVESQL
的执行流程SQLONHADOOP⇒ClusterSQL⇒Parser⇒AST(抽象语法树)⇒Analyzer⇒QB⇒LogicalPlan⇒OperatorTree⇒LogicalOptimizer
5xh
·
2019-04-18 22:00
HiveSQL
中group by 、join转MapReduce作业 过程详解
JoinSELECTe.empno,e.ename,e.deptno,d.dnameFROMempejoindeptdWHEREe.deptno=d.deptno先对数据进行切分(数据量大)然后执行map操作,map输出;k为join条件,v为不同来源的数打上标签,如:emp标签为a,dept标签为b.执行shuffle,把key相同的拉到一个task里reduce计算最终结果输出GroupbyS
huo_火力全开
·
2019-04-16 11:03
Hadoop
Hive
Hive SQL的执行流程分析
HiveSQL
的执行流程分析1)SQL执行非常慢2)面试selectyyy,聚合函数fromxxxgroupbyyyy;selecta.*,b.
HBinz
·
2019-04-14 21:16
Spark sql理论简介
了解SparkSql的必要性我们知道hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢
lds_include
·
2019-04-14 17:13
大数据
Spark
HiveSQL
正则表达式的应用
1.正则的通配符简介1)正则表达式的符号及意义^表示开头$表示结尾.表示任意字符*表示任意多个/做为转意,即通常在"/"后面的字符不按原来意义解释,如/b/匹配字符"b",当b前面加了反斜杆后//b/,转意为匹配一个单词的边界。-或-对正则表达式功能字符的还原,如"*"匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了"/"后,/a/*/将只匹配"a*"。^匹配一个输入或一行的开头,
wisdom_power
·
2019-04-14 13:16
大数据相关
Spark SQL 教程
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写Ma
张明洋_4b13
·
2019-03-12 18:13
1.SparkSql-Spark SQL 教程
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写Ma
__元昊__
·
2019-03-12 18:01
hive学习总结
hive学习总结1.组成2.运行流程
hivesql
转换为MapReduce过程3.hive操作数据3.1DML数据操作3.1.1数据导入表3.1.2数据导出表3.2DDL数据操作3.2.1数据库操作3.2.2
叁木-Neil
·
2019-02-28 19:06
大数据
HiveQL常用查询语句——排序、分桶、分桶抽样子句记录
由于
hivesql
中查询语句时,常用查询条件比较多,所以专门写一篇博文对HiveQL的查询语句进行总结,理清联系和区别。
攻城狮Kevin
·
2019-02-28 17:07
Hive
Hive Sql 嵌套 case when(if else)
一般我们使用
hivesql
中的casewhen是以下两种形式CASEaWHENbTHENc[WHENdTHENe]*[ELSEf]ENDCASEWHENaTHENb[WHENcTHENd]*[ELSEe
wgdzz
·
2019-02-28 09:15
编程
hive
[Spark基础]-- Spark sql使用(编程和 cli)
分布式的SQL查询引擎,官方测试结果比
Hivesql
快100倍;从Spark-2.2.0版本起,提供了基于代价的优化器。sparksql怎样使用?
highfei2011
·
2019-02-25 14:38
Spark
【每天一练:Hive SQL】求单月访问次数和总访问次数
HiveSQL
题:求单月访问次数和总访问次数数据如下:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015
debimeng
·
2019-02-24 16:58
每日一练
蒙夛的每日一练(SQL
逻辑等)
如何在HUE上通过oozie调用Hive SQL工作流
一、业务场景执行
HiveSQL
脚本查询mytable表数据前10条,field以”\t”分割,并输出到HDFS指定路径。
CREATE_17
·
2019-02-20 21:45
HUE
hive sql教程
HiveSql
入门教程前置教程hive库表知识hive库是表的一个集合,一个库拥有多个表,hive整个数据库拥有多个库。
csdn侠
·
2019-02-12 22:06
hive
大数据--------关于Hive Union使用说明
我在使用
HiveSQL
时,用关系型数据库SQL的语法写的
HiveSQL
.当进行多表union的时候,对数据进行去重,我用了如下SQL:selectbacc,lst_int_prvs_dt,lst_txn_mf_snfromtest1unionselectbacc
程序猿不加班
·
2019-02-12 16:40
hive
union
Impala,Hive,Hbase,关系数据库区别
Impala将相同的元数据,SQL语法(
HiveSQL
),ODBC驱动程序和用户界面(HueBeeswax)用作ApacheHive,为面向批量或实时查询提供熟悉且统一的平台。
RayfunC
·
2019-01-21 20:53
大数据框架
Impala
Spark整合Hive
通过hive来创建一定格式的表,将相应的数据上传到hdfs相应的hive目录下,实现用spark的SQL风格进行读取里面的数据
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce
小东升职记
·
2019-01-14 20:27
编程规则
新手必看
Spark
Hive SQL 语法一(DDL)
HiveSQL
语法一(DDL)Hive是基于Hadoop构建的一套数据仓库分析系统。它可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能。
geekingLi
·
2019-01-06 22:45
Hive
hivesql
删除数据、删除分区表、删除库表
--删除库dropdatabase[ifexists]db_name;--强制删除库dropdatabase[ifexists]db_namecascade;--删除表droptable[ifexists]table_name;--清空表,第二种方式insertoverwritetable_nameselect*fromtable_namewhere1=0;--删除分区altertabletabl
说的对
·
2019-01-04 10:50
hive
sql
Hive简介
qingyunzong/p/8707885.htmlHive简介什么是hive1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(
HiveSQL
hmxz2nn
·
2018-12-29 19:34
大数据组件
Impala大数据分析引擎视频教程
//pan.baidu.com/s/1_nrM2bb2QSolBBKwjkO6aQ提取码:uv5zImpala由Cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的
HiveSQL
大户型
·
2018-12-27 09:20
Impala
视频教程
hivesql
常用的几个函数
1、取字段a与b的商,结果保留两位小数round(字段a/字段b,2)2、将为null的字段变成0nvl(字段c,0)3、用于统计窗口内往上第n行值参数1为列名,参数2为往上第n行(可选,默认为1),参数3为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)LAG(col,n,DEFAULT)与LAG相反的是LEAD此时n表示向下n行LAG(col,n,DEFAULT)4.方差
魂落忘川犹在川
·
2018-12-26 19:51
大数据
hive
pandas dataframe 中的 explode 函数
在使用pandas进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于
hivesql
中的explode函数。这个函数如下:Code#!
Sinsa_SI
·
2018-12-26 12:28
工作经验记录
HIVE 动态分区的一个坑
HIVE动态分区的一个坑在
hivesql
中使用动态分区非常方便,也比较常用,但是在使用的过程中会带来一些问题,比如:在一段sql语句中我需要指定两个字段当做动态分区,一个字段的基数为7,另一个为4,这就是
CODE男孩
·
2018-12-26 11:08
hive
HiveSQL
DML动态分区
2.6动态分区模式(让分区成为变量)脚本模板INSERTOVERWRITETABLEtablenamePARTITION(partcol1[=var1],partcol2[=var2]...)select_statementFROMfrom_statement设置非严格模式sethive.exec.dynamic.partition.mode=nonstric;样例有新表student_outer
想艳阳天里的你
·
2018-12-21 11:09
hive
HiveSQL
底层Mapreduce的执行过程
select语句执行分析购买苹果手机iphone7的情况selectorder_id,buyer_id,cate_namefromorder_tablewhereday='20170101'andcate_name='iphone7';输入分片:在实际项目中,订单表通常会进行分区,一般按照自然天进行分区,SQL限制day=20170101实际上就限制了day=20170101的分区文件(如果不限制
从0到1哦
·
2018-12-20 23:59
hive
离线计算
1.
hivesql
2.调度平台3.Hadoop集群运维4.数据清洗(脚本语言)5.元数据管理6.数据稽查7.数据仓库模型架构2.流式计算是什么?
小飞猪小肥猪
·
2018-12-17 19:37
大数据
风暴
离线计算与实时计算
离线计算:批量(batch)获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、hive批量计算数据
hivesql
小东升职记
·
2018-12-17 19:09
编程规则
新手必看
Linux
小东升职记
Hive SQL执行原理和优化技巧笔记
导语时间飞梭而过,眼看这2018新年伊始,转眼间128大促已经落下帷幕,回顾过去的两周,协助大促监控和业务分析捞数竟然暂用了我大量的工作时间,期间不断的在用
HiveSQL
进行捞数分析,本着对工作认真负责的态度
vipshop_fin_dev
·
2018-12-17 01:48
Hive
大数据
4-hadoop之数据仓库hive(三) Hive 自定义函数
◆在hive中创建模板函数,使得后边可以使用该函数名称调用实际的udf函数◆
hivesql
中像调用系统函数一样使用udf函数
Aupa~Atleti
·
2018-12-08 12:51
3-hadoop之数据仓库hive(三) Hive 基础应用
对于一个不在表中存在的字段进行分区,即分区的字段为虚字段,在这种水平的分层后数据是完全物理隔离的之间没有关系分桶:各分桶相互独立,最终形成一个完整的数据块,分桶采用的是实字段每个分桶即为一个文件,按字段的哈希值分桶二、
HiveSql
Aupa~Atleti
·
2018-12-03 14:30
离线处理之Hive入门基础
它的原理也很简单,
hivesql
先被sql解析其解析,生产个一个可执行的mr计划,最后交给hadoop处理。hadoop是批量处理,所以hive也是高延迟的。
机器不能学习
·
2018-11-27 20:44
hive之经典sql面试题
Hivesql
面试selectstore,count(distinctuid)asuvfromVisitgroupbystore;select*fromUsersorderbyagedesc,total
wyc_595998412
·
2018-11-20 20:52
hive
hive内置函数及总结
①WordCount案例使用
hivesql
语句实现WordCount。
dmbds20
·
2018-11-17 15:18
hive操作
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他