E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hivesql
SQL去重的三种方法汇总
在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如
HiveSQL
、Oracle等等)中还可以使用
数据不吹牛
·
2023-01-02 15:56
mysql
数据库
java
sql
oracle
Hive的优化
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。Hive优化列裁剪和分区裁剪谓词下推sortby和orderbygroupby和distinctg
keepHungery
·
2022-12-23 10:34
Hive学习
hive
Hivesql
常用优化技巧
3.Hive通过
HiveSQL
进行解析和转换,最终映射成一系列在hadoop上运行的mapreduce任务,通过执行这些任务完成分析和处理。
久笙&
·
2022-12-22 21:27
Hivesql
hive
sql
hadoop
【面试真题】今日头条大数据面试100题,收藏备用
1、简述WordCount的实现过程2、简述MapReduce与Spark的区别与联系3、Spark在客户端与集群运行的区别4、相同的SQL在
HiveSql
与SparkSQL的实现中,为什么Spark比
大数据研习社
·
2022-12-21 04:02
大数据实战精英+架构师
面试题
Flink
big
data
hadoop
spark
Flink 1.16:Hive SQL 如何平迁到 Flink SQL
主要内容包括:
HiveSQL
迁移的动机
HiveSQL
迁移的挑战
HiveSQL
迁移的实践
HiveSQL
迁移的演示未来规划点击查看直播回放&演讲PDF一、
HiveSQL
迁移的动机Flink已经是流计算的事实标准
·
2022-12-18 18:20
大数据flask实时计算
hive sql案例练习一
文章目录
hivesql
案例练习一一、各年评分最高的电影类型(年份,类型,影评分)1、思路2、代码二、该影评库中各种类型电影中评价最高的5部电影(类型,电影名,平均影评分)1.思路2.代码三、1997年上映的电影中
Yvonne酸奶
·
2022-12-17 08:11
hive
sql
数据分析
Flink 1.16:Hive SQL 如何平迁到 Flink SQL
主要内容包括:
HiveSQL
迁移的动机
HiveSQL
迁移的挑战
HiveSQL
迁移的实践
HiveSQL
迁移的演示未来规划Tips:点击「阅读原文」获取PPT~01
HiveSQL
迁移的动机Flink已经是流计算的事实标准
Apache Flink
·
2022-12-16 08:53
hive
flink
sql
大数据
hadoop
最详细的Hive&HBase
Hive一Hive基本概念1Hive简介1.1什么是HiveHive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
kuokay
·
2022-12-11 11:21
大数据
HBase
Hive
数据库
大数据
Hive sql切换Flink sql常见问题汇总
FlinkSQL与
HiveSQL
语法存在差异,虽然FlinkSQL提供了
HiveSQL
的方言解析器,但是还有部分坑存在,如下是设置了Hive方言解析器时依旧存在的问题。
鬼谷第九徒
·
2022-12-10 13:27
flink
大数据
hive
sql
使用Flink1.16.0的SQLGateway迁移Hive SQL任务
使用Flink的SQLGateway迁移
HiveSQL
任务前言我们有数万个离线任务,主要还是默认的DataPhin调度CDP集群的HiveOnTez这种低成本任务,当然也有PySpark、打Jar包的Spark
虎鲸不是鱼
·
2022-12-10 13:50
笔记
云计算大数据
hive
sql
spark
flink
大数据
Spark的运行架构和基本原理
SparkSQL:Spark处理结构化数据的库,就像
HiveSQL
,Mysql一样,企业中用来做报表统计。SparkStreaming:实时数据流处理组件,类
陆山右
·
2022-12-09 09:56
Spark
Spark的运行架构和基本原理
Flink1.15 SQL实现自定义UDF
1FlinkSQL自定义函数分类说到UDF函数,通过
HiveSQL
的人会想到UDF、UDAF、UDTF,在FlinkTableAPI/SQL中没有可以提这几个概念,函数划分的会细一些,但是它们跟UDF、
大数据研习社
·
2022-12-07 12:23
大数据实战精英+架构师
Flink
linq
sql
c#
四万字Hive调优全方位指南(推荐收藏)
本文基本涵盖以下内容:一、基于Hadoop的数据仓库Hive基础知识二、
HiveSQL
语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、
HiveSQL
优化十二板斧六、Hive面试题(一)七、
公众号:肉眼品世界
·
2022-12-04 03:31
数据仓库
数据库
lighttpd
sharepoint
powerdesigner
HiveSQL
数据操控、查询语言(DML、DQL)
HiveSQL
数据操控、查询语言(DML、DQL)1Load——加载数据将数据load加载到表中时,hive不会进行如何转换,加载操作是将数据文件移动到与Hive表对应的位置的纯复制/移动操作。
Jaden_JH
·
2022-11-30 09:46
hadoop
big
data
hive
sql
HiveSQL
源码之语法词法编译文件解析一文详解
目录前言一、
HiveSQL
编译流程二、Antrl三、ANTLRWorks参阅前言工欲善其事必先利其器,首先要了解
HiveSQL
的编译语法的流程,还是需要懂得
HiveSQL
的执行流程以及编译规则。
fanstuck
·
2022-11-22 16:59
一文速学-SQL各类数据库操作
python
pandas
数据分析
hive
antrl
基于Python-sqlparse的SQL字段血缘追踪解析实现
目录前言一、字段血缘1.区别字段2.区别标识符序列3.功能函数设定二、字段血缘可视化点关注,防走丢,如有纰漏之处,请留言指教,非常感谢前言SQL解析和血缘追踪的研究现在差不多可以告一段落了,从8月22日写
HiveSQL
fanstuck
·
2022-11-22 16:49
sqlparse血缘解析
1024程序员节
数据库
mysql
python
sql
Hive——Hive/
HiveSQL
性能优化
文章目录Partition分区1.静态分区StaticPartition2.动态分区DynamicPartitionBucket分桶使用Spark作为执行引擎使用压缩使用ORC格式Join优化1.STREAMTABLE2.前置过滤条件3.Multi-wayJoin4.MapJoin(BroadcastJoin/Broadcast-HashJoin)5.SkewJoin基于代价的优化参考我们知道Hi
aof_
·
2022-11-18 09:21
Hive
Hive
Hive—— 1.hive架构及原理
Hive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
)查询功能,底层数据是存储在HDFS上,Hive的本质是将SQL
blueicex2020
·
2022-11-18 09:18
Hive
hive
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
本片博文是“大数据问题排查系列”之一,讲述某
HIVESQL
作业因为HIVE中的元数据与HDFS中实际的数据不一致引起的一个问题的排查和修复。以下是正文。
明哥的IT随笔
·
2022-11-12 04:59
hive
问题排查
hive
big
data
hadoop
Hive:用SQL对数据进行操作,导入数据、清洗脏数据、统计数据订单、优化结果输出等等
4.1方式一:shell命令4.2方式二:HQL(
hivesql
)4.3方式三:更新表,过滤首行(个人建议用这个SQL命令)5、每个用户有多少个订单?(分组)6、每个用户一个订单平均是多少商品?
唐樽
·
2022-11-08 10:41
大数据
Linux
大数据--学习
hive
sql
hadoop
5.1 Apache Hive DML语句与函数使用
ApacheHiveDML语句与函数使用一、HiveSQLDML语法之加载数据1、
HiveSQL
-DML-Load加载数据Load语法功能Load语法规则语法规则之filepath语法规则之LOCALLOCAL
周纠纠
·
2022-11-08 10:11
#
大数据Hadoop入门
hive
hadoop
apache
hiveSQL
执行,转化为MR过程
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。------百度百科--hive的库、表等数据操作实际是hdfs系统中的目录和文件,让开发者可以通过sql语句,像操作关系数
寒枫__梦
·
2022-11-08 10:40
hadoop-jar
hive
hadoop
mapreduce
hdfs
HiveSQL
函数优化原理
更多内容,欢迎观众公众号:livandata1、groupby的计算原理:代码为:SELECTuid,SUM(COUNT)FROMlogsGROUPBYuid;可以看到,groupby本身不是全局变量,任务会被分到各个map中进行分组,然后再在reduce中聚合。默认设置了hive.map.aggr=true,所以会在mapper端先groupby一次,最后再把结果merge起来,为了减少redu
算法与智能商业
·
2022-11-08 10:39
推荐算法专栏
数据库
HIVE
数据库
hive sql 基本命令总结
hive可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
。
maligebilaowang
·
2022-11-08 10:39
数据库相关(sql)
HiveSql
常用的时间维度计算方法(月初、月末、周几)及时间维度 表生成
目录0基础函数trunc()last_day()add_months()current_date()/current_datenext_daypmod()to_dateyearmonthhourdayofweekweekofyearquarterdatediffdate_adddate_subadd_monthsmonths_betweendate_format1关于月的计算1.1上月末1.2上月
莫叫石榴姐
·
2022-11-08 10:39
sql
SQLBOY1000题
HiveSql面试题
sql
数据库
Hive及Hive SQL优化
Hive及
HiveSQL
优化参考Hive/
HiveSQL
常用优化方法全面总结1.列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
hopeAnyDay
·
2022-11-08 10:39
hive
sql
HiveSQL
操作
文章目录1、SQL语言类型2、Hive的DDL操作:2.1、创建表:2.2、插入数据:2.3、修改表:2.4、删除表2.5分区2.6分桶2.7、总结3、Hive表的DQL4、Hive中的内置函数4.1、字符串处理相关4.2、JSON字符串解析4.3、聚合函数4.4、数据类型转化CAST5、Hive中的视图和索引5.1、视图5.2、索引6、Hive的日期函数时间函数6.1、Hive的日期函数6.2、
Always_Best_Sign_X
·
2022-11-08 10:08
大数据开发
hive
HiveSQL
常用优化方法经验总结
1.写在前面的话此处省略150字…2.Hive中解决数据倾斜的场景2.1大表Join小表时的数据倾斜(mapjoin) 在大表Join小表时,解决数据倾斜最好的方式是使用MapJoin,避免Shuffle,从而也避免了数据倾斜.mapjoin主要通过下面的参数来调节:#默认是truesethive.auto.convert.join=true--开启mapjoin//1.x版本及以后默认是开启的
enoughgood
·
2022-11-08 10:08
随笔
hive
大数据
4.2 Hive SQL
HiveSQL
-DDL一、
HiveSQL
语言:DDL建库、建表1、
HiveSQL
之数据库与建库SQL中DDL语法的作用Hive中DDL语法的使用数据库databasecreatedatabaseusedatabasedropdatabase2
周纠纠
·
2022-11-08 10:07
#
大数据Hadoop入门
hive
sql
数据库
Flink1.16 发布新特性
02SpeculativeExecution发现和缓解热点机器对作业的影响03HybridShuffle提供资源利用率和数据传输率04DynamicPartitionPruning过滤无用数据,提高处理效率Flink1.16Preview:
HiveSQL
京河小蚁
·
2022-11-03 10:43
flink
大数据
flink
HiveSQL
优化技巧总结
前言一、SQL语句的结构二、SQL语句的执行顺序三、HQL语句优化1.列裁剪和分区裁剪2.使用sortby代替orderby3.使用groupby代替distinct4.使用withas5.聚合操作--groupingsets、cube、rollup5.1groupingsets5.2cube5.3rollup6.unionall时可以开启并发执行7.表的join优化8.数据倾斜8.1参数调优8.
笑看风云路
·
2022-11-02 07:47
hive
数据库
hive
大数据
Spark执行
HiveSQL
以及Hive自定义函数
Spark执行Hive提示:Spark执行Hive的表只能是外表或是表不包含ACID事物的表文章目录Spark执行Hive前言一、pom.xml导入依赖执行的包二、使用步骤1.编写代码2.Spark执行脚本异常处理前言Hive一般作为大数据的数据仓库,因其语句和SQL大部分通用。所以很多数据为存储在Hive表中。提示:以下是本篇文章正文内容,下面案例可供参考一、pom.xml导入依赖执行的包代码如
swg321321
·
2022-10-30 19:17
#
Spark
大数据
hive
spark
big
data
Hive3详细教程(八)Hive3自定义UDF函数(elipse版)
因为Hive本身是Java开发的,所以我们可以使用Java定义函数供
HiveSQL
使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。
Java朱老师
·
2022-10-26 07:59
Hive3
hive
hadoop
Hive3详细教程(九)Hive3自定义UDF函数(IDEA Maven版)
因为Hive本身是Java开发的,所以我们可以使用Java定义函数供
HiveSQL
使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。
Java朱老师
·
2022-10-26 07:59
Hive3
hive
hadoop
hivesql
中 exists 用法
有一次面试的时候,面试官问了这么一个场景题:一家门店一个月内每位顾客访问的目的可能有多种,并给到访顾客的目的打标签1、2、3、4这四类,现在要统计这家门店一个月内没有3、4标签的顾客明细。(也就是顾客到访标签只有1或者2,但凡被打过3或4标签的客户都要被排除掉)很明显,这个场景用exists就很合适了。先建一张表,插入几条数据,简单模拟一下这个场景如上图,到访门店的一共四位顾客,不存在标签3、4的
Wflowerd
·
2022-10-25 21:32
Hive数据仓库构建
大数据
hivesql
hive
sql
hive调优常见策略
fetch抓取机制通俗解释:在执行
hivesql
的时候能不跑MapReduce程序尽量不跑MapReduce程序。直接针对表所对应的文件进行操作fetch默认是开启的。
大数据架构师Pony
·
2022-10-18 10:35
大数据之Hive
hive调优常见策略
大数据hive
hive调优
谈笑间学会大数据-Hive调优策略
谈笑间学会大数据-Hive调优策略
HiveSQL
是一种声明试语言,用户会提交声明式的查询,而Hive会将其转换成MapReducejob,大多数情况下,用户不需要了解Hive内部的实现原理的,这样就可以专注业务的事情
MrZhangBaby
·
2022-10-18 10:31
Hadoop
Hive
谈笑间学会大数据
hive
hadoop
大数据
大数据——Hive SQL优化
大数据——
HiveSQL
优化一、SELECT字段尽可能少,数据过滤尽可能提前二、能不用JOIN连接的就不用三、数据倾斜问题四、多表join时key保持一致五、去除空值和无意义的值一、SELECT字段尽可能少
长不大的大灰狼
·
2022-09-22 22:19
大数据
hive
大数据
sql
大数据系列 | SparkSQL&
HiveSQL
报错解决方法
问题原因:问题报错提示:Distinctwindowfunctionsarenotsupported:count(distinctxx)windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因:查阅资料后发现sparksql中的窗口函数不支持COUNT(DISTINCT
woshinsy
·
2022-09-21 13:09
#
HiveSQL
大数据和数据仓库
sql
数据库
hive
CDH6.3.2 Hive on spark报错is running beyond physical memory limits
Hue跑
hivesql
时报错如下java.lang.IllegalStateException:ConnectiontoremoteSparkdriverwaslost查看yarn报错日志如下Container
格格巫 MMQ!!
·
2022-09-21 13:38
hive
liunx
spark
hive
大数据
大数据面试之hive重点(二)
大数据面试之hive重点(二)
HiveSQL
转化为MR的过程?
大数据小理
·
2022-09-21 13:35
大数据面试
数仓面试
hive
hive
大数据
【踩坑实录】hive cli查询不显示表头
2.可修改hive配置文件,永久生效一、问题描述:在Hue中执行
hivesql
查询结果,没有显示出表头。二、解决方法:1.只调参,只在当前会话内生效。
chimchim66
·
2022-09-15 12:13
踩坑记录
hive
hadoop
数据仓库
python explode_pandas dataframe 中的explode函数用法详解
在使用pandas进行数据分析的过程中,我们常常会遇到将一行数据展开成多行的需求,多么希望能有一个类似于
hivesql
中的explode函数。这个函数如下:Code#!
weixin_39846553
·
2022-09-11 07:52
python
explode
数据分析常见SQL面试题汇总
文章目录在互联网公司实习中使用
HiveSQL
的一些体会和注意点SQL——计算次日留存率ntile的使用在不能使用ORDRBY的情况下解决排序问题最差是第几名(二)求中位数的排名考试分数(五)中位数SQL70
数据闲逛人
·
2022-09-10 18:51
【面试】
#
【SQL语句】
SQL中去重的三种方式
SQL去重是数据分析工作中比较常见的一个场景;在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如
HiveSQL
、Oracle等等)中还可以使用row_number
斯沃福德
·
2022-09-09 09:23
数据库
sql
数据库
mysql
Hive时间日期函数一文详解+代码实例
目录前言一、
HiveSQL
运行过程二、Hive时间函数1.获取当前时间1.current_date()2.current_timestamp()3.unix_timestamp()2.获取指定时间维度1
fanstuck
·
2022-09-08 10:49
一文速学-SQL各类数据库操作
大数据
数据分析
数据仓库
数据挖掘
hive
大白话描述SQL面试的知识点
一、SQL(结构化查询语言)SQL的分类:基本需要了解的:MySQL(99SQL)、HQL(
HiveSQL
)、SparkSQL、ImpalaSQL、OracleSQL的应用:MySQL数据库用于存放元数据较多
来自偶然的尘土
·
2022-09-06 09:51
SQL
Interview
MySQL面试
大数据工程师面试
HiveSql
调优系列之Hive严格模式,如何合理使用Hive严格模式
所谓Hive的严格模式,就是为了避免用户提交一些恶意SQL,消耗大量资源进而使得运行环境崩溃做出的一些安全性的限制。
鲁边
·
2022-09-02 18:00
Spark SQL and DataFrames
SparkSQL将SparkSQL转换为RDD,然后提交到集群执行,执行效率非常快,比如hive是将
hiveSQL
转换为MapRe
brz_em
·
2022-08-22 23:13
Spark
Spark
SQL
and
DataFrames
SparkSql
MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用2)Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的
HiveSql
zhangronglin1
·
2022-08-18 20:23
SparkSQL
Shark
Dataset
谓词下推
UDF和UDAF
上一页
4
5
6
7
8
9
10
11
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他