E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hivesql
Apache Hive(二)
一、ApacheHive1、HiveSQLDML语法之加载数据2、HiveSQLDML语法之查询数据3、HiveSQLJoin关联查询4、
HiveSQL
中的函数使用数据仓库&ApacheHive请记住,
杀神lwz
·
2024-01-22 09:16
数据分析
大数据
apache
hive
hadoop
hive sql转换成MR任务过程
hivesql
转换成MR任务过程1)用户接口:ClientCLI(command-lineinterface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)2)元数据:Metastore
上官沐雪
·
2024-01-22 08:08
hive
hive
MySQL去重3种方法,还有谁不会?
在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如
HiveSQL
、Oracle等等)中还可以使用row_number窗口函数进行去重。
程序员大咖
·
2024-01-22 07:58
mysql
数据库
oracle
sql
hql(hive sql)中的join及踩过的坑
hql(即
hivesql
)的on子句中只支持and,不支持or,也不支持null的对比。leftouterjoin左外连接,也称为左连接。
AnillegalName
·
2024-01-21 08:21
hive
sql
hadoop
Hive-SQL语法大全
HiveSQL
语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name
S1406793
·
2024-01-21 08:20
大数据开发
hive
sql
hadoop
Hive性能调优(二)——一文搞懂
HiveSQL
执行计划
测试的数据请看上一篇博客,数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explainselects_age,s_scorefromstudent_tb_seqwheres_age=20;+----------------------------------
程研板
·
2024-01-20 13:19
#
Hive
hadoop
hive
大数据
mapreduce
某汽车外包-大数据开发-面试
1.自我介绍2.
hivesql
的执行流程3.mapreduce的原理。4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。
劝学-大数据
·
2024-01-19 16:28
大数据面试题
大数据
ClickHouse - 01
将数据抽取到HDFS中,这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理,也可以直接将数据抽取到Hive数仓中,一般可以将结构化的数据直接抽取到Hive数据仓库中,然后使用
HiveSQL
ArthurHC
·
2024-01-16 02:17
记csv、parquet数据预览一个bug的解决
二、实现过程1.业务流程如图:
hiveSQL
读取数据数据写入csv或parquet文件预览csv或parquet文件top100数据2.业务逻辑为了便于测试,
爱码少年
·
2024-01-14 08:49
雕虫小技
Java
java
spark
数据结构
hivesql
小技巧
hivesql
日志、执行计划怎么看/用DAG图,看多少个stage,每个stage的执行内容,mr任务,执行顺序,过滤条件,是否有按预期做数据裁剪如何判断长尾通过执行日志,查看卡住的任务,记录数、数据量远大于其它的任务
时光赠予
·
2024-01-14 07:40
【数据开发】
HiveSQL
临时表&分步执行(with, as )与时间函数(时间戳unix_timestamp)
1、分步执行(with…as…)
HiveSQL
中的WITH…AS…语句可以用于分步执行,即将一个大的查询语句拆分成多个小的查询语句,每个小的查询语句都可以使用WITH…AS…语句定义一个临时表,然后在后面的查询语句中使用这些临时表
小哈里
·
2024-01-14 07:51
#
后端开发
unix
hive
sql
数据仓库
大数据
hiveSQL
任务执行时间过长
在周例会上,发现自己经手过的任务运行时间在忙时长达两个多小时(公开处刑),这里总结下工作中遇到的一些造成任务执行效率低的原因:1、数据量过大比如有分区表,但是多表关联查询的时候没有指定分区,导致全表扫描。(注意on跟where的条)2、产生笛卡尔积优化3、访问API过多有些任务可能涉及到访问外部接口,过多的请求影响到任务执行效率。从业务或者其他方面优化4、从接口层取数前期的数仓设计不合理或者临时性
amberwest
·
2024-01-13 22:16
big
data
数据仓库
hive
hive sql 优化-转载csdn
HiveSQL
执行流程:InputFormat、OutputFormat、SerDe理清这三者之间的关系:SerDeisashortnamefor"SerializerandDeserializer."
仲間_9ee4
·
2024-01-11 23:36
hive sql 和 spark sql的区别
HiveSQL
和SparkSQL都是用于在大数据环境中处理结构化数据的工具,但它们有一些关键的区别:底层计算引擎:
HiveSQL
:Hive是建立在Hadoop生态系统之上的,使用MapReduce作为底层计算引擎
深度学习研究员
·
2024-01-11 07:08
hive
sql
spark
数据库
hive在mysql中总是不创建元数据库的解决办法
hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓
hivesql
。遂搞了台centos搭环境,搭环境嘛,当然是怎么简单怎么来,怎么快怎么来。
黄道婆
·
2024-01-09 13:21
bigdata
#
hive
hive
2024.1.7 Spark SQL , DataFrame
DataFrameSQL方式:DSL方式:一.SparkSQL简介SparkSQL只能处理结构化数据,属于Spark框架一个部分Schema:元数据信息特点:融合性,统一数据访问,hive兼容,标准化连接将
hivesql
白白的wj
·
2024-01-08 07:17
spark
sql
大数据
python
etl
数据仓库
hadoop
Hive实战:网址去重
完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用
HiveSQL
howard2005
·
2024-01-07 17:03
数仓技术Hive入门
hive
去重
hive之with as 和 create temporary区别
在写
hivesql
语句时,通常因为实现一个比较复杂的逻辑时,往往使用多层嵌套关联,首先导致代码的可读性较差,其次是代码性能比较低。因为这个原因,很多人都会想方设法去优化代码,提高代码的可读性和性能。
玩数据的小彬
·
2024-01-07 01:41
hive
hadoop
【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD
涉及的函数:unix_timestampfrom_unixtime【
HiveSQL
】常用日期函数汇总:错误思路:我寻思这不挺简单的吗?直接给你安排上to_date不就完事儿了。
王久也你又在造BUG
·
2024-01-06 15:55
【HQL的实战】
sql
hive
大数据
hiveSQL
基本语句三-----连接查询--inner join、left join、full join、union all、union
一、(inner)join连接2个表,取出公共部分必须重命名on后连接条件键值唯一连接前注意去重,提高效率inner可省略select*fromuser_list_1asainnerjoinuser_list_2asbona.user_id=b.user_id;三表连接selecta.user_namefrom(selectdistinctuser_namefromdata1)asainnerjo
cc抱富
·
2024-01-04 04:42
hive
语法
从零开始了解大数据(六):数据仓库Hive篇
架构与组件三、ApacheHive安装部署1.ApacheHive部署实战(1)Hadoop与Hive整合(2)Metastore服务启动方式四、ApacheHive客户端使用1.Hive自带客户端五、
HiveSQL
橘子-青衫
·
2024-01-04 02:51
大数据
从零开始了解大数据
大数据
数据仓库
hive
hadoop
分布式
Trino兼容Hive SQL方案探索
开发人员每次运行
HiveSQL
验证数据逻辑,需要等待较长时间。
DawsonSally
·
2024-01-03 11:15
大数据
Trino
java
数据库
大数据
数据仓库
Hive sql 行列转换(行转列,列转行)
在
Hivesql
应用中会遇到“行转列”和“列转行”的场景,下面介绍其基本使用语法。
m0_67392409
·
2023-12-31 21:27
面试
学习路线
阿里巴巴
hive
sql
数据库
开发语言
servlet
Hive实战:统计总分与平均分
一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表,加载HDFS数据文件4、利用
HiveSQL
howard2005
·
2023-12-28 10:16
数仓技术Hive入门
hive
总分
平均分
Spark从入门到精通23:Spark SQL简介
我们知道Hive是Hadoop生态中的一个数据分析引擎,它可以将
HiveSQL
转换成MapReduce任务提交到Hadoop集群中执行,大大简化了编写MapReduce程序的
金字塔下的小蜗牛
·
2023-12-28 09:20
Hive实战:词频统计
完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用
HiveSQL
howard2005
·
2023-12-27 23:24
数仓技术Hive入门
hive
hadoop
Hive 在工作中的调优总结
总结了一下在以往工作中,对于
HiveSQL
调优的一些实际应用,是日常积累的一些优化技巧,如有出入,欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作,partitioned
fx67ll
·
2023-12-27 18:50
大数据开发文档
hive
大数据
hadoop
[hive] sql中distinct的用法和注意事项
在
HiveSQL
中,DISTINCT用于去重查询结果中的行。它返回唯一的行,消除结果集中的重复项。
言之。
·
2023-12-26 13:09
hive
sql
hadoop
大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队
摘要:在大数据领域中,
HiveSQL
被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,
HiveSQL
查询的性能往往不尽人意。
京东云技术团队
·
2023-12-26 06:33
大数据
hive
sql
技本功|Hive优化之监控(三)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣YUNCHE
·
2023-12-24 03:15
技术文档
数据库
运维
hive
大数据
mysql
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣YUNCHE
·
2023-12-24 03:44
技术文档
spark
hive
Spark SQL 教程
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了
数据萌新
·
2023-12-22 10:06
Hive SQL判断一个字符串中是否包含字串的N种方式及其效率
HiveSQL
判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5:rlike方案6:strpos计算效率对比背景这是个常见需求
qiaoqiao2332
·
2023-12-21 14:59
hive
sql
hadoop
hiveSQL
时间日期处理
1.将字符串日期转为整型日期hive数据库中存储的时间是string类型的,但是我们在取数的时候,习惯把字符串型的日期转换为整型的日期,如将’2020-09-03’转换成’20200903’,转换方式如下:(1)regexp_replace(substr(create_time,1,10),'-','')(2)regexp_replace(to_date(create_time),'-','')2
是唱唱呀
·
2023-12-20 09:48
SQL
hive
sql
Hive-SQL语法大全
HiveSQL
语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name
黑马程序员官方
·
2023-12-20 09:16
hive
sql
数据库
[hive] 在hive sql中定义变量
在
HiveSQL
中,可以使用SET命令来定义变量。变量可以用于存储和引用常量或表达式的值,以便在查询中重复使用。
言之。
·
2023-12-19 06:16
hive
sql
hadoop
2022秋招蚂蚁金服面试
一是
hivesql
用来取数;二是python、excel,用来数据可视化。4、sql问题4.1数据库底层知识:主键是什么?主键是
七天笔记本
·
2023-12-18 12:32
sql
面试
职场和发展
数据分析
大数据架构(一)背景和概念
一、背景1.岗位现状大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写
HiveSQL
配置个离线任务、整个帆软报表都20K+起步。
野生的狒狒
·
2023-12-18 02:50
大数据
数据仓库
hive
HiveSql
语法优化三 :join优化
前面提到过:Hive拥有多种join算法,包括CommonJoin,MapJoin,BucketMapJoin,SortMergeBucktMapJoin等;每种join算法都有对应的优化方案。MapJoin在优化阶段,如果能将CommonJoin优化为MapJoin算法,那就会优化成MapJoin,但是在编译阶段如果所需的表大小是未知的(例如对子查询进行join操作),那么Hive会在编译阶段生
zmx_messi
·
2023-12-17 08:13
大数据
HiveSql
语法优化二 :join算法
Hive拥有多种join算法,包括CommonJoin,MapJoin,BucketMapJoin,SortMergeBucktMapJoin等,下面对每种join算法做简要说明:CommonJoinCommonJoin是Hive中最稳定的join算法,其通过一个MapReduceJob完成一个join操作。Map端负责读取join操作所需表的数据,并按照关联字段进行分区,通过Shuffle,将其
zmx_messi
·
2023-12-17 08:43
hive
hadoop
数据仓库
HiveSql
语法优化四 :Bucket Map Join和Sort Merge Bucket Map Join优化
BucketMapJoin之前的mapjoin适用场景是大表join小表的情况,但是两张表都相对较大,若采用普通的MapJoin算法,则Map端需要较多的内存来缓存数据,当然可以选择为Map段分配更多的内存,来保证任务运行成功。但是,Map端的内存不可能无上限的分配,所以当参与Join的表数据量均过大时,就可以考虑采用BucketMapJoin算法。比如下面两张表进行join操作:表名大小orde
zmx_messi
·
2023-12-17 08:09
数据库
HiveSql
语法优化一 :分组聚合优化
Hive中未经优化的分组聚合,是通过一个MapReduceJob实现的。Map端负责读取数据,并按照分组字段分区,通过Shuffle,将数据发往Reduce端,各组数据在Reduce端完成最终的聚合运算。Hive对分组聚合的优化主要围绕着减少Shuffle数据量进行,具体做法是map-side聚合。所谓map-side聚合,就是在map端维护一个hashtable,利用其完成部分的聚合,然后将部分
zmx_messi
·
2023-12-17 08:38
大数据
大数据的技术栈-逐步完善
目录1.hadoopa.HDFS分布式文件系统b.Yarn集群资源管理器c.MapReducesql引擎d.Impalasql引擎e.工具概观2.数据仓库知识a.Hive数据库1)
HiveSql
2)数据库结构
刘文钊1
·
2023-12-04 20:12
大数据
Hive SQL使用过程中的奇怪现象
HiveSQL
是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同
大数据技术与数仓
·
2023-12-03 08:07
Spark---SparkSQL介绍
除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的
HiveSql
可以
30岁老阿姨
·
2023-11-30 13:52
Spark
spark
大数据
分布式
大数据学习(26)-数据倾斜总结
&&大数据学习&&系列专栏:哲学语录:承认自己的无知,乃是开启智慧的大门如果觉得博主的文章还不错的话,请点赞+收藏⭐️+留言支持一下博主哦Hive数据倾斜问题是指在
HiveSQL
查询过程中,由于数据在表或列上的分布不均衡
viperrrrrrr
·
2023-11-29 17:30
大数据
学习
spark
hive
大数据学习之
HiveSQL
一.DDL(数据定义语言)1.DDL概述数据定义语言(DataDefinitionLanguage,DDL),是SQL语言集中对数据库内部的对象结构进行创建,删除,修改等的操作语言,这些数据库对象包括database(schema)、table、view、index等。核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。2.DDL建表2.1完整建表语法树蓝色字体
煜筱子
·
2023-11-29 17:29
大数据
学习
hive
sql
二百零八、Hive——
HiveSQL
异常:Select查询数据正常,但SQL语句加上group by查询数据为空
一、目的在
HiveSQL
的DWD层中,需要对原始数据进行去重在内的清洗,结果一开始其他数据类型的清洗工作都正常,直到碰到转向比数据。
天地风雷水火山泽
·
2023-11-29 07:50
Hive
hive
sql
hadoop
hivesql
将json格式字符串转为数组
hivesql
将json格式字符串转为数组完整过程SQL在文末json格式字符串本案例json字符串参考格式,请勿使用本数据{"data":[{"province":11,"id_card":"110182198903224674
李昊哲小课
·
2023-11-27 07:03
大数据
数据分析
Hive
json
大数据
数据仓库
hive
sql
数据分析
数据可视化
hive的条件查询语句_Hive SQL 条件函数 IF 详解
HiveSQL
条件函数IF是用于处理单个列的判断查询结果,形式为if(条件表达式,结果1,结果2),相当于java中的三目运算符,只是if后面的表达式类型可以不一样。
聚合收藏
·
2023-11-25 02:50
hive的条件查询语句
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他