E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hivesql
二百二十一、
HiveSQL
报错:return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
一、目的在运行
HiveSQL
时,执行报错tatement:FAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTask
天地风雷水火山泽
·
2024-01-31 06:48
Hive
hive
【hive】相关性函数进行相关性分析
文章目录CORRCOVAR_POPCOVAR_SAMPSTDDEV_POPSTDDEV_SAMP在
HiveSQL
中,使用类似的相关性函数进行相关性分析。
言之。
·
2024-01-30 20:12
hive
flink sql 知其所以然(十六):flink sql 开发企业级利器之 Dlink
搞大数据开发的同学基本都知道在HUE上面写
hivesql
贼爽。那么有没有写flinksql的企业级的webIDE推荐的呢?
大数据羊说
·
2024-01-30 11:06
Apache
Flink
实时计算
Flink
SQL
flink
sql
hive
HiveSQL
题——窗口函数(lag/lead)
目录一、窗口函数的知识点1.1窗户函数的定义1.2窗户函数的语法1.3窗口函数分类1.4前后函数:lag/lead二、实际案例2.1股票的波峰波谷0问题描述1数据准备2数据分析3小结2.2前后列转换(面试题)0问题描述1数据准备2数据分析3小结一、窗口函数的知识点1.1窗户函数的定义窗口函数可以拆分为【窗口+函数】。窗口函数官网指路:LanguageManualWindowingAndAnalyt
爱吃辣条byte
·
2024-01-30 07:42
Hive
大数据
数据仓库
hive
HiveSQL
题——排序函数(row_number/rank/dense_rank)
一、窗口函数的知识点1.1窗户函数的定义窗口函数可以拆分为【窗口+函数】。窗口函数官网指路:LanguageManualWindowingAndAnalytics-ApacheHive-ApacheSoftwareFoundationhttps://cwiki.apache.org/confluence/display/Hive/LanguageManual%20WindowingAndAnaly
爱吃辣条byte
·
2024-01-30 07:40
Hive
大数据
数据仓库
hive
HiveSQL
题——用户连续登陆
目录一、连续登陆1.1连续登陆3天以上的用户0问题描述1数据准备2数据分析3小结1.2每个用户历史至今连续登录的最大天数0问题描述1数据准备2数据分析3小结1.3每个用户连续登录的最大天数(间断也算)0问题描述1数据准备2数据分析3小结一、连续登陆1.1连续登陆3天以上的用户0问题描述查询连续登陆3天以上的用户(字节面试题)1数据准备createtableifnotexiststable1(idi
爱吃辣条byte
·
2024-01-28 23:09
Hive
数据仓库
大数据
sql
1分钟了解基于Hadoop的数据仓库工具Hive(附超实用示例)
Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
yuyuyuyo
·
2024-01-27 05:53
HiveSQL
:gouping sets
https://blog.csdn.net/MOUNINGA/article/details/99408470?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-6.baidujsUnder6&depth_1-utm_source=distribute.pc_r
木亦木木兮_0432
·
2024-01-26 17:14
大厂大数据面试题收录(1)
8.
Hivesql
到MapReduce转化的流程清楚吗?
后季暖
·
2024-01-23 11:49
java
开发语言
Apache Hive(二)
一、ApacheHive1、HiveSQLDML语法之加载数据2、HiveSQLDML语法之查询数据3、HiveSQLJoin关联查询4、
HiveSQL
中的函数使用数据仓库&ApacheHive请记住,
杀神lwz
·
2024-01-22 09:16
数据分析
大数据
apache
hive
hadoop
hive sql转换成MR任务过程
hivesql
转换成MR任务过程1)用户接口:ClientCLI(command-lineinterface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)2)元数据:Metastore
上官沐雪
·
2024-01-22 08:08
hive
hive
MySQL去重3种方法,还有谁不会?
在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如
HiveSQL
、Oracle等等)中还可以使用row_number窗口函数进行去重。
程序员大咖
·
2024-01-22 07:58
mysql
数据库
oracle
sql
hql(hive sql)中的join及踩过的坑
hql(即
hivesql
)的on子句中只支持and,不支持or,也不支持null的对比。leftouterjoin左外连接,也称为左连接。
AnillegalName
·
2024-01-21 08:21
hive
sql
hadoop
Hive-SQL语法大全
HiveSQL
语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name
S1406793
·
2024-01-21 08:20
大数据开发
hive
sql
hadoop
Hive性能调优(二)——一文搞懂
HiveSQL
执行计划
测试的数据请看上一篇博客,数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explainselects_age,s_scorefromstudent_tb_seqwheres_age=20;+----------------------------------
程研板
·
2024-01-20 13:19
#
Hive
hadoop
hive
大数据
mapreduce
某汽车外包-大数据开发-面试
1.自我介绍2.
hivesql
的执行流程3.mapreduce的原理。4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。
劝学-大数据
·
2024-01-19 16:28
大数据面试题
大数据
ClickHouse - 01
将数据抽取到HDFS中,这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理,也可以直接将数据抽取到Hive数仓中,一般可以将结构化的数据直接抽取到Hive数据仓库中,然后使用
HiveSQL
ArthurHC
·
2024-01-16 02:17
记csv、parquet数据预览一个bug的解决
二、实现过程1.业务流程如图:
hiveSQL
读取数据数据写入csv或parquet文件预览csv或parquet文件top100数据2.业务逻辑为了便于测试,
爱码少年
·
2024-01-14 08:49
雕虫小技
Java
java
spark
数据结构
hivesql
小技巧
hivesql
日志、执行计划怎么看/用DAG图,看多少个stage,每个stage的执行内容,mr任务,执行顺序,过滤条件,是否有按预期做数据裁剪如何判断长尾通过执行日志,查看卡住的任务,记录数、数据量远大于其它的任务
时光赠予
·
2024-01-14 07:40
【数据开发】
HiveSQL
临时表&分步执行(with, as )与时间函数(时间戳unix_timestamp)
1、分步执行(with…as…)
HiveSQL
中的WITH…AS…语句可以用于分步执行,即将一个大的查询语句拆分成多个小的查询语句,每个小的查询语句都可以使用WITH…AS…语句定义一个临时表,然后在后面的查询语句中使用这些临时表
小哈里
·
2024-01-14 07:51
#
后端开发
unix
hive
sql
数据仓库
大数据
hiveSQL
任务执行时间过长
在周例会上,发现自己经手过的任务运行时间在忙时长达两个多小时(公开处刑),这里总结下工作中遇到的一些造成任务执行效率低的原因:1、数据量过大比如有分区表,但是多表关联查询的时候没有指定分区,导致全表扫描。(注意on跟where的条)2、产生笛卡尔积优化3、访问API过多有些任务可能涉及到访问外部接口,过多的请求影响到任务执行效率。从业务或者其他方面优化4、从接口层取数前期的数仓设计不合理或者临时性
amberwest
·
2024-01-13 22:16
big
data
数据仓库
hive
hive sql 优化-转载csdn
HiveSQL
执行流程:InputFormat、OutputFormat、SerDe理清这三者之间的关系:SerDeisashortnamefor"SerializerandDeserializer."
仲間_9ee4
·
2024-01-11 23:36
hive sql 和 spark sql的区别
HiveSQL
和SparkSQL都是用于在大数据环境中处理结构化数据的工具,但它们有一些关键的区别:底层计算引擎:
HiveSQL
:Hive是建立在Hadoop生态系统之上的,使用MapReduce作为底层计算引擎
深度学习研究员
·
2024-01-11 07:08
hive
sql
spark
数据库
hive在mysql中总是不创建元数据库的解决办法
hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓
hivesql
。遂搞了台centos搭环境,搭环境嘛,当然是怎么简单怎么来,怎么快怎么来。
黄道婆
·
2024-01-09 13:21
bigdata
#
hive
hive
2024.1.7 Spark SQL , DataFrame
DataFrameSQL方式:DSL方式:一.SparkSQL简介SparkSQL只能处理结构化数据,属于Spark框架一个部分Schema:元数据信息特点:融合性,统一数据访问,hive兼容,标准化连接将
hivesql
白白的wj
·
2024-01-08 07:17
spark
sql
大数据
python
etl
数据仓库
hadoop
Hive实战:网址去重
完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用
HiveSQL
howard2005
·
2024-01-07 17:03
数仓技术Hive入门
hive
去重
hive之with as 和 create temporary区别
在写
hivesql
语句时,通常因为实现一个比较复杂的逻辑时,往往使用多层嵌套关联,首先导致代码的可读性较差,其次是代码性能比较低。因为这个原因,很多人都会想方设法去优化代码,提高代码的可读性和性能。
玩数据的小彬
·
2024-01-07 01:41
hive
hadoop
【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD
涉及的函数:unix_timestampfrom_unixtime【
HiveSQL
】常用日期函数汇总:错误思路:我寻思这不挺简单的吗?直接给你安排上to_date不就完事儿了。
王久也你又在造BUG
·
2024-01-06 15:55
【HQL的实战】
sql
hive
大数据
hiveSQL
基本语句三-----连接查询--inner join、left join、full join、union all、union
一、(inner)join连接2个表,取出公共部分必须重命名on后连接条件键值唯一连接前注意去重,提高效率inner可省略select*fromuser_list_1asainnerjoinuser_list_2asbona.user_id=b.user_id;三表连接selecta.user_namefrom(selectdistinctuser_namefromdata1)asainnerjo
cc抱富
·
2024-01-04 04:42
hive
语法
从零开始了解大数据(六):数据仓库Hive篇
架构与组件三、ApacheHive安装部署1.ApacheHive部署实战(1)Hadoop与Hive整合(2)Metastore服务启动方式四、ApacheHive客户端使用1.Hive自带客户端五、
HiveSQL
橘子-青衫
·
2024-01-04 02:51
大数据
从零开始了解大数据
大数据
数据仓库
hive
hadoop
分布式
Trino兼容Hive SQL方案探索
开发人员每次运行
HiveSQL
验证数据逻辑,需要等待较长时间。
DawsonSally
·
2024-01-03 11:15
大数据
Trino
java
数据库
大数据
数据仓库
Hive sql 行列转换(行转列,列转行)
在
Hivesql
应用中会遇到“行转列”和“列转行”的场景,下面介绍其基本使用语法。
m0_67392409
·
2023-12-31 21:27
面试
学习路线
阿里巴巴
hive
sql
数据库
开发语言
servlet
Hive实战:统计总分与平均分
一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表,加载HDFS数据文件4、利用
HiveSQL
howard2005
·
2023-12-28 10:16
数仓技术Hive入门
hive
总分
平均分
Spark从入门到精通23:Spark SQL简介
我们知道Hive是Hadoop生态中的一个数据分析引擎,它可以将
HiveSQL
转换成MapReduce任务提交到Hadoop集群中执行,大大简化了编写MapReduce程序的
金字塔下的小蜗牛
·
2023-12-28 09:20
Hive实战:词频统计
完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用
HiveSQL
howard2005
·
2023-12-27 23:24
数仓技术Hive入门
hive
hadoop
Hive 在工作中的调优总结
总结了一下在以往工作中,对于
HiveSQL
调优的一些实际应用,是日常积累的一些优化技巧,如有出入,欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作,partitioned
fx67ll
·
2023-12-27 18:50
大数据开发文档
hive
大数据
hadoop
[hive] sql中distinct的用法和注意事项
在
HiveSQL
中,DISTINCT用于去重查询结果中的行。它返回唯一的行,消除结果集中的重复项。
言之。
·
2023-12-26 13:09
hive
sql
hadoop
大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队
摘要:在大数据领域中,
HiveSQL
被广泛应用于数据仓库的数据查询和分析。然而,由于数据量庞大和复杂的查询需求,
HiveSQL
查询的性能往往不尽人意。
京东云技术团队
·
2023-12-26 06:33
大数据
hive
sql
技本功|Hive优化之监控(三)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣YUNCHE
·
2023-12-24 03:15
技术文档
数据库
运维
hive
大数据
mysql
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣YUNCHE
·
2023-12-24 03:44
技术文档
spark
hive
Spark SQL 教程
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了
数据萌新
·
2023-12-22 10:06
Hive SQL判断一个字符串中是否包含字串的N种方式及其效率
HiveSQL
判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5:rlike方案6:strpos计算效率对比背景这是个常见需求
qiaoqiao2332
·
2023-12-21 14:59
hive
sql
hadoop
hiveSQL
时间日期处理
1.将字符串日期转为整型日期hive数据库中存储的时间是string类型的,但是我们在取数的时候,习惯把字符串型的日期转换为整型的日期,如将’2020-09-03’转换成’20200903’,转换方式如下:(1)regexp_replace(substr(create_time,1,10),'-','')(2)regexp_replace(to_date(create_time),'-','')2
是唱唱呀
·
2023-12-20 09:48
SQL
hive
sql
Hive-SQL语法大全
HiveSQL
语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name
黑马程序员官方
·
2023-12-20 09:16
hive
sql
数据库
[hive] 在hive sql中定义变量
在
HiveSQL
中,可以使用SET命令来定义变量。变量可以用于存储和引用常量或表达式的值,以便在查询中重复使用。
言之。
·
2023-12-19 06:16
hive
sql
hadoop
2022秋招蚂蚁金服面试
一是
hivesql
用来取数;二是python、excel,用来数据可视化。4、sql问题4.1数据库底层知识:主键是什么?主键是
七天笔记本
·
2023-12-18 12:32
sql
面试
职场和发展
数据分析
大数据架构(一)背景和概念
一、背景1.岗位现状大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写
HiveSQL
配置个离线任务、整个帆软报表都20K+起步。
野生的狒狒
·
2023-12-18 02:50
大数据
数据仓库
hive
HiveSql
语法优化三 :join优化
前面提到过:Hive拥有多种join算法,包括CommonJoin,MapJoin,BucketMapJoin,SortMergeBucktMapJoin等;每种join算法都有对应的优化方案。MapJoin在优化阶段,如果能将CommonJoin优化为MapJoin算法,那就会优化成MapJoin,但是在编译阶段如果所需的表大小是未知的(例如对子查询进行join操作),那么Hive会在编译阶段生
zmx_messi
·
2023-12-17 08:13
大数据
HiveSql
语法优化二 :join算法
Hive拥有多种join算法,包括CommonJoin,MapJoin,BucketMapJoin,SortMergeBucktMapJoin等,下面对每种join算法做简要说明:CommonJoinCommonJoin是Hive中最稳定的join算法,其通过一个MapReduceJob完成一个join操作。Map端负责读取join操作所需表的数据,并按照关联字段进行分区,通过Shuffle,将其
zmx_messi
·
2023-12-17 08:43
hive
hadoop
数据仓库
HiveSql
语法优化四 :Bucket Map Join和Sort Merge Bucket Map Join优化
BucketMapJoin之前的mapjoin适用场景是大表join小表的情况,但是两张表都相对较大,若采用普通的MapJoin算法,则Map端需要较多的内存来缓存数据,当然可以选择为Map段分配更多的内存,来保证任务运行成功。但是,Map端的内存不可能无上限的分配,所以当参与Join的表数据量均过大时,就可以考虑采用BucketMapJoin算法。比如下面两张表进行join操作:表名大小orde
zmx_messi
·
2023-12-17 08:09
数据库
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他