hivesql 第2页

二百二十一、HiveSQL报错：return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

一、目的在运行HiveSQL时，执行报错tatement:FAILED:ExecutionError,returncode2fromorg.apache.hadoop.hive.ql.exec.mr.MapRedTask

天地风雷水火山泽·2024-01-31 06:48

【hive】相关性函数进行相关性分析

文章目录CORRCOVAR_POPCOVAR_SAMPSTDDEV_POPSTDDEV_SAMP在HiveSQL中，使用类似的相关性函数进行相关性分析。

言之。·2024-01-30 20:12

flink sql 知其所以然（十六）：flink sql 开发企业级利器之 Dlink

搞大数据开发的同学基本都知道在HUE上面写hivesql贼爽。那么有没有写flinksql的企业级的webIDE推荐的呢？

大数据羊说·2024-01-30 11:06

HiveSQL题——窗口函数(lag/lead)

目录一、窗口函数的知识点1.1窗户函数的定义1.2窗户函数的语法1.3窗口函数分类1.4前后函数:lag/lead二、实际案例2.1股票的波峰波谷0问题描述1数据准备2数据分析3小结2.2前后列转换（面试题）0问题描述1数据准备2数据分析3小结一、窗口函数的知识点1.1窗户函数的定义窗口函数可以拆分为【窗口+函数】。窗口函数官网指路：LanguageManualWindowingAndAnalyt

爱吃辣条byte·2024-01-30 07:42

HiveSQL题——排序函数(row_number/rank/dense_rank)

一、窗口函数的知识点1.1窗户函数的定义窗口函数可以拆分为【窗口+函数】。窗口函数官网指路：LanguageManualWindowingAndAnalytics-ApacheHive-ApacheSoftwareFoundationhttps://cwiki.apache.org/confluence/display/Hive/LanguageManual%20WindowingAndAnaly

爱吃辣条byte·2024-01-30 07:40

HiveSQL题——用户连续登陆

目录一、连续登陆1.1连续登陆3天以上的用户0问题描述1数据准备2数据分析3小结1.2每个用户历史至今连续登录的最大天数0问题描述1数据准备2数据分析3小结1.3每个用户连续登录的最大天数(间断也算)0问题描述1数据准备2数据分析3小结一、连续登陆1.1连续登陆3天以上的用户0问题描述查询连续登陆3天以上的用户（字节面试题）1数据准备createtableifnotexiststable1(idi

爱吃辣条byte·2024-01-28 23:09

1分钟了解基于Hadoop的数据仓库工具Hive(附超实用示例)

Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL

yuyuyuyo·2024-01-27 05:53

HiveSQL：gouping sets

https://blog.csdn.net/MOUNINGA/article/details/99408470?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-6.baidujsUnder6&depth_1-utm_source=distribute.pc_r

木亦木木兮_0432·2024-01-26 17:14

大厂大数据面试题收录（1）

8.Hivesql到MapReduce转化的流程清楚吗？

后季暖·2024-01-23 11:49

Apache Hive（二）

一、ApacheHive1、HiveSQLDML语法之加载数据2、HiveSQLDML语法之查询数据3、HiveSQLJoin关联查询4、HiveSQL中的函数使用数据仓库&ApacheHive请记住，

杀神lwz·2024-01-22 09:16

hive sql转换成MR任务过程

hivesql转换成MR任务过程1）用户接口：ClientCLI（command-lineinterface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）2）元数据：Metastore

上官沐雪·2024-01-22 08:08

MySQL去重3种方法，还有谁不会？

在MySQL中通常是使用distinct或groupby子句，但在支持窗口函数的sql（如HiveSQL、Oracle等等）中还可以使用row_number窗口函数进行去重。

程序员大咖·2024-01-22 07:58

hql(hive sql)中的join及踩过的坑

hql（即hivesql）的on子句中只支持and，不支持or，也不支持null的对比。leftouterjoin左外连接，也称为左连接。

AnillegalName·2024-01-21 08:21

Hive-SQL语法大全

HiveSQL语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name

S1406793·2024-01-21 08:20

Hive性能调优(二)——一文搞懂HiveSQL执行计划

测试的数据请看上一篇博客，数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explainselects_age,s_scorefromstudent_tb_seqwheres_age=20;+----------------------------------

程研板·2024-01-20 13:19

某汽车外包-大数据开发-面试

1.自我介绍2.hivesql的执行流程3.mapreduce的原理。4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。

劝学-大数据·2024-01-19 16:28

ClickHouse - 01

将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理，也可以直接将数据抽取到Hive数仓中，一般可以将结构化的数据直接抽取到Hive数据仓库中，然后使用HiveSQL

ArthurHC·2024-01-16 02:17

记csv、parquet数据预览一个bug的解决

二、实现过程1.业务流程如图：hiveSQL读取数据数据写入csv或parquet文件预览csv或parquet文件top100数据2.业务逻辑为了便于测试，

爱码少年·2024-01-14 08:49

hivesql小技巧

hivesql日志、执行计划怎么看/用DAG图，看多少个stage，每个stage的执行内容，mr任务，执行顺序，过滤条件，是否有按预期做数据裁剪如何判断长尾通过执行日志，查看卡住的任务，记录数、数据量远大于其它的任务

时光赠予·2024-01-14 07:40

【数据开发】HiveSQL 临时表&分步执行（with, as ）与时间函数（时间戳unix_timestamp）

1、分步执行（with…as…）HiveSQL中的WITH…AS…语句可以用于分步执行，即将一个大的查询语句拆分成多个小的查询语句，每个小的查询语句都可以使用WITH…AS…语句定义一个临时表，然后在后面的查询语句中使用这些临时表

小哈里·2024-01-14 07:51

hiveSQL任务执行时间过长

在周例会上，发现自己经手过的任务运行时间在忙时长达两个多小时（公开处刑），这里总结下工作中遇到的一些造成任务执行效率低的原因：1、数据量过大比如有分区表，但是多表关联查询的时候没有指定分区，导致全表扫描。（注意on跟where的条）2、产生笛卡尔积优化3、访问API过多有些任务可能涉及到访问外部接口，过多的请求影响到任务执行效率。从业务或者其他方面优化4、从接口层取数前期的数仓设计不合理或者临时性

amberwest·2024-01-13 22:16

hive sql 优化-转载csdn

HiveSQL执行流程：InputFormat、OutputFormat、SerDe理清这三者之间的关系：SerDeisashortnamefor"SerializerandDeserializer."

仲間_9ee4·2024-01-11 23:36

hive sql 和 spark sql的区别

HiveSQL和SparkSQL都是用于在大数据环境中处理结构化数据的工具，但它们有一些关键的区别：底层计算引擎：HiveSQL：Hive是建立在Hadoop生态系统之上的，使用MapReduce作为底层计算引擎

深度学习研究员·2024-01-11 07:08

hive在mysql中总是不创建元数据库的解决办法

hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓hivesql。遂搞了台centos搭环境，搭环境嘛，当然是怎么简单怎么来，怎么快怎么来。

黄道婆·2024-01-09 13:21

2024.1.7 Spark SQL , DataFrame

DataFrameSQL方式:DSL方式:一.SparkSQL简介SparkSQL只能处理结构化数据,属于Spark框架一个部分Schema:元数据信息特点:融合性,统一数据访问,hive兼容,标准化连接将hivesql

白白的wj·2024-01-08 07:17

Hive实战：网址去重

完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用HiveSQL

howard2005·2024-01-07 17:03

hive之with as 和 create temporary区别

在写hivesql语句时，通常因为实现一个比较复杂的逻辑时，往往使用多层嵌套关联，首先导致代码的可读性较差，其次是代码性能比较低。因为这个原因，很多人都会想方设法去优化代码，提高代码的可读性和性能。

玩数据的小彬·2024-01-07 01:41

【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD

涉及的函数：unix_timestampfrom_unixtime【HiveSQL】常用日期函数汇总：错误思路：我寻思这不挺简单的吗？直接给你安排上to_date不就完事儿了。

王久也你又在造BUG·2024-01-06 15:55

hiveSQL基本语句三-----连接查询--inner join、left join、full join、union all、union

一、(inner)join连接2个表，取出公共部分必须重命名on后连接条件键值唯一连接前注意去重，提高效率inner可省略select*fromuser_list_1asainnerjoinuser_list_2asbona.user_id=b.user_id;三表连接selecta.user_namefrom(selectdistinctuser_namefromdata1)asainnerjo

cc抱富·2024-01-04 04:42

从零开始了解大数据(六)：数据仓库Hive篇

架构与组件三、ApacheHive安装部署1.ApacheHive部署实战(1)Hadoop与Hive整合(2)Metastore服务启动方式四、ApacheHive客户端使用1.Hive自带客户端五、HiveSQL

橘子-青衫·2024-01-04 02:51

Trino兼容Hive SQL方案探索

开发人员每次运行HiveSQL验证数据逻辑，需要等待较长时间。

DawsonSally·2024-01-03 11:15

Hive sql 行列转换(行转列，列转行)

在Hivesql应用中会遇到“行转列”和“列转行”的场景，下面介绍其基本使用语法。

m0_67392409·2023-12-31 21:27

Hive实战：统计总分与平均分

一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表，加载HDFS数据文件4、利用HiveSQL

howard2005·2023-12-28 10:16

Spark从入门到精通23：Spark SQL简介

我们知道Hive是Hadoop生态中的一个数据分析引擎，它可以将HiveSQL转换成MapReduce任务提交到Hadoop集群中执行，大大简化了编写MapReduce程序的

金字塔下的小蜗牛·2023-12-28 09:20

Hive实战：词频统计

完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用HiveSQL

howard2005·2023-12-27 23:24

Hive 在工作中的调优总结

总结了一下在以往工作中，对于HiveSQL调优的一些实际应用，是日常积累的一些优化技巧，如有出入，欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作，partitioned

fx67ll·2023-12-27 18:50

[hive] sql中distinct的用法和注意事项

在HiveSQL中，DISTINCT用于去重查询结果中的行。它返回唯一的行，消除结果集中的重复项。

言之。·2023-12-26 13:09

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

摘要：在大数据领域中，HiveSQL被广泛应用于数据仓库的数据查询和分析。然而，由于数据量庞大和复杂的查询需求，HiveSQL查询的性能往往不尽人意。

京东云技术团队·2023-12-26 06:33

技本功|Hive优化之监控（三）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣YUNCHE·2023-12-24 03:15

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣YUNCHE·2023-12-24 03:44

Spark SQL 教程

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了

数据萌新·2023-12-22 10:06

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

HiveSQL判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5:rlike方案6:strpos计算效率对比背景这是个常见需求

qiaoqiao2332·2023-12-21 14:59

hiveSQL时间日期处理

1.将字符串日期转为整型日期hive数据库中存储的时间是string类型的，但是我们在取数的时候，习惯把字符串型的日期转换为整型的日期，如将’2020-09-03’转换成’20200903’，转换方式如下：（1）regexp_replace(substr(create_time,1,10),'-','')（2）regexp_replace(to_date(create_time),'-','')2

是唱唱呀·2023-12-20 09:48

Hive-SQL语法大全

HiveSQL语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name

黑马程序员官方·2023-12-20 09:16

[hive] 在hive sql中定义变量

在HiveSQL中，可以使用SET命令来定义变量。变量可以用于存储和引用常量或表达式的值，以便在查询中重复使用。

言之。·2023-12-19 06:16

2022秋招蚂蚁金服面试

一是hivesql用来取数；二是python、excel，用来数据可视化。4、sql问题4.1数据库底层知识：主键是什么？主键是

七天笔记本·2023-12-18 12:32

大数据架构（一）背景和概念

一、背景1.岗位现状大数据在一线互联网已经爆发了好多年，2015年-2020年（国内互联网爆发期）那时候的大数据开发，刚毕业能写HiveSQL配置个离线任务、整个帆软报表都20K+起步。

野生的狒狒·2023-12-18 02:50

HiveSql语法优化三：join优化

前面提到过：Hive拥有多种join算法，包括CommonJoin，MapJoin，BucketMapJoin，SortMergeBucktMapJoin等；每种join算法都有对应的优化方案。MapJoin在优化阶段，如果能将CommonJoin优化为MapJoin算法，那就会优化成MapJoin，但是在编译阶段如果所需的表大小是未知的（例如对子查询进行join操作），那么Hive会在编译阶段生

zmx_messi·2023-12-17 08:13

HiveSql语法优化二：join算法

Hive拥有多种join算法，包括CommonJoin，MapJoin，BucketMapJoin，SortMergeBucktMapJoin等，下面对每种join算法做简要说明：CommonJoinCommonJoin是Hive中最稳定的join算法，其通过一个MapReduceJob完成一个join操作。Map端负责读取join操作所需表的数据，并按照关联字段进行分区，通过Shuffle，将其

zmx_messi·2023-12-17 08:43

HiveSql语法优化四：Bucket Map Join和Sort Merge Bucket Map Join优化

BucketMapJoin之前的mapjoin适用场景是大表join小表的情况，但是两张表都相对较大，若采用普通的MapJoin算法，则Map端需要较多的内存来缓存数据，当然可以选择为Map段分配更多的内存，来保证任务运行成功。但是，Map端的内存不可能无上限的分配，所以当参与Join的表数据量均过大时，就可以考虑采用BucketMapJoin算法。比如下面两张表进行join操作：表名大小orde

zmx_messi·2023-12-17 08:09

推荐频道

hivesql

二百二十一、HiveSQL报错：return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

【hive】相关性函数进行相关性分析

flink sql 知其所以然（十六）：flink sql 开发企业级利器之 Dlink

HiveSQL题——窗口函数(lag/lead)

HiveSQL题——排序函数(row_number/rank/dense_rank)

HiveSQL题——用户连续登陆

1分钟了解基于Hadoop的数据仓库工具Hive(附超实用示例)

HiveSQL：gouping sets

大厂大数据面试题收录（1）

Apache Hive（二）

hive sql转换成MR任务过程

MySQL去重3种方法，还有谁不会？

hql(hive sql)中的join及踩过的坑

Hive-SQL语法大全

Hive性能调优(二)——一文搞懂HiveSQL执行计划

某汽车外包-大数据开发-面试

ClickHouse - 01

记csv、parquet数据预览一个bug的解决

hivesql小技巧

【数据开发】HiveSQL 临时表&分步执行（with, as ）与时间函数（时间戳unix_timestamp）

hiveSQL任务执行时间过长

hive sql 优化-转载csdn

hive sql 和 spark sql的区别

hive在mysql中总是不创建元数据库的解决办法

2024.1.7 Spark SQL , DataFrame

Hive实战：网址去重

hive之with as 和 create temporary区别

【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD

hiveSQL基本语句三-----连接查询--inner join、left join、full join、union all、union

从零开始了解大数据(六)：数据仓库Hive篇

Trino兼容Hive SQL方案探索

Hive sql 行列转换(行转列，列转行)

Hive实战：统计总分与平均分

Spark从入门到精通23：Spark SQL简介

Hive实战：词频统计

Hive 在工作中的调优总结

[hive] sql中distinct的用法和注意事项

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

技本功|Hive优化之监控（三）

技本功|Hive优化之Spark执行引擎参数调优（二）

Spark SQL 教程

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

hiveSQL时间日期处理

Hive-SQL语法大全

[hive] 在hive sql中定义变量

2022秋招蚂蚁金服面试

大数据架构（一）背景和概念

HiveSql语法优化三 ：join优化

HiveSql语法优化二 ：join算法

HiveSql语法优化四 ：Bucket Map Join和Sort Merge Bucket Map Join优化

HiveSql语法优化三：join优化

HiveSql语法优化二：join算法

HiveSql语法优化四：Bucket Map Join和Sort Merge Bucket Map Join优化