Hivesql 第2页

Apache Hive（二）

一、ApacheHive1、HiveSQLDML语法之加载数据2、HiveSQLDML语法之查询数据3、HiveSQLJoin关联查询4、HiveSQL中的函数使用数据仓库&ApacheHive请记住，

杀神lwz·2024-01-22 09:16

hive sql转换成MR任务过程

hivesql转换成MR任务过程1）用户接口：ClientCLI（command-lineinterface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）2）元数据：Metastore

上官沐雪·2024-01-22 08:08

MySQL去重3种方法，还有谁不会？

在MySQL中通常是使用distinct或groupby子句，但在支持窗口函数的sql（如HiveSQL、Oracle等等）中还可以使用row_number窗口函数进行去重。

程序员大咖·2024-01-22 07:58

hql(hive sql)中的join及踩过的坑

hql（即hivesql）的on子句中只支持and，不支持or，也不支持null的对比。leftouterjoin左外连接，也称为左连接。

AnillegalName·2024-01-21 08:21

Hive-SQL语法大全

HiveSQL语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name

S1406793·2024-01-21 08:20

Hive性能调优(二)——一文搞懂HiveSQL执行计划

测试的数据请看上一篇博客，数据行数500万。目录一.简单SQL的执行计划二.带普通函数SQL的执行计划三.带聚合函数SQL的执行计划四.带窗口函数SQL的执行计划五.表连接的SQL的执行计划一.简单SQL的执行计划explainselects_age,s_scorefromstudent_tb_seqwheres_age=20;+----------------------------------

程研板·2024-01-20 13:19

某汽车外包-大数据开发-面试

1.自我介绍2.hivesql的执行流程3.mapreduce的原理。4.spark的提交参数有那些命令5.sparkrdd,dataframe,dataSe解释一下。

劝学-大数据·2024-01-19 16:28

ClickHouse - 01

将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark、Flink技术对数据进行ETL清洗处理，也可以直接将数据抽取到Hive数仓中，一般可以将结构化的数据直接抽取到Hive数据仓库中，然后使用HiveSQL

ArthurHC·2024-01-16 02:17

记csv、parquet数据预览一个bug的解决

二、实现过程1.业务流程如图：hiveSQL读取数据数据写入csv或parquet文件预览csv或parquet文件top100数据2.业务逻辑为了便于测试，

爱码少年·2024-01-14 08:49

hivesql小技巧

hivesql日志、执行计划怎么看/用DAG图，看多少个stage，每个stage的执行内容，mr任务，执行顺序，过滤条件，是否有按预期做数据裁剪如何判断长尾通过执行日志，查看卡住的任务，记录数、数据量远大于其它的任务

时光赠予·2024-01-14 07:40

【数据开发】HiveSQL 临时表&分步执行（with, as ）与时间函数（时间戳unix_timestamp）

1、分步执行（with…as…）HiveSQL中的WITH…AS…语句可以用于分步执行，即将一个大的查询语句拆分成多个小的查询语句，每个小的查询语句都可以使用WITH…AS…语句定义一个临时表，然后在后面的查询语句中使用这些临时表

小哈里·2024-01-14 07:51

hiveSQL任务执行时间过长

在周例会上，发现自己经手过的任务运行时间在忙时长达两个多小时（公开处刑），这里总结下工作中遇到的一些造成任务执行效率低的原因：1、数据量过大比如有分区表，但是多表关联查询的时候没有指定分区，导致全表扫描。（注意on跟where的条）2、产生笛卡尔积优化3、访问API过多有些任务可能涉及到访问外部接口，过多的请求影响到任务执行效率。从业务或者其他方面优化4、从接口层取数前期的数仓设计不合理或者临时性

amberwest·2024-01-13 22:16

hive sql 优化-转载csdn

HiveSQL执行流程：InputFormat、OutputFormat、SerDe理清这三者之间的关系：SerDeisashortnamefor"SerializerandDeserializer."

仲間_9ee4·2024-01-11 23:36

hive sql 和 spark sql的区别

HiveSQL和SparkSQL都是用于在大数据环境中处理结构化数据的工具，但它们有一些关键的区别：底层计算引擎：HiveSQL：Hive是建立在Hadoop生态系统之上的，使用MapReduce作为底层计算引擎

深度学习研究员·2024-01-11 07:08

hive在mysql中总是不创建元数据库的解决办法

hive在mysql中总是不创建元数据库的解决办法这两天打算好好捣鼓捣鼓hivesql。遂搞了台centos搭环境，搭环境嘛，当然是怎么简单怎么来，怎么快怎么来。

黄道婆·2024-01-09 13:21

2024.1.7 Spark SQL , DataFrame

DataFrameSQL方式:DSL方式:一.SparkSQL简介SparkSQL只能处理结构化数据,属于Spark框架一个部分Schema:元数据信息特点:融合性,统一数据访问,hive兼容,标准化连接将hivesql

白白的wj·2024-01-08 07:17

Hive实战：网址去重

完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用HiveSQL

howard2005·2024-01-07 17:03

hive之with as 和 create temporary区别

在写hivesql语句时，通常因为实现一个比较复杂的逻辑时，往往使用多层嵌套关联，首先导致代码的可读性较差，其次是代码性能比较低。因为这个原因，很多人都会想方设法去优化代码，提高代码的可读性和性能。

玩数据的小彬·2024-01-07 01:41

【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD

涉及的函数：unix_timestampfrom_unixtime【HiveSQL】常用日期函数汇总：错误思路：我寻思这不挺简单的吗？直接给你安排上to_date不就完事儿了。

王久也你又在造BUG·2024-01-06 15:55

hiveSQL基本语句三-----连接查询--inner join、left join、full join、union all、union

一、(inner)join连接2个表，取出公共部分必须重命名on后连接条件键值唯一连接前注意去重，提高效率inner可省略select*fromuser_list_1asainnerjoinuser_list_2asbona.user_id=b.user_id;三表连接selecta.user_namefrom(selectdistinctuser_namefromdata1)asainnerjo

cc抱富·2024-01-04 04:42

从零开始了解大数据(六)：数据仓库Hive篇

架构与组件三、ApacheHive安装部署1.ApacheHive部署实战(1)Hadoop与Hive整合(2)Metastore服务启动方式四、ApacheHive客户端使用1.Hive自带客户端五、HiveSQL

橘子-青衫·2024-01-04 02:51

Trino兼容Hive SQL方案探索

开发人员每次运行HiveSQL验证数据逻辑，需要等待较长时间。

DawsonSally·2024-01-03 11:15

Hive sql 行列转换(行转列，列转行)

在Hivesql应用中会遇到“行转列”和“列转行”的场景，下面介绍其基本使用语法。

m0_67392409·2023-12-31 21:27

Hive实战：统计总分与平均分

一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建Hive表，加载HDFS数据文件4、利用HiveSQL

howard2005·2023-12-28 10:16

Spark从入门到精通23：Spark SQL简介

我们知道Hive是Hadoop生态中的一个数据分析引擎，它可以将HiveSQL转换成MapReduce任务提交到Hadoop集群中执行，大大简化了编写MapReduce程序的

金字塔下的小蜗牛·2023-12-28 09:20

Hive实战：词频统计

完成任务（一）准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用HiveSQL

howard2005·2023-12-27 23:24

Hive 在工作中的调优总结

总结了一下在以往工作中，对于HiveSQL调优的一些实际应用，是日常积累的一些优化技巧，如有出入，欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作，partitioned

fx67ll·2023-12-27 18:50

[hive] sql中distinct的用法和注意事项

在HiveSQL中，DISTINCT用于去重查询结果中的行。它返回唯一的行，消除结果集中的重复项。

言之。·2023-12-26 13:09

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

摘要：在大数据领域中，HiveSQL被广泛应用于数据仓库的数据查询和分析。然而，由于数据量庞大和复杂的查询需求，HiveSQL查询的性能往往不尽人意。

京东云技术团队·2023-12-26 06:33

技本功|Hive优化之监控（三）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣YUNCHE·2023-12-24 03:15

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣YUNCHE·2023-12-24 03:44

Spark SQL 教程

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了

数据萌新·2023-12-22 10:06

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

HiveSQL判断一个字符串中是否包含字串的N种方式及其效率背景方案1:regexp_extract方案2:instr方案3:locate方案4:like方案5:rlike方案6:strpos计算效率对比背景这是个常见需求

qiaoqiao2332·2023-12-21 14:59

hiveSQL时间日期处理

1.将字符串日期转为整型日期hive数据库中存储的时间是string类型的，但是我们在取数的时候，习惯把字符串型的日期转换为整型的日期，如将’2020-09-03’转换成’20200903’，转换方式如下：（1）regexp_replace(substr(create_time,1,10),'-','')（2）regexp_replace(to_date(create_time),'-','')2

是唱唱呀·2023-12-20 09:48

Hive-SQL语法大全

HiveSQL语法大全基于语法描述说明CREATEDATABASE[IFNOTEXISTS]db_name[LOCATION]'path';SELECTexpr,...FROMtblORDERBYcol_name

黑马程序员官方·2023-12-20 09:16

[hive] 在hive sql中定义变量

在HiveSQL中，可以使用SET命令来定义变量。变量可以用于存储和引用常量或表达式的值，以便在查询中重复使用。

言之。·2023-12-19 06:16

2022秋招蚂蚁金服面试

一是hivesql用来取数；二是python、excel，用来数据可视化。4、sql问题4.1数据库底层知识：主键是什么？主键是

七天笔记本·2023-12-18 12:32

大数据架构（一）背景和概念

一、背景1.岗位现状大数据在一线互联网已经爆发了好多年，2015年-2020年（国内互联网爆发期）那时候的大数据开发，刚毕业能写HiveSQL配置个离线任务、整个帆软报表都20K+起步。

野生的狒狒·2023-12-18 02:50

HiveSql语法优化三：join优化

前面提到过：Hive拥有多种join算法，包括CommonJoin，MapJoin，BucketMapJoin，SortMergeBucktMapJoin等；每种join算法都有对应的优化方案。MapJoin在优化阶段，如果能将CommonJoin优化为MapJoin算法，那就会优化成MapJoin，但是在编译阶段如果所需的表大小是未知的（例如对子查询进行join操作），那么Hive会在编译阶段生

zmx_messi·2023-12-17 08:13

HiveSql语法优化二：join算法

Hive拥有多种join算法，包括CommonJoin，MapJoin，BucketMapJoin，SortMergeBucktMapJoin等，下面对每种join算法做简要说明：CommonJoinCommonJoin是Hive中最稳定的join算法，其通过一个MapReduceJob完成一个join操作。Map端负责读取join操作所需表的数据，并按照关联字段进行分区，通过Shuffle，将其

zmx_messi·2023-12-17 08:43

HiveSql语法优化四：Bucket Map Join和Sort Merge Bucket Map Join优化

BucketMapJoin之前的mapjoin适用场景是大表join小表的情况，但是两张表都相对较大，若采用普通的MapJoin算法，则Map端需要较多的内存来缓存数据，当然可以选择为Map段分配更多的内存，来保证任务运行成功。但是，Map端的内存不可能无上限的分配，所以当参与Join的表数据量均过大时，就可以考虑采用BucketMapJoin算法。比如下面两张表进行join操作：表名大小orde

zmx_messi·2023-12-17 08:09

HiveSql语法优化一：分组聚合优化

Hive中未经优化的分组聚合，是通过一个MapReduceJob实现的。Map端负责读取数据，并按照分组字段分区，通过Shuffle，将数据发往Reduce端，各组数据在Reduce端完成最终的聚合运算。Hive对分组聚合的优化主要围绕着减少Shuffle数据量进行，具体做法是map-side聚合。所谓map-side聚合，就是在map端维护一个hashtable，利用其完成部分的聚合，然后将部分

zmx_messi·2023-12-17 08:38

大数据的技术栈-逐步完善

目录1.hadoopa.HDFS分布式文件系统b.Yarn集群资源管理器c.MapReducesql引擎d.Impalasql引擎e.工具概观2.数据仓库知识a.Hive数据库1)HiveSql2)数据库结构

刘文钊1·2023-12-04 20:12

Hive SQL使用过程中的奇怪现象

HiveSQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同

大数据技术与数仓·2023-12-03 08:07

Spark---SparkSQL介绍

除了基于Spark的特性外，Shark是完全兼容Hive的语法，表结构以及UDF函数等，已有的HiveSql可以

30岁老阿姨·2023-11-30 13:52

大数据学习(26)-数据倾斜总结

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦Hive数据倾斜问题是指在HiveSQL查询过程中，由于数据在表或列上的分布不均衡

viperrrrrrr·2023-11-29 17:30

大数据学习之HiveSQL

一.DDL(数据定义语言)1.DDL概述数据定义语言(DataDefinitionLanguage,DDL)，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言，这些数据库对象包括database（schema）、table、view、index等。核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。2.DDL建表2.1完整建表语法树蓝色字体

煜筱子·2023-11-29 17:29

二百零八、Hive——HiveSQL异常：Select查询数据正常,但SQL语句加上group by查询数据为空

一、目的在HiveSQL的DWD层中，需要对原始数据进行去重在内的清洗，结果一开始其他数据类型的清洗工作都正常，直到碰到转向比数据。

天地风雷水火山泽·2023-11-29 07:50

hivesql 将json格式字符串转为数组

hivesql将json格式字符串转为数组完整过程SQL在文末json格式字符串本案例json字符串参考格式，请勿使用本数据{"data":[{"province":11,"id_card":"110182198903224674

李昊哲小课·2023-11-27 07:03

hive的条件查询语句_Hive SQL 条件函数 IF 详解

HiveSQL条件函数IF是用于处理单个列的判断查询结果，形式为if(条件表达式,结果1,结果2)，相当于java中的三目运算符，只是if后面的表达式类型可以不一样。

聚合收藏·2023-11-25 02:50

推荐频道

Hivesql

Apache Hive（二）

hive sql转换成MR任务过程

MySQL去重3种方法，还有谁不会？

hql(hive sql)中的join及踩过的坑

Hive-SQL语法大全

Hive性能调优(二)——一文搞懂HiveSQL执行计划

某汽车外包-大数据开发-面试

ClickHouse - 01

记csv、parquet数据预览一个bug的解决

hivesql小技巧

【数据开发】HiveSQL 临时表&分步执行（with, as ）与时间函数（时间戳unix_timestamp）

hiveSQL任务执行时间过长

hive sql 优化-转载csdn

hive sql 和 spark sql的区别

hive在mysql中总是不创建元数据库的解决办法

2024.1.7 Spark SQL , DataFrame

Hive实战：网址去重

hive之with as 和 create temporary区别

【HQL实用】时间格式YYYYMMDD转换成YYYY-MM-DD

hiveSQL基本语句三-----连接查询--inner join、left join、full join、union all、union

从零开始了解大数据(六)：数据仓库Hive篇

Trino兼容Hive SQL方案探索

Hive sql 行列转换(行转列，列转行)

Hive实战：统计总分与平均分

Spark从入门到精通23：Spark SQL简介

Hive实战：词频统计

Hive 在工作中的调优总结

[hive] sql中distinct的用法和注意事项

大数据从业者必知必会的Hive SQL调优技巧 | 京东云技术团队

技本功|Hive优化之监控（三）

技本功|Hive优化之Spark执行引擎参数调优（二）

Spark SQL 教程

Hive SQL判断一个字符串中是否包含字串的N种方式及其效率

hiveSQL时间日期处理

Hive-SQL语法大全

[hive] 在hive sql中定义变量

2022秋招蚂蚁金服面试

大数据架构（一）背景和概念

HiveSql语法优化三 ：join优化

HiveSql语法优化二 ：join算法

HiveSql语法优化四 ：Bucket Map Join和Sort Merge Bucket Map Join优化

HiveSql语法优化一 ：分组聚合优化

大数据的技术栈-逐步完善

Hive SQL使用过程中的奇怪现象

Spark---SparkSQL介绍

大数据学习(26)-数据倾斜总结

大数据学习之HiveSQL

二百零八、Hive——HiveSQL异常：Select查询数据正常,但SQL语句加上group by查询数据为空

hivesql 将json格式字符串转为数组

hive的条件查询语句_Hive SQL 条件函数 IF 详解

HiveSql语法优化三：join优化

HiveSql语法优化二：join算法

HiveSql语法优化四：Bucket Map Join和Sort Merge Bucket Map Join优化

HiveSql语法优化一：分组聚合优化