hivesql 第8页

大数据技术之SparkSQL（一）-spark sql 的介绍，特点，Data Frame,DataSet的介绍

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Sp

2401号行者·2023-01-12 10:44

大数据技术之SparkSQL（一）概述

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

BAO7988·2023-01-12 10:04

大数据技术之SparkSQL（超级详细）

它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以SparkSQL的应运而生，

星川皆无恙·2023-01-12 10:03

pandas打印某一列_一场Pandas与SQL的巅峰大战

作为一名数据分析师，平常用的最多的工具是SQL(包括MySQL和HiveSQL等)。

weixin_39540934·2023-01-11 10:33

Centos Linux 单机安装 Hive 、使用 Hive

简介hive是基于Hadoop构建的一套数据仓库分析系统；hive通过SQL查询方式来分析存储在HDFS中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的类SQL查询功能，这套SQL名为HiveSQL

寒水馨·2023-01-10 09:16

Tensorflow之TFRecord的原理和使用心得

Hive作为构建在HDFS上的一个数据仓库，它本质上可以看作是一个翻译器，可以将HiveSQL语句翻译成MapReduce程序或Spark程序，因此模型需要的数据例如csv/libsvm文件都会保存成Hive

程序员对白·2023-01-10 08:47

HiveSQL

HiveSQLHiveSql入门教程基础关键字用法前置教程hive库表知识hive库是表的一个集合，一个库拥有多个表，hive整个数据库拥有多个库。hive表代表一个对象，比如一个人设计为一个表就有身高体重等属性，在hive中实际存储表现为每张表会有一个存储地址，比如表名为people，实际存储会有hive中的分区概念/xx/xx/people,hive中引用了一个很重要的概念分区，分区实际上也是

章鱼哥TuNan&Z·2023-01-07 13:54

Hive实际工作场景Sql题(业务自想)

HiveSql练习题工作之余，结合业务所需构思的工作时常遇sql效果场景(实际业务场景可结合sql题自我构思)有更好的sql解题思路欢迎大家到评论区交流第一题题目数据原型:time,t1,t2,t32021

治愈爱吃肉·2023-01-07 13:53

HANA SDI - 抽数作业造成HIVE内存高

分析步骤首先，遇到该问题，如果有Hive/Hadoop专业人员的支持是更好的检查Hive中造成内存上升的作业名，并且从Hive中找到对应的HiveSQL通过对SQL设置相关的Hive参数，在Hive上测试是否可以减少内存

大好人ooo·2023-01-05 14:59

SQL去重的三种方法汇总

在MySQL中通常是使用distinct或groupby子句，但在支持窗口函数的sql（如HiveSQL、Oracle等等）中还可以使用

数据不吹牛·2023-01-02 15:56

Hive的优化

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。Hive优化列裁剪和分区裁剪谓词下推sortby和orderbygroupby和distinctg

keepHungery·2022-12-23 10:34

Hivesql常用优化技巧

3.Hive通过HiveSQL进行解析和转换，最终映射成一系列在hadoop上运行的mapreduce任务，通过执行这些任务完成分析和处理。

久笙&·2022-12-22 21:27

【面试真题】今日头条大数据面试100题，收藏备用

1、简述WordCount的实现过程2、简述MapReduce与Spark的区别与联系3、Spark在客户端与集群运行的区别4、相同的SQL在HiveSql与SparkSQL的实现中，为什么Spark比

大数据研习社·2022-12-21 04:02

Flink 1.16：Hive SQL 如何平迁到 Flink SQL

主要内容包括：HiveSQL迁移的动机HiveSQL迁移的挑战HiveSQL迁移的实践HiveSQL迁移的演示未来规划点击查看直播回放&演讲PDF一、HiveSQL迁移的动机Flink已经是流计算的事实标准

·2022-12-18 18:20

hive sql案例练习一

文章目录hivesql案例练习一一、各年评分最高的电影类型（年份，类型，影评分）1、思路2、代码二、该影评库中各种类型电影中评价最高的5部电影（类型，电影名，平均影评分）1.思路2.代码三、1997年上映的电影中

Yvonne酸奶·2022-12-17 08:11

Flink 1.16：Hive SQL 如何平迁到 Flink SQL

主要内容包括：HiveSQL迁移的动机HiveSQL迁移的挑战HiveSQL迁移的实践HiveSQL迁移的演示未来规划Tips：点击「阅读原文」获取PPT～01HiveSQL迁移的动机Flink已经是流计算的事实标准

Apache Flink·2022-12-16 08:53

最详细的Hive&HBase

Hive一Hive基本概念1Hive简介1.1什么是HiveHive由Facebook实现并开源，是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL

kuokay·2022-12-11 11:21

Hive sql切换Flink sql常见问题汇总

FlinkSQL与HiveSQL语法存在差异，虽然FlinkSQL提供了HiveSQL的方言解析器，但是还有部分坑存在，如下是设置了Hive方言解析器时依旧存在的问题。

鬼谷第九徒·2022-12-10 13:27

使用Flink1.16.0的SQLGateway迁移Hive SQL任务

使用Flink的SQLGateway迁移HiveSQL任务前言我们有数万个离线任务，主要还是默认的DataPhin调度CDP集群的HiveOnTez这种低成本任务，当然也有PySpark、打Jar包的Spark

虎鲸不是鱼·2022-12-10 13:50

Spark的运行架构和基本原理

SparkSQL:Spark处理结构化数据的库，就像HiveSQL,Mysql一样，企业中用来做报表统计。SparkStreaming:实时数据流处理组件，类

陆山右·2022-12-09 09:56

Flink1.15 SQL实现自定义UDF

1FlinkSQL自定义函数分类说到UDF函数，通过HiveSQL的人会想到UDF、UDAF、UDTF，在FlinkTableAPI/SQL中没有可以提这几个概念，函数划分的会细一些，但是它们跟UDF、

大数据研习社·2022-12-07 12:23

四万字Hive调优全方位指南（推荐收藏）

本文基本涵盖以下内容：一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化之数据倾斜专题五、HiveSQL优化十二板斧六、Hive面试题(一)七、

公众号:肉眼品世界·2022-12-04 03:31

HiveSQL 数据操控、查询语言（DML、DQL）

HiveSQL数据操控、查询语言（DML、DQL）1Load——加载数据将数据load加载到表中时，hive不会进行如何转换，加载操作是将数据文件移动到与Hive表对应的位置的纯复制/移动操作。

Jaden_JH·2022-11-30 09:46

HiveSQL源码之语法词法编译文件解析一文详解

目录前言一、HiveSQL编译流程二、Antrl三、ANTLRWorks参阅前言工欲善其事必先利其器，首先要了解HiveSQL的编译语法的流程，还是需要懂得HiveSQL的执行流程以及编译规则。

fanstuck·2022-11-22 16:59

基于Python-sqlparse的SQL字段血缘追踪解析实现

目录前言一、字段血缘1.区别字段2.区别标识符序列3.功能函数设定二、字段血缘可视化点关注，防走丢，如有纰漏之处，请留言指教，非常感谢前言SQL解析和血缘追踪的研究现在差不多可以告一段落了，从8月22日写HiveSQL

fanstuck·2022-11-22 16:49

Hive——Hive/HiveSQL性能优化

文章目录Partition分区1.静态分区StaticPartition2.动态分区DynamicPartitionBucket分桶使用Spark作为执行引擎使用压缩使用ORC格式Join优化1.STREAMTABLE2.前置过滤条件3.Multi-wayJoin4.MapJoin（BroadcastJoin/Broadcast-HashJoin）5.SkewJoin基于代价的优化参考我们知道Hi

aof_·2022-11-18 09:21

Hive—— 1.hive架构及原理

Hive由Facebook实现并开源，是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能，底层数据是存储在HDFS上，Hive的本质是将SQL

blueicex2020·2022-11-18 09:18

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

本片博文是“大数据问题排查系列”之一，讲述某HIVESQL作业因为HIVE中的元数据与HDFS中实际的数据不一致引起的一个问题的排查和修复。以下是正文。

明哥的IT随笔·2022-11-12 04:59

Hive：用SQL对数据进行操作，导入数据、清洗脏数据、统计数据订单、优化结果输出等等

4.1方式一：shell命令4.2方式二：HQL(hivesql)4.3方式三：更新表，过滤首行(个人建议用这个SQL命令)5、每个用户有多少个订单？(分组)6、每个用户一个订单平均是多少商品？

唐樽·2022-11-08 10:41

5.1 Apache Hive DML语句与函数使用

ApacheHiveDML语句与函数使用一、HiveSQLDML语法之加载数据1、HiveSQL-DML-Load加载数据Load语法功能Load语法规则语法规则之filepath语法规则之LOCALLOCAL

周纠纠·2022-11-08 10:11

hiveSQL执行，转化为MR过程

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。------百度百科--hive的库、表等数据操作实际是hdfs系统中的目录和文件，让开发者可以通过sql语句，像操作关系数

寒枫__梦·2022-11-08 10:40

HiveSQL函数优化原理

算法与智能商业·2022-11-08 10:39

hive sql 基本命令总结

hive可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL。

maligebilaowang·2022-11-08 10:39

HiveSql常用的时间维度计算方法（月初、月末、周几）及时间维度表生成

目录0基础函数trunc()last_day()add_months()current_date()/current_datenext_daypmod()to_dateyearmonthhourdayofweekweekofyearquarterdatediffdate_adddate_subadd_monthsmonths_betweendate_format1关于月的计算1.1上月末1.2上月

莫叫石榴姐·2022-11-08 10:39

Hive及Hive SQL优化

Hive及HiveSQL优化参考Hive/HiveSQL常用优化方法全面总结1.列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

hopeAnyDay·2022-11-08 10:39

HiveSQL操作

文章目录1、SQL语言类型2、Hive的DDL操作：2.1、创建表：2.2、插入数据：2.3、修改表：2.4、删除表2.5分区2.6分桶2.7、总结3、Hive表的DQL4、Hive中的内置函数4.1、字符串处理相关4.2、JSON字符串解析4.3、聚合函数4.4、数据类型转化CAST5、Hive中的视图和索引5.1、视图5.2、索引6、Hive的日期函数时间函数6.1、Hive的日期函数6.2、

Always_Best_Sign_X·2022-11-08 10:08

HiveSQL常用优化方法经验总结

1.写在前面的话此处省略150字…2.Hive中解决数据倾斜的场景2.1大表Join小表时的数据倾斜(mapjoin) 在大表Join小表时,解决数据倾斜最好的方式是使用MapJoin,避免Shuffle,从而也避免了数据倾斜.mapjoin主要通过下面的参数来调节:#默认是truesethive.auto.convert.join=true--开启mapjoin//1.x版本及以后默认是开启的

enoughgood·2022-11-08 10:08

4.2 Hive SQL

HiveSQL-DDL一、HiveSQL语言：DDL建库、建表1、HiveSQL之数据库与建库SQL中DDL语法的作用Hive中DDL语法的使用数据库databasecreatedatabaseusedatabasedropdatabase2

周纠纠·2022-11-08 10:07

Flink1.16 发布新特性

02SpeculativeExecution发现和缓解热点机器对作业的影响03HybridShuffle提供资源利用率和数据传输率04DynamicPartitionPruning过滤无用数据，提高处理效率Flink1.16Preview:HiveSQL

京河小蚁·2022-11-03 10:43

HiveSQL优化技巧总结

前言一、SQL语句的结构二、SQL语句的执行顺序三、HQL语句优化1.列裁剪和分区裁剪2.使用sortby代替orderby3.使用groupby代替distinct4.使用withas5.聚合操作--groupingsets、cube、rollup5.1groupingsets5.2cube5.3rollup6.unionall时可以开启并发执行7.表的join优化8.数据倾斜8.1参数调优8.

笑看风云路·2022-11-02 07:47

Spark执行HiveSQL以及Hive自定义函数

Spark执行Hive提示：Spark执行Hive的表只能是外表或是表不包含ACID事物的表文章目录Spark执行Hive前言一、pom.xml导入依赖执行的包二、使用步骤1.编写代码2.Spark执行脚本异常处理前言Hive一般作为大数据的数据仓库，因其语句和SQL大部分通用。所以很多数据为存储在Hive表中。提示：以下是本篇文章正文内容，下面案例可供参考一、pom.xml导入依赖执行的包代码如

swg321321·2022-10-30 19:17

Hive3详细教程（八）Hive3自定义UDF函数（elipse版）

因为Hive本身是Java开发的，所以我们可以使用Java定义函数供HiveSQL使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。

Java朱老师·2022-10-26 07:59

Hive3详细教程（九）Hive3自定义UDF函数（IDEA Maven版）

因为Hive本身是Java开发的，所以我们可以使用Java定义函数供HiveSQL使用。我们通过定义一个将输入字符串转换成反向输出的案例来探究UDF函数的自定义。

Java朱老师·2022-10-26 07:59

hivesql中 exists 用法

有一次面试的时候，面试官问了这么一个场景题：一家门店一个月内每位顾客访问的目的可能有多种，并给到访顾客的目的打标签1、2、3、4这四类，现在要统计这家门店一个月内没有3、4标签的顾客明细。（也就是顾客到访标签只有1或者2，但凡被打过3或4标签的客户都要被排除掉）很明显，这个场景用exists就很合适了。先建一张表，插入几条数据，简单模拟一下这个场景如上图，到访门店的一共四位顾客，不存在标签3、4的

Wflowerd·2022-10-25 21:32

hive调优常见策略

fetch抓取机制通俗解释：在执行hivesql的时候能不跑MapReduce程序尽量不跑MapReduce程序。直接针对表所对应的文件进行操作fetch默认是开启的。

大数据架构师Pony·2022-10-18 10:35

谈笑间学会大数据-Hive调优策略

谈笑间学会大数据-Hive调优策略HiveSQL是一种声明试语言，用户会提交声明式的查询，而Hive会将其转换成MapReducejob，大多数情况下，用户不需要了解Hive内部的实现原理的，这样就可以专注业务的事情

MrZhangBaby·2022-10-18 10:31

大数据——Hive SQL优化

大数据——HiveSQL优化一、SELECT字段尽可能少，数据过滤尽可能提前二、能不用JOIN连接的就不用三、数据倾斜问题四、多表join时key保持一致五、去除空值和无意义的值一、SELECT字段尽可能少

长不大的大灰狼·2022-09-22 22:19

大数据系列 | SparkSQL&HiveSQL报错解决方法

问题原因：问题报错提示：Distinctwindowfunctionsarenotsupported:count(distinctxx)windowspecdefinition(name#9,_w4#39,ROWSBETWEENUNBOUNDEDPRECEDINGANDUNBOUNDEDFOLLOWING);问题报错原因：查阅资料后发现sparksql中的窗口函数不支持COUNT(DISTINCT

woshinsy·2022-09-21 13:09

CDH6.3.2 Hive on spark报错is running beyond physical memory limits

Hue跑hivesql时报错如下java.lang.IllegalStateException:ConnectiontoremoteSparkdriverwaslost查看yarn报错日志如下Container

格格巫 MMQ!!·2022-09-21 13:38

大数据面试之hive重点(二)

大数据面试之hive重点(二)HiveSQL转化为MR的过程？

大数据小理·2022-09-21 13:35

推荐频道

hivesql

大数据技术之SparkSQL（一）-spark sql 的介绍，特点，Data Frame,DataSet的介绍

大数据技术之SparkSQL（一）概述

大数据技术之SparkSQL（超级详细）

pandas打印某一列_一场Pandas与SQL的巅峰大战

Centos Linux 单机安装 Hive 、使用 Hive

Tensorflow之TFRecord的原理和使用心得

HiveSQL

Hive实际工作场景Sql题(业务自想)

HANA SDI - 抽数作业造成HIVE内存高

SQL去重的三种方法汇总

Hive的优化

Hivesql常用优化技巧

【面试真题】今日头条大数据面试100题，收藏备用

Flink 1.16：Hive SQL 如何平迁到 Flink SQL

hive sql案例练习一

Flink 1.16：Hive SQL 如何平迁到 Flink SQL

最详细的Hive&HBase

Hive sql切换Flink sql常见问题汇总

使用Flink1.16.0的SQLGateway迁移Hive SQL任务

Spark的运行架构和基本原理

Flink1.15 SQL实现自定义UDF

四万字Hive调优全方位指南（推荐收藏）

HiveSQL 数据操控、查询语言（DML、DQL）

HiveSQL源码之语法词法编译文件解析一文详解

基于Python-sqlparse的SQL字段血缘追踪解析实现

Hive——Hive/HiveSQL性能优化

Hive—— 1.hive架构及原理

大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复

Hive：用SQL对数据进行操作，导入数据、清洗脏数据、统计数据订单、优化结果输出等等

5.1 Apache Hive DML语句与函数使用

hiveSQL执行，转化为MR过程

HiveSQL函数优化原理

hive sql 基本命令总结

HiveSql常用的时间维度计算方法（月初、月末、周几）及时间维度 表生成

Hive及Hive SQL优化

HiveSQL操作

HiveSQL常用优化方法经验总结

4.2 Hive SQL

Flink1.16 发布新特性

HiveSQL优化技巧总结

Spark执行HiveSQL以及Hive自定义函数

Hive3详细教程（八）Hive3自定义UDF函数（elipse版）

Hive3详细教程（九）Hive3自定义UDF函数（IDEA Maven版）

hivesql中 exists 用法

hive调优常见策略

谈笑间学会大数据-Hive调优策略

大数据——Hive SQL优化

大数据系列 | SparkSQL&HiveSQL报错解决方法

CDH6.3.2 Hive on spark报错is running beyond physical memory limits

大数据面试之hive重点(二)

HiveSql常用的时间维度计算方法（月初、月末、周几）及时间维度表生成