HiveSql 第10页

Hive窗口函数进阶指南

值得注意的是本文中的例子使用的是HQL（HiveSQL），本文需要一定的SQL基础，如果想了解基础SQL，请移步本人的数据分析师之快速掌握SQL基础。两

gongyouliu01·2021-02-16 08:00

hive sql 转 presto sql 的常见问题：presto instr

都是sql，基本逻辑是一样的，常常出现问题是因为两边都函数不同导致hivesql没法在presto引擎下执行。在我的使用场景中，一些常见的需要替换的函数，现记录下。

Neon_Light·2021-02-05 13:00

分布式离线计算—HiveSQL

原文作者：极客教程原文地址：Hive简介目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作总结Hive简介，Hive是Hadoop大数据仓库Hive。在数据仓库中，SQL是最常用的分析工具，既然一条SQL可以通过MapReduce程序实现，那么有没有工具能够自动将SQL生成MapReduce代码呢，答案就是Hive。MapReduce的出现大大简化了大数据编程的难度，

测试狗一枚·2021-01-26 09:01

Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

前言离线数仓之前的主力工具是hive，有一些处理需要写udf实现，当hivesql迁移成sparksql时。之前的udf函数该怎么办呢，本文为自测并总结。

俩只猴·2021-01-24 14:38

hivesql 执行顺序与常用函数、表连接、coalesce函数

hivesql执行顺序与常用函数：xmind获取链接：https://pan.baidu.com/s/1IppOx-eu17i3mIvYaqZnsA提取码：iasu表连接相关笔记：coalesce函数：

小白冲啊·2021-01-22 17:04

Hive源码本地IDEA调试的正确姿势

Hive源码本地IDEA调试的正确姿势背景环境准备初始化配置修改配置初始化元数据库编译代码启动HiveMetaStore启动Hivesql客户端ClientDriver模式HiveServer2模式启动

喜剧之皇·2021-01-11 11:58

(一)Hive概述与安装

它是基于Hadoop的一个数据仓库工具，能够将结构化的数据文件映射为一张表，并提供类SQL查询功能，我们一般叫HQL(HiveSql)，底层是存储在HDFS上。

leafgood·2021-01-09 22:35

(一)Hive概述与安装

它是基于Hadoop的一个数据仓库工具，能够将结构化的数据文件映射为一张表，并提供类SQL查询功能，我们一般叫HQL(HiveSql)，底层是存储在HDFS上。

leafgood·2021-01-09 17:01

HiveSql面试题12--如何分析去掉最大最小值的平均薪水（字节跳动）

目录0问题描述1数据准备2数据分析3小结0问题描述薪水表中是员工薪水的基本信息，包括雇员编号，部门编号和薪水第1行表示雇员编号为10001的员工在1号部门，薪水为60117元;第2行表示雇员编号为10002的员工在2号部门，薪水为92102元;...第10行表示雇员编号为10010的员工在1号部门，薪水为76884元问题：查询每个部门除去最高、最低薪水后的平均薪水，并保留整数。1数据准备（1）数据

果子学长@小眼睛·2021-01-09 17:27

轻松搞定 Shell 玩转 HiveSQL

运行hiveSQL的方式有以下几种。1.hive交互式命令行即在shell环境下直接使用hive命令，当屏幕下方出现hive>时，就进入了hive的环境，如下图所示。

☞空白页·2021-01-04 09:14

hive

hive定义了简单的类SQL查询语言，称为HiveSQL。hive在执行过程中会将HQL转换为MapReduce执

## name·2021-01-02 16:37

hive中groupby优化_HiveSQL常用优化方法全面总结

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。以我们的日历记录表

周天无极·2020-12-31 05:16

hive中groupby优化_Hive的10种常用优化总结，再也不怕MapReduce分配不均了

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

h肚肚·2020-12-28 11:33

hive中groupby优化_HiveSQL常用优化方法

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。以我们的日历记录表

工业狂魔·2020-12-28 01:59

python执行hivesql_python 调用shell hive sql

defgenerate_csv_source(data_file):#判断文件是否存在ifnotos.path.exists(data_file):#拉取hive表数据cmd_sql='hive-e"sethive.cli.print.header=true;\select*fromdw.full_d_usr_channel_sum_v3whereds%s'%(data_file)printcmd

何为自律·2020-12-24 03:14

existed hive ods_Hive数据仓库实战

文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、HiveSQL操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用，公司一般都是用它作为公司的数据仓库

weixin_39712724·2020-12-21 04:19

大数据实战记录

目录环境安装搭建编写同步集群脚本以及查看集群进程脚本MySQLHadoopHadoopUIHDFS存储MapReduce计算Yarn资源管理HBaseHBase基本操作HBase运维和优化ZooKeeperHiveHive基本操作HiveSQL

Beth_Chan·2020-12-14 16:54

Hive引擎Spark优化配置参数

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时，经常会用到的、常见的配置参数。

云掣科技·2020-12-10 21:38

HIVE SQL函数实例讲解

HIVESQL函数实例讲解一、SQL函数汇总1.数学函数2.日期函数3.字符函数4.聚合函数5.取数常用函数二、表操作相关1.建表2.表删除3.表结构查询4.视图与物化视图5.索引三、注意事项四、练习

互联网搬砖侠·2020-12-10 18:47

Hive数据仓库实战

文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、HiveSQL操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用，公司一般都是用它作为公司的数据仓库

陈敬雷-充电了么-CEO兼CTO·2020-12-05 16:36

基于Hadoop的数据仓库工具Hive(附超实用示例)

Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL

yuyuyu·2020-11-30 16:01

基于Hadoop的数据仓库工具Hive(附超实用示例)

Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL

yuyuyu·2020-11-30 16:49

技本功|Hive优化之监控（三）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣科技·2020-11-24 21:28

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣科技·2020-11-24 21:24

HiveSQL电商分析案例30题

问题导读：1、如何通过UDF自定义MD5加密函数，对地址、邮箱等信息进行加密？2、如何对表内容进行检查？3、如何进行数据分析？一、前言Hive学习过程中的一个练习项目，如果不妥的地方或者更好的建议，欢迎指出！我们主要进行一下一些练习：数据结构数据清洗基于Hive的数据分析二、项目需求首先和大家讲一下这个项目的需求：「对某零售企业最近1年门店收集的数据进行数据分析」潜在客户画像用户消费统计门店的资源

☞空白页·2020-11-03 16:12

Presto在滴滴的探索与实践

桔妹导读：Presto在滴滴内部发展三年，已经成为滴滴内部Ad-Hoc和HiveSQL加速的首选引擎。

滴滴技术·2020-10-09 20:22

Hive SQL使用过程中的奇怪现象

HiveSQL是一种类SQL语言，与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法，发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同

大数据技术与数仓·2020-10-09 12:59

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。

云掣科技·2020-10-09 12:10

Hive 知识整理--二

目录1.Hive执行流程2.Hive工作原理3.HIve执行顺序4.Hive和传统数据库的比较5.hivesql的mapjoin6.HiveHDFSHBase区别7.维度和度量8.hivesql优化问题

wuli玉shell·2020-09-28 20:32

HiveSql

--类型转换：castSELECTCAST('00321'ASBIGINT)FROMtable;--判断奇数or偶数--获取偶数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=0;--获取奇数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=1;--简单ca

Rainysong·2020-09-28 14:23

Hive使用Calcite CBO优化流程及SQL优化实战

目录HiveSQL执行流程Hivedebug简单介绍HiveSQL执行流程Hive使用Calcite优化HiveCalcite优化流程HiveCalcite使用细则Hive向Calcite提供元数据上一篇主要对

zzzzMing·2020-09-22 19:00

hive mapjoin使用

今天遇到一个Hive的问题，如下hivesql：selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录，A表只有100行记录

lvhuiyin·2020-09-17 12:41

Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20

前言在Spark2.0版本之前,SparkSQL中SQLContext是创建DataFrame和执行SQL的入口,可以利用hiveContext通过hivesql语句操作hive表数据,兼容hive操作

啊策策·2020-09-17 07:23

Java实现HiveSQL Parser

importcom.xxxx.model.SQLParserResult;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apache.hadoop.hive.ql.parse.*;importjava.util.*;/***@authoryangxin-ryan*

杨鑫newlfe·2020-09-17 05:44

hive sql语法解读

hivesql学习笔记(1)一、创建表在官方的wiki里，example是这样的：CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name

wenjiangliuto·2020-09-17 00:17

HiveSql的时间函数

获取当前时间:1).current_timestamp------------------2019-08-1000:12:26.6062).unix_timestamp()-------------------15653672023).from_unixtime(unix_timestamp())------------2019-08-1000:14:104).CURRENT_DATE------

武汉的鱼·2020-09-16 12:31

Linux_BigData常用配置/命令

文章目录Linux双网卡配置HadoopZookeeperHBase单机HiveHive表操作HiveSQL操作Hive函数FlumeKafkaKafkaStreamingSparkFlinkLinux

HuiGe94v587·2020-09-16 12:23

storm架构原理及集群部署

离线计算和实时计算离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术：Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、zookeeper任务调度1、hivesql2

@ange·2020-09-16 11:13

SemanticException Column xx Found in more than One Tables/Subqueries hivesql

hivesql中出现报错：SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries（1）首先检查自己给某一个表起的别名是不是这个表中或者联合的表中字段的名

冲鸭，屎壳郎·2020-09-16 10:42

hivesql解析json数组并拆分成多行

原始数据：[{"name":"woods","app_id":"abc123"},{"name":"tiger","app_id":"def456"}]数据存在表dev.woods_test中需求与方法：解析json，一行拆分成两行selecta_jsonfrom(selectsplit(regexp_replace(regexp_extract(json_col,'(\\[)(.*?)(\\])

Time Woods·2020-09-16 06:19

java使用jdbc调用hive出现The query did not generate a result set!

使用java通过jdbc调用hive，执行hivesql时出现如下异常：Exceptioninthread"main"java.lang.reflect.InvocationTargetExceptionatsun.reflect.NativeMethodAccessorImpl.invoke0

天佑凡人·2020-09-15 23:41

Parquet性能测试调优及其优化建议

parquet1、选择parquet的外部因素（1）我们已经在使用spark集群，spark原本就支持parquet，并推荐其存储格式（默认存储为parquet）；（2）hive支持parquet格式存储，使用HiveSql

weixin_33963594·2020-09-15 15:45

Hive数仓筛选出2秒内可能重复下单的订单id列表

面对海量订单人工进行全部排查十分困难且是不现实的，所以在此背景下，基于全量数据，写了一个HiveSQL来筛选出可能重复订单数据。

csdn-延·2020-09-15 14:32

hive sql 优化

优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

仲景武·2020-09-15 12:01

Spark SQL之 UDF自定义函数实战

目录一：UDF含义二：使用scala/java创建的方法直接使用在HiveSQL中三：代码一：UDF含义UDF：（UserDefinedFunction）用户自定义函数二：使用scala/java创建的方法直接使用在

威少SOS·2020-09-15 03:13

Spark SQL概述

Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

ITBOY_ITBOX·2020-09-15 02:11

spark sql 1.6.0 自定义永久函数

sparksql1.5.0也支持Spark(Hive)SQL中UDF的使用相对于使用MapReduce或者SparkApplication的方式进行数据分析，使用HiveSQL或SparkSQL能为我们省去不少的代码工作量

wuzhilon88·2020-09-15 02:49

Hive mapjoin使用(数据倾斜优化)

今天遇到一个Hive的问题，如下hivesql：selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录，A表只有100行记录

TechChan·2020-09-15 00:08

13_Hive优化

Hive优化要点：优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。

weixin_34393428·2020-09-14 23:40

hive实例讲解实现in和not in子句

in查询如果要查询当天登陆的注册用户，需要用in查询，hivesql如下:selectlogin.uidfromloginleftouterjoin

yaoyaoxingkong·2020-09-14 21:07

推荐频道

HiveSql

Hive窗口函数进阶指南

hive sql 转 presto sql 的 常见问题：presto instr

分布式离线计算—HiveSQL

Hive SQL的数仓迁移成Spark SQL，之前的UDF函数怎么办?

hivesql 执行顺序与常用函数、表连接、coalesce函数

Hive源码本地IDEA调试的正确姿势

(一)Hive概述与安装

(一)Hive概述与安装

HiveSql面试题12--如何分析去掉最大最小值的平均薪水（字节跳动）

轻松搞定 Shell 玩转 HiveSQL

hive

hive中groupby优化_HiveSQL常用优化方法全面总结

hive中groupby优化_Hive的10种常用优化总结，再也不怕MapReduce分配不均了

hive中groupby优化_HiveSQL常用优化方法

python执行hivesql_python 调用shell hive sql

existed hive ods_Hive数据仓库实战

大数据实战记录

Hive引擎Spark优化配置参数

HIVE SQL函数实例讲解

Hive数据仓库实战

基于Hadoop的数据仓库工具Hive(附超实用示例)

基于Hadoop的数据仓库工具Hive(附超实用示例)

技本功|Hive优化之监控（三）

技本功|Hive优化之Spark执行引擎参数调优（二）

HiveSQL电商分析案例30题

Presto在滴滴的探索与实践

Hive SQL使用过程中的奇怪现象

技本功|Hive优化之Spark执行引擎参数调优（二）

Hive 知识整理--二

HiveSql

Hive使用Calcite CBO优化流程及SQL优化实战

hive mapjoin使用

Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20

Java实现HiveSQL Parser

hive sql语法解读

HiveSql的时间函数

Linux_BigData常用配置/命令

storm架构原理及集群部署

SemanticException Column xx Found in more than One Tables/Subqueries hivesql

hivesql解析json数组并拆分成多行

java使用jdbc调用hive出现The query did not generate a result set!

Parquet性能测试调优及其优化建议

Hive数仓筛选出2秒内可能重复下单的订单id列表

hive sql 优化

Spark SQL之 UDF自定义函数实战

Spark SQL概述

spark sql 1.6.0 自定义永久函数

Hive mapjoin使用(数据倾斜优化)

13_Hive优化

hive实例讲解实现in和not in子句

hive sql 转 presto sql 的常见问题：presto instr