hivesql 第7页

hiveSQL常见函数及用法（持续收集）

1，时间函数2，聚合函数注意：聚合函数常与SELECT语句的GROUPBY子句一块儿使用。换句话说使用聚合函数时，一个列字段要不在groupby里，要没必要须在聚合函数里面，不能单独出现，不然报错。3，字符串函数4，连接函数5，其他函数6，窗口函数1，lead(col，n,m)over(partitionby…orderby…):其中col是要取的字段，n是取排序后的第几条记录；m是缺省值，如果后

无形风·2023-04-04 10:57

Hive SQL时间函数及用法

HiveSQL时间函数当前官方提供的日期函数共27个，内容如下：1.获取当前系统时间函数：current_timestamp返回值：timestamp返回查询计算开始时的当前时间戳(从Hive1.2.0

PONY LEE·2023-04-04 10:15

hivesql窗口函数

一、累计计算窗口函数sum(field)over(partitionbyfieldorderbyfieldasc/descrowsbetween…and…)avg(field)over(partitionbyfieldorderbyfieldasc/descrowsbetween…and…)max(field)over(partitionbyfieldorderbyfieldasc/descrow

大哇唧·2023-04-04 10:41

OLTP 和 OLAP 的区别；hive与其它框架的区别

导航hiveoutlineOLTP和OLAP的区别hive和mysql主要区别hive和hbase的区别hivesql和sparksql的区别hiveonspark和sparkonhive的区别hiveoutlinehiveoutlineOLTP

塞上江南o·2023-04-04 10:32

HiveSQL函数总结

数学函数保留几位小数(四舍五入)--MySQL可用selectround(1.23456,3)ASf;--取值为1.235向下取整--MySQL可用SELECTFLOOR(1.234)ASI;--取值为1求开方--MySQL可用SELECTSQRT(9)ASs;--取值3.0求模|求余数--MySQL不可用SELECTpmod(10,3)ASp;--取值为1求幂--MySQL可用selectpow

Kukafee·2023-04-04 10:34

Hive SQL函数

HiveSQL函数一、关系运算1.等值比较:=2.不等值比较:6.大于等于比较:>=7.空值判断:ISNULL8.非空判断:ISNOTNULL举例：统计表中字段label非空数量：selectcount

王林-wlin·2023-04-04 10:59

Hive SQL语句操作

HiveSQL语句操作一、任务描述二、任务目标三、任务环境四、任务分析1.大数据离线处理特点2.HDFS3.Yarn框架的组件功能4.Hive五、任务实施步骤1、新建hql文件步骤2、hive中执行此文件步骤

不懂开发的程序猿·2023-04-04 07:34

HiveSQL的执行流程

底层任务调度通过yarn进行资源分配，默认计算引擎为MapReduce，可移植为hiveontez或者hiveonspark，下面是一条hivesql的执行流程：（hive中的四大组件：解析器，编译器，

请学习好嘛·2023-04-04 07:30

hiveSQL:统计视频观看数Top50所关联视频的所属类别Rank

一.统计此题需要多表连接嵌套,需要使用到的内置处理函数有:1.orderbydesc:字段按照降序排列(不加desc默认升序)2.lateralview:(侧写表,关联)用法:LATERALVIEWudtf(expression)tableAliasAScolumnAlia3.explode:将hive一列中复杂的Array或者Map结构拆分成多行4.groupby:按字段分数查询5.count(

请学习好嘛·2023-04-04 07:00

SQL进阶--4__如何使用hiveSQL分离字符串中的字符和数字

如何使用HQL分离字符串中的字符和数字0-需求1-数据分析2-总结0-需求如果数据中存在字符和数字混在一起的情况且放在一列中，此时需要将其中的数字数据和字符数据分开，分别单独成为一列，应该怎么做？如下数据：FLINK434354HADOOP67889HBASE500019KAFKA15999SQOOP13332HELLO57000SPARK13000需要将中文名称和数字单独提取出来，得到如下结果F

KG大数据·2023-04-03 05:35

【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL

1.HiveSQL1.1基本介绍概念Hive由Facebook开发，用于解决海量结构化日志的数据统计，于2008年贡献给Apache基金会。

high2011·2023-04-03 05:58

InfluxDB的查询优化

首先，在学习influxDB的查询优化之前，我们要先学习下InfluxDB的解释器profiler（类似于mysql的Explain语句，不一样的是，sql，hivesql是提前查看执行计划等，Influx

程序员的三板斧·2023-04-02 23:02

hive的常规操作

Hive，是一个数仓管理工具，可以将数仓存在HDFS上的文件变成表，同时提供HiveSQL进行表

zeroLinked·2023-04-01 05:00

hivesql的几种优化的方法

目前项目中由于数据量巨大，导致一个sql要跑一个多小时，所以找了些可以优化的点，记录下来，以后方便使用。1.map的优化，job在maptask的过程时间较长setmapreduce.map.memory.mb=8240;setmapreduce.reduce.memory.mb=8240;sethive.merge.mapfiles=false;setmapreduce.input.filein

桔梗的犬夜叉·2023-04-01 02:42

HiveSQL 与 SQL 的区别

Hive采用了类SQL的查询语言HQL(hivequerylanguage)。除了HQL之外，无任何相似的地方。Hive是为了数据仓库设计的。1、存储位置：Hive在Hadoop上;Mysql将数据存储在设备或本地系统中;2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了;数据库可以CRUD;3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算,适用于大数据量;

堂堂正正的大号·2023-03-31 18:59

Hive与传统数据库的比较

Hive通过把HiveSQL进行解析和转换，最终生成一系列在hadoop上运行的mapreduce任务，通过执行这些任务完成数据分析与处理。

糖潮丽子·2023-03-31 01:58

hive架构和原理以及与传统数据库的区别

HiveSQL简称HQL。hive的执行引擎可以是MR、Spark、tez。如果执行引擎是MapReduce的话，hive会将Hql翻译成MR进行数据的计算。用户可以使用命

ChlinRei·2023-03-31 01:10

HIVE—数据仓库

也不分布式计算框架，hive的核心工作就是把sql语句翻译成MR程序；3.hive也不提供资源调度系统，也是默认由Hadoop当中YARN集群来调度；4.可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL

Hekliu·2023-03-30 16:26

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作一、MapReduce实现基本SQL操作的原理1、join的实现原理MapJoin的实现原理CommonJoinResolver

嗷嗷的特Man·2023-03-29 06:46

从一个锁表问题了解hive锁机制

同事遇到一个问题，无论从平台哪里提交HiveSQL，都没有进度，没有日志。

gregocean·2023-03-24 16:38

30分钟掌握 Hive SQL 优化（解决数据倾斜）

HiveSQL几乎是每一位互联网分析师的必备技能，相信每一位面试过大厂的童鞋都有被面试官问到Hive优化问题的经历。

未来在这儿·2023-03-23 13:42

Spark SQL 概念

(1)分支SQLContext仅支持SQL语法解析起HiveContext支持SQL和HiveSQL语法解析器默认为HiveSQL语法解析器执行顺序：词法/语法解析>绑定>优化>执行(2)组成Core负责处理数据的输入输出

Finok·2023-03-23 02:53

hivesql解析json格式的key与value

目录解析json格式中的key解析json格式中的valuejson格式示例：{“city_code”:“340100”,“county_code”:“340111”,“orientation”:“东”,“road_id”:35204271,“speed”:35.72}解析json格式中的key我们可以看到这个数据还是很规整的，首先先将这个json数据中的花括号：“{}”给去除，并将逗号：“，”也

啊帅和和。·2023-03-22 11:47

hive sql去重--sql取最近一条记录

hivesql在使用中会经常碰到去除重复数据的操作，一般来说一个关键字distinct就可以解决，但是distinct的使用场景限制比较多，它是对所选取的所有字段进行比对，只要有一个字段的值不相同就为非重复记录

西二旗老司机·2023-03-20 02:10

Presto在滴滴的探索与实践

桔妹导读：Presto在滴滴内部发展三年，已经成为滴滴内部Ad-Hoc和HiveSQL加速的首选引擎。

滴滴技术·2023-03-18 06:02

Hive调优

本文种记录的大多是开源版本hive调优方式我也会补充TDH集群Inceptor的优化方式面试必备技能-HiveSQL优化HiveSQL基本上适用大数据领域离线数据处理的大部分场景.HiveSQL的优化也是我们必须掌握的技能

OverLight·2023-03-12 19:40

数据仓库面试题整理（一）

面试题整理一、数据仓库基础1.范式建模和维度建模2.主题域划分3.数据仓库分层优点4.事实表分类5.缓慢变化维6.数据输出SLA保障7.大表JOIN大表优化二、Hive基础1.HIVESQL优化2.HiveJoin

无语梦醒·2023-03-10 07:55

Hive_HQL_复杂SQL_连续发单天数

原文地址：1.HiveSQL复杂场景实现(1)——连续发单天数https://blog.csdn.net/Adrian_Wang/article/details/89791948至今在数据分析岗摸爬滚打已有一年

高达一号·2023-02-26 07:18

Hive Sql 求每个用户连续登陆的最大天数

@[TOC]HiveSql求每个用户连续登陆的最大天数uid,dt1,2019-08-011,2019-08-021,2019-08-031,2019-08-041,2019-08-061,2019-08

hello_jxt·2023-02-26 06:42

hiveSql 实现计算用户的最大连续登录天数 & 创建断连后的连续序号

hiveSql实现计算用户的最大连续登录天数&创建断连后的连续序号1.需求一：1.1.已有数据1.2.期望结果1.3.分析1.4.实现2.需求二2.1.已有数据2.2.期望结果2.3.分析2.4.实现方式一

@nanami·2023-02-26 06:11

HiveSQL面试题18--腾讯面试用户连续签到天数及历史最大连续签到天数问题

目录0题目1数据准备3数据分析4小结0题目有一张用户签到表【t_user_attendence】，标记每天用户是否签到（说明：该表包含所有用户所有工作日的出勤记录），包含三个字段：日期【fdate】用户id【fuser_id】用户当天是否签到【fis_sign_in：0否1是】问题1：请计算截至当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到天数）输出表【t_user

莫叫石榴姐·2023-02-26 06:40

Spark相关的依赖冲突，后期持续更新总结

岁月的眸·2023-02-18 20:31

hive sql 基本语法@2019-02-12

分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL去查询分析需要的内容，这套SQL简称HiveSQL

dataHunter·2023-02-18 17:31

Hive优化篇-Hive数据存储格式

选择一个合适的底层数据存储文件格式，即使在不改变当前HiveSQL的情况下，性能也能得到数量级的提升。

顶尖高手养成计划·2023-02-18 07:47

关于Hive的一些总结

二.HiveSQL内部表和外部表：删除一个内部表时，Hive同时会删除这个表中的数据。删除外部表时，只会删除外部表的元数据。有些HiveSQL语法不适用于外部表。分区：对数据进行分区，可以使得查询更快

阿猫阿狗Hakuna·2023-02-17 18:59

Hive 在工作中的调优总结

总结了一下在以往工作中，对于HiveSQL调优的一些实际应用，是日常积累的一些优化技巧，如有出入，欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作，partitioned

·2023-02-16 20:53

HiveSQL 工作实战总结

记录一些工作中有意思的统计指标，做过一些简化方便大家阅读，记录如有错误，欢迎在评论区提问讨论~问题类型连续问题两种思路第一种：日期减去一列数字得出日期相同，主要是通过row_number窗口函数第二种：后一个日期减去前一个日期差值相等，用的较少，可以用lag/lead窗口函数解决分组问题主要使用lag(col,1,0)分组将每行移到下一行，再按既定规则分组排序即可后面抽空试一下间隔连续问题，比如每

·2023-02-16 20:48

HiveSql调优经验/2021-02-15

join长尾背景sql在join执行阶段会将joinkey相同的数据分发到同一个执行instance上处理。如果某个key上的数据量比较多，会导致该instance执行时间比其它instance执行时间长。其表现为：执行日志中该jointask的大部分instance都已执行完成，但少数几个instance一直处于执行中，这种现象称之为长尾。长尾类别&优化方法小表长尾join倾斜时，如果某路输入比

zhaoyqiu·2023-02-07 13:59

数据分析课程笔记 - 17 - HIVE 核心技能之常用函数

这节课的主要内容有：1、Hive云平台使用步骤2、基础语法（1）SELECT…A…FROM…B…WHERE…C…（2）GROUPBY（3）ORDERBY（4）HiveSQL解析顺序3、常用函数（1）如何把时间戳转化为日期时间

爱学习的ai酱·2023-02-05 02:42

hive窗口函数总结

一：前言根据官网的介绍，hive推出的窗口函数功能是对hivesql的功能增强，确实目前用于离线数据分析逻辑日趋复杂，很多场景都需要用到。以下就是对hive窗口函数的一个总结附上案例。

愤怒的谜团·2023-02-03 00:14

sql或hivesql 入门碰到的错误总结

split分割特殊字符需要转义字段a满足条件统计字段b表格连接leftjoin并不会维持左表完全不变Leftjoin并不会保留左表完全不变，一对多的会重复保留下来。On后面的条件会先筛选再连接，后再跟where，会对连接的结果再进行筛选count统计错误的问题筛选条件中需要加入orNULL,因为count是不统计为NULL的而不是不统计为FALSE的。Presto这样写是对的，hive这样写是错的

吵吵人·2023-02-02 15:56

分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表

分享一个HIVESQL性能优化点-使用公共表表达式CTE替换临时表hive作业的性能优化是一个永恒的话题，其优化方法也有很多，在此分享一个优化点，即编写SQL时使用公共表表达式CTE替换临时表，经测试优化效果还不错

·2023-02-01 12:17

每天一道大厂SQL题【Day01】

先来10道HiveSQL题：第1

Maynor996·2023-01-31 19:11

Spark使用总结-Scala

ScalaSpark使用特殊引用使用比如hivesql或者rdd转换toDF是通过隐式转换，需要增加相关的包引用1hivesql：importspark.sql2隐式函数：importspark.implicits

slowrabbit·2023-01-26 00:28

大数据工具——Hive（基础）

这套HiveSQL简称HQL。Hive的执行引擎可以是MR、Spark、Tez。本质Hive的本质是将HQL转换成MapReduce任务，完成整个数据的分析查询，减少编写MapReduce的复杂度。

NoMissU·2023-01-17 15:31

HiveSQL原理和优化详解

HiveSQL编译成MapReduce过程编译SQL的任务是在上节中介绍的COMPILER（编译器组件）中完成的。

000X000·2023-01-13 15:19

hiveSQL基本语句二------常用函数（时间戳、时间间隔、if、case）

查看所有函数showfunctions;查看某一函数descfunctionextendedfrom_unixtime;一、时间戳转化为指定格式的函数from_unixtime格式：from_unixtime(bigintunixtime,stringformat)formatyyyy-MM-ddhh:mm:ssyyyy-MM-ddhh12小时制yyyy-MM-ddHH24小时制yyyy-MM-d

cc抱富·2023-01-13 15:43

HiveSql面试题50：京东面试题之有效值问题

目录0需求1数据准备2数据分析3小结0需求需求描述：有一张入库成本表,一个商品每次入库就会产生一条数据,里面包含商品id,入库时间,以及入库采购的成本.但由于某些某些原因,导致表中某些数据的成本是有丢失的.现在的逻辑是,当成本丢失时,有两种取成本的方式，现在需要把两种成本都取出来，最后取2次成本的平均值作为本次入库的成本。取数逻辑如下：1.取同一个商品最近一次入库的有效成本（即存在成本时就为有效成

莫叫石榴姐·2023-01-13 15:11

SQL进阶--1__如何使用hiveSQL遍历字符串

如何使用hiveSQL遍历字符串0-需求1-数据分析2-总结0-需求遍历字符串，并以一个字符一行的形式显示出来如遍历"a,b,c,d,e,f"字符串，使其每个字符都生成一行记录1-数据分析在hive中为我们提供了强大的

KG大数据·2023-01-13 15:09

大数据技术之SparkSQL介绍

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

尚硅谷铁粉·2023-01-12 10:46

推荐频道

hivesql