E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSQL
大数据之Spark(5)- SparkSql
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spar
jackyan163
·
2023-08-26 14:07
大数据-Hive
2)Hive本质Hive是一个Hadoop客户端,用于将HQL(
HiveSQL
)转化成MapReduce程序。
ONLYYD
·
2023-08-25 13:27
hive
大数据
hive中\u0001、\0001、\0010、\u0010等分隔符切割问题
以‘\u0010’为例
hivesql
使用split函数时,如果字段内使用的是特殊分隔符()需要用split(xxx,‘\u0010’)才能正常切割。
大地你王哥
·
2023-08-24 21:12
hive
Java
hive
java
hive sql 拆解字段
在
HiveSQL
中,拆解字段通常涉及到字符串操作,如将一个包含多个部分的字符串拆解成多个独立的字段。可以使用内置的字符串函数来实现这个目标。
sun13047140038
·
2023-08-23 05:10
hive
sql
hadoop
Hive使用手册
HiveSQL
创建表显示表--显示所有的表showtables;--按照正则表达式显示表SHOWTABLES'.*s';删除表更改表
Bigdata234
·
2023-08-23 01:46
大数据背景和概念
一、背景1.岗位现状大数据在一线互联网已经爆发了好多年,2015年-2020年(国内互联网爆发期)那时候的大数据开发,刚毕业能写
HiveSQL
配置个离线任务、整个帆软报表都20K+起步。
2301_77342543
·
2023-08-22 00:29
大数据
hivesql
-dayofweek 函数
返回日期或时间戳的星期几。此函数是extract(DAYOFWEEKFROMexpr)的同义函数。语法dayofweek(expr)参数expr:一个DATE或TIMESTAMP表达式。返回一个INTEGER,其中1=Sunday和7=Saturday。示例>SELECTdayofweek('2009-07-30');5
菜鸟Octopus
·
2023-08-17 16:58
Spark
On
Hive调优
sql
数据库
HIVE SQL实现分组字符串拼接concat
在Mysql中可以通过group_concat()函数实现分组字符串拼接,在
HIVESQL
中可以使用concat_ws()+collect_set()/collect_list()函数实现相同的效果。
永远在减肥永远110的的小潘
·
2023-08-16 19:11
hive
sql
2018-04-09 数据仓库技能要求
一、基础技能1关系数据库基础1.1.关系数据库-mysql1.1.1mysql应用1.1.2mysqlsql优化1.2.非关系型数据库-Hive1.2.1.
hivesql
应用1.2.2
Hivesql
优化
dataMaster
·
2023-08-15 15:04
Hivesql
/Python求相同老师学生连续上多节课的数据
表结构:表结构方式一:
HIVESQL
:1.首先按照学生和上课时间排序(升序),并新增一列row值当作参考列SELECTuid,`datetime`,teacher,id,ROW_NUMBER()OVER
当_下
·
2023-08-11 05:16
数据分析课程笔记 - 19 -
HiveSQL
常用优化技巧
大家好呀,这节课学习
HiveSQL
的常用优化技巧。由于Hive主要用来处理非常大的数据,运行过程由于通常要经过MapReduce的过程,因此不像MySQL一样很快出结果。
爱学习的ai酱
·
2023-08-10 09:57
HiveSQL
之datediff、date_add、date_sub详解及注意坑点
文章目录datediff介绍:示例1:正常情况示例2:负值情况注意:使用场景示例总结date_add介绍:date_sub介绍:注意:datediff介绍:datediff语法:datediff(stringenddate,stringstartdate)返回值:int说明:返回结束日期减去开始日期的天数注意:可能出现结束日期小于开始日期的场景,即返回值可能是负值示例1:正常情况selectdat
富有一文
·
2023-08-09 07:04
BigData
大数据
HiveSQL
【Hive】学习与优化2(含常用面试)
目录hive的查询注意事项以及优化总结
hivesql
分组拼接同一列的字符串/分组多行拼接为一行hive分组取随机数Hive随机取某几行数据HiveNtile分析函数学习,用来取前30%带有百分之多少比例的记录
sdbhewfoqi
·
2023-08-09 05:26
Hive
&
Sql
&
Spark
hive sql计算分位数
在观察数据的大致分布时,分位数是个常用的统计值,下面介绍在
hivesql
中计算分位数的语法
hivesql
中计算分位数的函数:PERCENTILE_APPROX(适用于大数据量)使用格式:--以数组形式返回多个百分位近似计算结果
Sophia要一直努力
·
2023-08-09 05:26
数据分析
sql
Hive SQL优化
HiveSQL
优化案例一:1.1将要执行的查询(执行了1个多小时才出结果):SELECTdtasDATA_DATE,STRATEGY,AB_GROUP,SOURCE,count(distinctcasewhenlower
程默子弹
·
2023-08-09 05:55
hive
sql
HiveSQL
分位数函数percentile()使用详解+实例代码
前言作为数据分析师每个SQL数据库的函数以及使用技能操作都得点满,尤其是关于统计函数的使用方法。关于统计出数据的中位数,众数和分位数的方法必须掌握几种,一般在实际业务上大部分都是以写SQL查询为主,因为如果想用Python的Pandas去做数据分析还得将数据导出来读出来,输出了结果还得再倒进去,十分的麻烦。若是能在SQL上面直接处理简单问题,那么效率要远高于导出做Pandas处理。本篇文章主要介绍
小二上酒8
·
2023-08-09 05:54
pandas
python
数据分析
开发语言
java
docker 安装hive
docker-compose配置docker国内镜像源(可选)安装git&配置github部署Hivedocker-hive开始部署使用Hive命令行收尾工作安装vi、lrzsz关闭相关命令END参考链接写在前面想练练
HiveSQL
LuckyTHP
·
2023-08-08 20:48
docker
hive
容器
kettle之Switch/Case 插件
Switch/Case插件存在于转换中,用于进行分支选择插件运行下一步的表输入中执行
hivesql
需选上下面红色方框的,否则Switch/Case分支不生效!
小亚文
·
2023-08-08 18:42
kettle-教程
hive编程指南
大数据
Hive中带条件查询时报Class org.apache.hive.hcatalog.data.JsonSerDe not found的错误及解决办法
先放一些测试的JSON文件到HDFS的/tmp/test_json目录下,然后打开HUE界面,进行
HiveSQL
执行窗口,先创建一个基于JSON文件的外部表:CREATETABLEjson_table(
zxfBdd
·
2023-08-06 11:06
Hadoop
CDH
hive
HIVE学习
大白话:HIVE就是一个类似于Navicat的可视化客户端,2.HIVE本质Hive是一个Hadoop客户端,用于将HQL(
HiveSQL
)转化成MapReduce程序。
叫我莫言鸭
·
2023-08-06 07:40
大数据
hive
hive
学习
hadoop
Hive-Transform-Python:快捷的Map/Reduce
简介首先简要介绍一下
hivesql
语句的编写逻辑以及python脚本的编写方法。
zhaif
·
2023-08-05 10:20
《大数据开发》Hive
Hive是基于Hadoop的一个数据仓库工具;提供Sql(
hiveSql
)查询功能;数据是存储在hdfs上,hive本身不存储数据,构建表的逻辑存在指定数据库(mysql)。
Steve_Abelieve
·
2023-08-01 12:40
大数据
hadoop
hive
hive sql面试题及答案
hivesql
面试题及答案本文所有展示了输出结果的sql都是我自己编写的,很可能不是最优解请谨慎参考。
顺风飘千里
·
2023-07-29 17:10
一百三十六、Azkaban——Azkaban3.84.4单机版安装
一、目的为了调度
HiveSQL
任务,安装azkaban任务调度器二、jar包准备azkaban-db-3.84.4.tar.gzazkaban-exec-server-3.84.4.tar.gzazkaban-web-server
天地风雷水火山泽
·
2023-07-29 05:20
大数据调度工具
azkaban
153-184-spark-核心编程-sparksql
兼容hive:可直接运行sql或者
hivesql
。标准jdbc连接,统一的数据访问DataFrame和DataSet的区别DataFrame是什么:DataFrame是以RDD为基础的分
镇魂Boby
·
2023-07-29 04:48
java
大数据
spark
spark
大数据
分布式
Python计算日期差
在
hivesql
建表的时候比较容易用到需要计算时间差,这个时候可以用python中的date进行计算。
塔芙尔
·
2023-07-27 13:14
HiveSQL
& SparkSQL中常用知识点记录
2.Hive中选出最新一个分区中新增和变化的数据3.Hive中使用sort_array函数解决collet_list列表排序混乱问题4.SQL中对小数位数很多的数值转换成文本的时候不使用科学计数法5.
HiveSQL
电光闪烁
·
2023-07-26 10:27
开发随笔
大数据
SparkSQL
HiveSQL
数据仓库发展历史
从平台化到智能(AI)化二、第一代(过时)第一代数据仓库演化:需求驱动的分层架构第一代数据仓库的核心思想是根据需求分析和业务模型构建分层架构,使用工具如Hive实现数据的汇聚和整合,如下图:一代数据仓库大多通过
HiveSQL
高世之智
·
2023-07-24 22:03
数据仓库
数据仓库
hive
数仓发展史
大数据
数据库
HiveSQL
和SparkSQL的区别和联系
一、SparkSQL和Hive对比二、
HiveSQL
和SparkSQL的对比sql生成mapreduce程序必要的过程:解析(Parser)、优化(Optimizer)、执行(Execution)三、spark
万里长江横渡
·
2023-07-22 14:52
大数据
hive
hadoop
大数据
hivesql
多行转多列
witht1as(select1asstudent,"math"asck,3assubunionallselect3asstudent,"math"asck,3assubunionallselect5asstudent,"math2"asck,4assub)selectstudent,max(ck_pv)asmath,max(ck2_pv)asmath2from(selectstudent,if(
杨玉庆
·
2023-07-22 14:19
hive
sql
hive
hive转置数据(多列转换为多行)
1.目标:将如下表格的多列数据idyesno00121890021165转换为下表的多行形式:idboolvalue001yes21001no89002yes11002no652.实现:
hiveSQL
:
Junzh821
·
2023-07-22 14:14
HIVE
HIVE
hive笔记(二)
hivesql
中lateralviewexplode/json_tuple的使用-CSDN博客https://blog.csdn.net/yuanyangsdo/article/details/61192275
hello琳123
·
2023-07-22 01:59
大数据
HiveSql
面试题
1.面试题汇总1.1连续登陆3天以上的用户(字节面试题)INSERTINTOt1(id,dt)VALUES(1,'2019-01-0100:00:00'),(1,'2019-01-0200:00:00'),(1,'2019-01-0300:00:00'),(3,'2019-03-0700:00:00'),(2,'2019-02-0100:00:00'),(2,'2019-02-0200:00:00
在路上的小y
·
2023-07-21 14:41
sql
数据库
【Hive】从执行计划DAG中执行慢的Task,找到对应SQL逻辑片段
**【Hive】从执行计划DAG中执行慢的Task,找到对应SQL逻辑片段**一个稍微复杂的
HiveSQL
,在执行过程中发现某个Task非常慢,怎么去定位这个Task是属于哪段SQL逻辑呢对于如下逻辑的一个
我是小小帅
·
2023-07-19 17:10
hive
spark
sql
hive
大数据
spark
Hive概述
-了解什么是Hive-了解为什么使用Hive####1.1什么是HiveHive由Facebook实现并开源,是基于Hadoop的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
Wzideng
·
2023-07-19 15:13
#
hive
hive
hadoop
数据仓库
Hive优化实践1-数据倾斜及join无关的优化
HiveSQL
的各种优化方法基本都和数据倾斜密切相关。
多彩海洋
·
2023-07-18 19:59
Hive SQL常用语法使用及示例
以下内容均基于
HiveSQL
语法。
曾哥数据分析
·
2023-07-18 08:49
Hive
SQL
常用命令
窗口函数
hive底层原理 sql执行过程_[Hive]
HiveSQL
解析原理
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的HiveETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入
weixin_39605835
·
2023-07-18 08:48
hive底层原理
sql执行过程
HiveSQL
脚本传参&使用
一、基础语法运行hive命令时,如果想动态传入参数,可以使用如下2种方式:参数格式说明--hivevar传参数,专门提供给用户自定义变量--hiveconf①传参数;②覆盖hive-site.xml中配置的hive全局变量二、测试验证测试目标根据动态传入的省份参数,去查询不同省份的人口数据库准备测试脚本test.hql:--数据库前的省份限定字符,根据外部参数传入use${传入的地域}db_pop
江畔独步
·
2023-07-18 08:44
Hive
hive
sql
big
data
在shell中使用
hiveSQL
的注意事项
运行
hiveSQL
的方式有以下几种。1.hive交互式命令行即在shell环境下直接使用hive命令,当屏幕下方出现hive>时,就进入了hive的环境,如下图所示。
超哥的杂货铺
·
2023-07-18 08:13
linux
shell
大数据
python
java
Hive Sql中六种面试题型总结
HiveSql
中六种面试题型总结一.常用函数二、N日留存1.思路分析三、连续登陆1.数据准备2.思路分析一3.思路分析二四、TopN1.数据准备2.思路分析五、行列互转1.行转列2.列转行3.经典面试题一六
lightupworld
·
2023-07-18 08:43
Hive
hive
sql
面试
HiveSQL
编程模板及注意事项
目录0引言1模板代码2代码分析及注意事项0引言hive是数据仓库、数据分析人员必用的工具之一。实际工作中,使用hive很多时候都是在将SQL代码封装在shell脚本之下运行,这是一种常见的方式,方便调度工具调度shell脚本。1模板代码#!/bin/bashlastday=`date--date'-1days'+%Y-%m-%d`#获得昨天的日期if["$2"!=""];thenlastday=$
莫叫石榴姐
·
2023-07-18 08:42
hive
sql
hive
shell
大数据
一百三十、海豚调度器——用DolphinScheduler定时调度
HiveSQL
任务
一、目标用海豚调度器对Hive数仓各层数据库的SQL任务进行定时调度。比如,DWD层脱敏清洗表的动态插入数据、DWS层指标表的动态插入数据二、工具版本1、海豚调度器:apache-dolphinscheduler-2.0.5-bin.tar.gz2、Hive:apache-hive-3.1.2-bin.tar.gz三、实施步骤(一)在海豚调度器的数据源中心模块创建Hive各数据库的数据源第一步,点
天地风雷水火山泽
·
2023-07-18 07:31
大数据开发工具
Hive
海豚调度器
hive
大数据
数据血缘 参考资料文章汇总
字节跳动内部的数据血缘用例与设计全链路数据血缘在满帮的实践饿了么元数据管理实践之路携程数据血缘构建及应用https://www.jianshu.com/p/6a14c846e331
HiveSQL
血缘关系解析与应用虽然没有公布完整代码
mizuhokaga
·
2023-07-16 21:25
数据血缘
自言自语
sqllineage解析sql列级血缘并提交到datahub
目录版本信息操作记录安装datahubv0.10.0datahub快速部署元数据摄取通过sqlline获取指定sql文件中
HiveSQL
的字段级血缘关系,并将结果提交到datahub版本信息python3.8.16datahubv0.10.0
LCriska
·
2023-07-16 14:00
python
大数据
hive
sql
数据库
关于sql查询的一些事
hiveSql
.sh脚本hive-e"insertintotabletest.sudianselectsplit(a.key,'_')[0]asdeviceid,(casewhenwatchtime10800000then300000elsewatchtimeend
会飞的蜗牛66666
·
2023-07-14 04:05
HiveSQL
迁移 FlinkSQL 在快手的实践
摘要:本文整理自快手数据架构工程师张芒,阿里云工程师刘大龙,在FlinkForwardAsia2022生产实践专场的分享。本篇内容主要分为四个部分:Flink流批一体引擎FlinkBatch生产实践核心优化解读未来规划点击查看原文视频&演讲PPT一、Flink流批一体引擎1.1Lambda架构首先,介绍一下我们选择Flink作为流批一体引擎的思考。如上图所示,是现在生产应用最广的Lambda架构,
·
2023-07-13 15:14
后端flink大数据实时计算
hiveSQL
中like,not like,rlike, regexp的区别和使用详解(点赞收藏使用!)
目录1-like的使用详解1.1-语法规则1.2-操作类型1.3-使用描述1.4-案例演示1.5-注意事项2-rlike比较符使用详解2.1-语法规则2.2-操作类型2.3-使用描述4-NOTALIKEB与AnotlikeB4-关于like与rlike,notlike,likenot的使用对比总结5-regexp的用法和rlike一样1-like的使用详解1.1-语法规则格式是AlikeB,其中A
KG大数据
·
2023-06-23 11:13
SQL强化进阶
hive
sql
数据仓库
大数据
面试
SQL进阶--2__如何使用
hiveSQL
统计字符串中字符的个数
目录0-需求1-分析2-总结0-需求统计在字符串"HELLOHELLO"中出现了多少个LL1-分析分析思路(1)用regexp_replace()函数将要计算的字符替换为’'selectregexp_replace("HELLOHELLO","LL",'')0:jdbc:hive2://10.9.4.117:10000>selectregexp_replace("HELLOHELLO","LL",
KG大数据
·
2023-06-23 11:42
SQL强化进阶
sql
hive
数据仓库
大数据就业路线
数仓:主要以SQL语言为主离线数仓(目前基本状态)和实时数仓(趋势)SQL语法包括mysql中的sql、hive中的
hivesql
(重点),spark中的sparksql,flink中的flinksql
烟雨孤舟
·
2023-06-23 06:25
大数据
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他