E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hivesql
SQL进阶--4__如何使用
hiveSQL
分离字符串中的字符和数字
如何使用HQL分离字符串中的字符和数字0-需求1-数据分析2-总结0-需求如果数据中存在字符和数字混在一起的情况且放在一列中,此时需要将其中的数字数据和字符数据分开,分别单独成为一列,应该怎么做?如下数据:FLINK434354HADOOP67889HBASE500019KAFKA15999SQOOP13332HELLO57000SPARK13000需要将中文名称和数字单独提取出来,得到如下结果F
KG大数据
·
2023-04-03 05:35
SQL强化进阶
sql
hive
hadoop
数据仓库
大数据
【Hive进阶】-- Hive SQL、Spark SQL和 Hive on Spark SQL
1.
HiveSQL
1.1基本介绍概念Hive由Facebook开发,用于解决海量结构化日志的数据统计,于2008年贡献给Apache基金会。
high2011
·
2023-04-03 05:58
Spark
Hive(理论+实战)
架构设计
大数据
数据仓库
hive
spark
InfluxDB的查询优化
首先,在学习influxDB的查询优化之前,我们要先学习下InfluxDB的解释器profiler(类似于mysql的Explain语句,不一样的是,sql,
hivesql
是提前查看执行计划等,Influx
程序员的三板斧
·
2023-04-02 23:02
InfluxDB
数据库
python
大数据
sql
hive的常规操作
Hive,是一个数仓管理工具,可以将数仓存在HDFS上的文件变成表,同时提供
HiveSQL
进行表
zeroLinked
·
2023-04-01 05:00
博学谷学习记录
hive
hadoop
大数据
hivesql
的几种优化的方法
目前项目中由于数据量巨大,导致一个sql要跑一个多小时,所以找了些可以优化的点,记录下来,以后方便使用。1.map的优化,job在maptask的过程时间较长setmapreduce.map.memory.mb=8240;setmapreduce.reduce.memory.mb=8240;sethive.merge.mapfiles=false;setmapreduce.input.filein
桔梗的犬夜叉
·
2023-04-01 02:42
Hive
hive
HiveSQL
与 SQL 的区别
Hive采用了类SQL的查询语言HQL(hivequerylanguage)。除了HQL之外,无任何相似的地方。Hive是为了数据仓库设计的。1、存储位置:Hive在Hadoop上;Mysql将数据存储在设备或本地系统中;2、数据更新:Hive不支持数据的改写和添加,是在加载的时候就已经确定好了;数据库可以CRUD;3、索引:Hive无索引,每次扫描所有数据,底层是MR,并行计算,适用于大数据量;
堂堂正正的大号
·
2023-03-31 18:59
Hive与传统数据库的比较
Hive通过把
HiveSQL
进行解析和转换,最终生成一系列在hadoop上运行的mapreduce任务,通过执行这些任务完成数据分析与处理。
糖潮丽子
·
2023-03-31 01:58
大数据
hive
hadoop
数据仓库
hive架构和原理以及与传统数据库的区别
HiveSQL
简称HQL。hive的执行引擎可以是MR、Spark、tez。如果执行引擎是MapReduce的话,hive会将Hql翻译成MR进行数据的计算。用户可以使用命
ChlinRei
·
2023-03-31 01:10
Hive
hive
架构
大数据
数据仓库
HIVE—数据仓库
也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序;3.hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来调度;4.可以将结构化的数据映射为一张数据库表,并提供HQL(
HiveSQL
Hekliu
·
2023-03-30 16:26
大数据
hive
HiveSQL
解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
HiveSQL
解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作一、MapReduce实现基本SQL操作的原理1、join的实现原理MapJoin的实现原理CommonJoinResolver
嗷嗷的特Man
·
2023-03-29 06:46
mapreduce
sql
hive
从一个锁表问题了解hive锁机制
同事遇到一个问题,无论从平台哪里提交
HiveSQL
,都没有进度,没有日志。
gregocean
·
2023-03-24 16:38
30分钟掌握 Hive SQL 优化(解决数据倾斜)
HiveSQL
几乎是每一位互联网分析师的必备技能,相信每一位面试过大厂的童鞋都有被面试官问到Hive优化问题的经历。
未来在这儿
·
2023-03-23 13:42
Hive
SQL
hive
hadoop
大数据
Spark SQL 概念
(1)分支SQLContext仅支持SQL语法解析起HiveContext支持SQL和
HiveSQL
语法解析器默认为
HiveSQL
语法解析器执行顺序:词法/语法解析>绑定>优化>执行(2)组成Core负责处理数据的输入输出
Finok
·
2023-03-23 02:53
hivesql
解析json格式的key与value
目录解析json格式中的key解析json格式中的valuejson格式示例:{“city_code”:“340100”,“county_code”:“340111”,“orientation”:“东”,“road_id”:35204271,“speed”:35.72}解析json格式中的key我们可以看到这个数据还是很规整的,首先先将这个json数据中的花括号:“{}”给去除,并将逗号:“,”也
啊帅和和。
·
2023-03-22 11:47
Hive专栏。
SQL专栏。
json
sql
hive sql去重--sql取最近一条记录
hivesql
在使用中会经常碰到去除重复数据的操作,一般来说一个关键字distinct就可以解决,但是distinct的使用场景限制比较多,它是对所选取的所有字段进行比对,只要有一个字段的值不相同就为非重复记录
西二旗老司机
·
2023-03-20 02:10
Presto在滴滴的探索与实践
桔妹导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和
HiveSQL
加速的首选引擎。
滴滴技术
·
2023-03-18 06:02
Hive调优
本文种记录的大多是开源版本hive调优方式我也会补充TDH集群Inceptor的优化方式面试必备技能-
HiveSQL
优化
HiveSQL
基本上适用大数据领域离线数据处理的大部分场景.
HiveSQL
的优化也是我们必须掌握的技能
OverLight
·
2023-03-12 19:40
数据仓库面试题整理(一)
面试题整理一、数据仓库基础1.范式建模和维度建模2.主题域划分3.数据仓库分层优点4.事实表分类5.缓慢变化维6.数据输出SLA保障7.大表JOIN大表优化二、Hive基础1.
HIVESQL
优化2.HiveJoin
无语梦醒
·
2023-03-10 07:55
数据仓库
Hive学习
Hive_HQL_复杂SQL_连续发单天数
原文地址:1.
HiveSQL
复杂场景实现(1)——连续发单天数https://blog.csdn.net/Adrian_Wang/article/details/89791948至今在数据分析岗摸爬滚打已有一年
高达一号
·
2023-02-26 07:18
Hive
Hive Sql 求每个用户连续登陆的最大天数
@[TOC]
HiveSql
求每个用户连续登陆的最大天数uid,dt1,2019-08-011,2019-08-021,2019-08-031,2019-08-041,2019-08-061,2019-08
hello_jxt
·
2023-02-26 06:42
hive
hiveSql
实现计算用户的最大连续登录天数 & 创建断连后的连续序号
hiveSql
实现计算用户的最大连续登录天数&创建断连后的连续序号1.需求一:1.1.已有数据1.2.期望结果1.3.分析1.4.实现2.需求二2.1.已有数据2.2.期望结果2.3.分析2.4.实现方式一
@nanami
·
2023-02-26 06:11
hive
sql
hive
数据库
HiveSQL
面试题18--腾讯面试用户连续签到天数及历史最大连续签到天数问题
目录0题目1数据准备3数据分析4小结0题目有一张用户签到表【t_user_attendence】,标记每天用户是否签到(说明:该表包含所有用户所有工作日的出勤记录),包含三个字段:日期【fdate】用户id【fuser_id】用户当天是否签到【fis_sign_in:0否1是】问题1:请计算截至当前每个用户已经连续签到的天数(输出表仅包含当天签到的所有用户,计算其连续签到天数)输出表【t_user
莫叫石榴姐
·
2023-02-26 06:40
sql
SQLBOY1000题
HiveSql面试题
面试
算法
sql
Spark相关的依赖冲突,后期持续更新总结
Spark相关的依赖冲突持续更新总结Spark-Hive_2.11依赖报错这个依赖是Spark开启支持
hiveSQL
解析,其中2.11是Spark对应的Scala版本,如Spark2.4.7,对应的Scala
岁月的眸
·
2023-02-18 20:31
#
Spark总结
spark
大数据
scala
hive sql 基本语法@2019-02-12
分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL去查询分析需要的内容,这套SQL简称
HiveSQL
dataHunter
·
2023-02-18 17:31
Hive优化篇-Hive数据存储格式
选择一个合适的底层数据存储文件格式,即使在不改变当前
HiveSQL
的情况下,性能也能得到数量级的提升。
顶尖高手养成计划
·
2023-02-18 07:47
Hive
hive
大数据
hadoop
关于Hive的一些总结
二.
HiveSQL
内部表和外部表:删除一个内部表时,Hive同时会删除这个表中的数据。删除外部表时,只会删除外部表的元数据。有些
HiveSQL
语法不适用于外部表。分区:对数据进行分区,可以使得查询更快
阿猫阿狗Hakuna
·
2023-02-17 18:59
Hive 在工作中的调优总结
总结了一下在以往工作中,对于
HiveSQL
调优的一些实际应用,是日常积累的一些优化技巧,如有出入,欢迎在评论区留言探讨~一、EXPLAIN查看执行计划二、建表优化2.1分区分区表基本操作,partitioned
·
2023-02-16 20:53
HiveSQL
工作实战总结
记录一些工作中有意思的统计指标,做过一些简化方便大家阅读,记录如有错误,欢迎在评论区提问讨论~问题类型连续问题两种思路第一种:日期减去一列数字得出日期相同,主要是通过row_number窗口函数第二种:后一个日期减去前一个日期差值相等,用的较少,可以用lag/lead窗口函数解决分组问题主要使用lag(col,1,0)分组将每行移到下一行,再按既定规则分组排序即可后面抽空试一下间隔连续问题,比如每
·
2023-02-16 20:48
sqlhive
HiveSql
调优经验/2021-02-15
join长尾背景sql在join执行阶段会将joinkey相同的数据分发到同一个执行instance上处理。如果某个key上的数据量比较多,会导致该instance执行时间比其它instance执行时间长。其表现为:执行日志中该jointask的大部分instance都已执行完成,但少数几个instance一直处于执行中,这种现象称之为长尾。长尾类别&优化方法小表长尾join倾斜时,如果某路输入比
zhaoyqiu
·
2023-02-07 13:59
数据分析课程笔记 - 17 - HIVE 核心技能之常用函数
这节课的主要内容有:1、Hive云平台使用步骤2、基础语法(1)SELECT…A…FROM…B…WHERE…C…(2)GROUPBY(3)ORDERBY(4)
HiveSQL
解析顺序3、常用函数(1)如何把时间戳转化为日期时间
爱学习的ai酱
·
2023-02-05 02:42
hive窗口函数总结
一:前言根据官网的介绍,hive推出的窗口函数功能是对
hivesql
的功能增强,确实目前用于离线数据分析逻辑日趋复杂,很多场景都需要用到。以下就是对hive窗口函数的一个总结附上案例。
愤怒的谜团
·
2023-02-03 00:14
sql或
hivesql
入门碰到的错误总结
split分割特殊字符需要转义字段a满足条件统计字段b表格连接leftjoin并不会维持左表完全不变Leftjoin并不会保留左表完全不变,一对多的会重复保留下来。On后面的条件会先筛选再连接,后再跟where,会对连接的结果再进行筛选count统计错误的问题筛选条件中需要加入orNULL,因为count是不统计为NULL的而不是不统计为FALSE的。Presto这样写是对的,hive这样写是错的
吵吵人
·
2023-02-02 15:56
分享一个 HIVE SQL 性能优化点-使用公共表表达式 CTE 替换临时表
分享一个
HIVESQL
性能优化点-使用公共表表达式CTE替换临时表hive作业的性能优化是一个永恒的话题,其优化方法也有很多,在此分享一个优化点,即编写SQL时使用公共表表达式CTE替换临时表,经测试优化效果还不错
·
2023-02-01 12:17
hivehadoop
每天一道大厂SQL题【Day01】
先来10道
HiveSQL
题:第1
Maynor996
·
2023-01-31 19:11
#
Hive
#
Spark
大厂SQL
sql
数据库
java
Spark使用总结-Scala
ScalaSpark使用特殊引用使用比如
hivesql
或者rdd转换toDF是通过隐式转换,需要增加相关的包引用1
hivesql
:importspark.sql2隐式函数:importspark.implicits
slowrabbit
·
2023-01-26 00:28
大数据工具——Hive(基础)
这套
HiveSQL
简称HQL。Hive的执行引擎可以是MR、Spark、Tez。本质Hive的本质是将HQL转换成MapReduce任务,完成整个数据的分析查询,减少编写MapReduce的复杂度。
NoMissU
·
2023-01-17 15:31
大数据
hadoop
hive
数据库
mysql
HiveSQL
原理和优化详解
HiveSQL
编译成MapReduce过程编译SQL的任务是在上节中介绍的COMPILER(编译器组件)中完成的。
000X000
·
2023-01-13 15:19
数据仓库
大数据
HIVE
HiveSQL原理和优化详解
Hive
HiveSQL
hiveSQL
基本语句二------常用函数(时间戳、时间间隔、if、case)
查看所有函数showfunctions;查看某一函数descfunctionextendedfrom_unixtime;一、时间戳转化为指定格式的函数from_unixtime格式:from_unixtime(bigintunixtime,stringformat)formatyyyy-MM-ddhh:mm:ssyyyy-MM-ddhh12小时制yyyy-MM-ddHH24小时制yyyy-MM-d
cc抱富
·
2023-01-13 15:43
hive
代码
hive
HiveSql
面试题50:京东面试题之有效值问题
目录0需求1数据准备2数据分析3小结0需求需求描述:有一张入库成本表,一个商品每次入库就会产生一条数据,里面包含商品id,入库时间,以及入库采购的成本.但由于某些某些原因,导致表中某些数据的成本是有丢失的.现在的逻辑是,当成本丢失时,有两种取成本的方式,现在需要把两种成本都取出来,最后取2次成本的平均值作为本次入库的成本。取数逻辑如下:1.取同一个商品最近一次入库的有效成本(即存在成本时就为有效成
莫叫石榴姐
·
2023-01-13 15:11
SQLBOY1000题
sql
HiveSql面试题
sql
hive
数据仓库
SQL进阶--1__如何使用
hiveSQL
遍历字符串
如何使用
hiveSQL
遍历字符串0-需求1-数据分析2-总结0-需求遍历字符串,并以一个字符一行的形式显示出来如遍历"a,b,c,d,e,f"字符串,使其每个字符都生成一行记录1-数据分析在hive中为我们提供了强大的
KG大数据
·
2023-01-13 15:09
SQL强化进阶
sql
hive
数据仓库
大数据技术之SparkSQL介绍
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
尚硅谷铁粉
·
2023-01-12 10:46
大数据
hadoop
hive
大数据技术之SparkSQL(一)-spark sql 的介绍,特点,Data Frame,DataSet的介绍
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Sp
2401号行者
·
2023-01-12 10:44
spark
大数据
大数据技术之SparkSQL(一)概述
我们已经学习了Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
BAO7988
·
2023-01-12 10:04
大数据
大数据
spark
大数据技术之SparkSQL(超级详细)
它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以SparkSQL的应运而生,
星川皆无恙
·
2023-01-12 10:03
大数据
Hadoop
spark
大数据
hive
spark
hadoop
pandas打印某一列_一场Pandas与SQL的巅峰大战
作为一名数据分析师,平常用的最多的工具是SQL(包括MySQL和
HiveSQL
等)。
weixin_39540934
·
2023-01-11 10:33
pandas打印某一列
pandas选取符合条件的行
Centos Linux 单机安装 Hive 、使用 Hive
简介hive是基于Hadoop构建的一套数据仓库分析系统;hive通过SQL查询方式来分析存储在HDFS中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的类SQL查询功能,这套SQL名为
HiveSQL
寒水馨
·
2023-01-10 09:16
大数据组件安装(单机)
hive
linux
hadoop
数据仓库
大数据
Tensorflow之TFRecord的原理和使用心得
Hive作为构建在HDFS上的一个数据仓库,它本质上可以看作是一个翻译器,可以将
HiveSQL
语句翻译成MapReduce程序或Spark程序,因此模型需要的数据例如csv/libsvm文件都会保存成Hive
程序员对白
·
2023-01-10 08:47
程序人生
人生经验
面试
职场和发展
java
HiveSQL
HiveSQLHiveSql入门教程基础关键字用法前置教程hive库表知识hive库是表的一个集合,一个库拥有多个表,hive整个数据库拥有多个库。hive表代表一个对象,比如一个人设计为一个表就有身高体重等属性,在hive中实际存储表现为每张表会有一个存储地址,比如表名为people,实际存储会有hive中的分区概念/xx/xx/people,hive中引用了一个很重要的概念分区,分区实际上也是
章鱼哥TuNan&Z
·
2023-01-07 13:54
#
Hive
#
MySQL
Hive实际工作场景Sql题(业务自想)
HiveSql
练习题工作之余,结合业务所需构思的工作时常遇sql效果场景(实际业务场景可结合sql题自我构思)有更好的sql解题思路欢迎大家到评论区交流第一题题目数据原型:time,t1,t2,t32021
治愈爱吃肉
·
2023-01-07 13:53
大数据
sql
hive
数据库
HANA SDI - 抽数作业造成HIVE内存高
分析步骤首先,遇到该问题,如果有Hive/Hadoop专业人员的支持是更好的检查Hive中造成内存上升的作业名,并且从Hive中找到对应的
HiveSQL
通过对SQL设置相关的Hive参数,在Hive上测试是否可以减少内存
大好人ooo
·
2023-01-05 14:59
SAP
HANA
SDI
SAP
HANA
hive
hadoop
大数据
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他