E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
HiveSql
Hive窗口函数进阶指南
值得注意的是本文中的例子使用的是HQL(
HiveSQL
),本文需要一定的SQL基础,如果想了解基础SQL,请移步本人的数据分析师之快速掌握SQL基础。两
gongyouliu01
·
2021-02-16 08:00
人工智能
大数据
数据分析
编程语言
python
hive sql 转 presto sql 的 常见问题:presto instr
都是sql,基本逻辑是一样的,常常出现问题是因为两边都函数不同导致
hivesql
没法在presto引擎下执行。在我的使用场景中,一些常见的需要替换的函数,现记录下。
Neon_Light
·
2021-02-05 13:00
sql
hive
presto
分布式离线计算—
HiveSQL
原文作者:极客教程原文地址:Hive简介目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作总结Hive简介,Hive是Hadoop大数据仓库Hive。在数据仓库中,SQL是最常用的分析工具,既然一条SQL可以通过MapReduce程序实现,那么有没有工具能够自动将SQL生成MapReduce代码呢,答案就是Hive。MapReduce的出现大大简化了大数据编程的难度,
测试狗一枚
·
2021-01-26 09:01
大数据
Hive SQL的数仓迁移成Spark SQL,之前的UDF函数怎么办?
前言离线数仓之前的主力工具是hive,有一些处理需要写udf实现,当
hivesql
迁移成sparksql时。之前的udf函数该怎么办呢,本文为自测并总结。
俩只猴
·
2021-01-24 14:38
数据仓库
hive
大数据
数据仓库
spark
hivesql
执行顺序与常用函数、表连接、coalesce函数
hivesql
执行顺序与常用函数:xmind获取链接:https://pan.baidu.com/s/1IppOx-eu17i3mIvYaqZnsA提取码:iasu表连接相关笔记:coalesce函数:
小白冲啊
·
2021-01-22 17:04
笔记
hive
sql
Hive源码本地IDEA调试的正确姿势
Hive源码本地IDEA调试的正确姿势背景环境准备初始化配置修改配置初始化元数据库编译代码启动HiveMetaStore启动
Hivesql
客户端ClientDriver模式HiveServer2模式启动
喜剧之皇
·
2021-01-11 11:58
源码分析
大数据
hive
源码
大数据
(一)Hive概述与安装
它是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张表,并提供类SQL查询功能,我们一般叫HQL(
HiveSql
),底层是存储在HDFS上。
leafgood
·
2021-01-09 22:35
hive
(一)Hive概述与安装
它是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张表,并提供类SQL查询功能,我们一般叫HQL(
HiveSql
),底层是存储在HDFS上。
leafgood
·
2021-01-09 17:01
hive
HiveSql
面试题12--如何分析去掉最大最小值的平均薪水(字节跳动)
目录0问题描述1数据准备2数据分析3小结0问题描述薪水表中是员工薪水的基本信息,包括雇员编号,部门编号和薪水第1行表示雇员编号为10001的员工在1号部门,薪水为60117元;第2行表示雇员编号为10002的员工在2号部门,薪水为92102元;...第10行表示雇员编号为10010的员工在1号部门,薪水为76884元问题:查询每个部门除去最高、最低薪水后的平均薪水,并保留整数。1数据准备(1)数据
果子学长@小眼睛
·
2021-01-09 17:27
hive
sql
HiveSql面试题
hive
大数据
轻松搞定 Shell 玩转
HiveSQL
运行
hiveSQL
的方式有以下几种。1.hive交互式命令行即在shell环境下直接使用hive命令,当屏幕下方出现hive>时,就进入了hive的环境,如下图所示。
☞空白页
·
2021-01-04 09:14
Hive
hive
hive定义了简单的类SQL查询语言,称为
HiveSQL
。hive在执行过程中会将HQL转换为MapReduce执
## name
·
2021-01-02 16:37
大数据
hive
hive中groupby优化_
HiveSQL
常用优化方法全面总结
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我们的日历记录表
周天无极
·
2020-12-31 05:16
hive中groupby优化
hive中groupby优化_Hive的10种常用优化总结,再也不怕MapReduce分配不均了
对Hive的调优既包含对
HiveSQL
语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
h肚肚
·
2020-12-28 11:33
hive中groupby优化
hive中groupby优化_
HiveSQL
常用优化方法
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我们的日历记录表
工业狂魔
·
2020-12-28 01:59
hive中groupby优化
python执行
hivesql
_python 调用shell hive sql
defgenerate_csv_source(data_file):#判断文件是否存在ifnotos.path.exists(data_file):#拉取hive表数据cmd_sql='hive-e"sethive.cli.print.header=true;\select*fromdw.full_d_usr_channel_sum_v3whereds%s'%(data_file)printcmd
何为自律
·
2020-12-24 03:14
python执行hivesql
existed hive ods_Hive数据仓库实战
文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、
HiveSQL
操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库
weixin_39712724
·
2020-12-21 04:19
existed
hive
ods
大数据实战记录
目录环境安装搭建编写同步集群脚本以及查看集群进程脚本MySQLHadoopHadoopUIHDFS存储MapReduce计算Yarn资源管理HBaseHBase基本操作HBase运维和优化ZooKeeperHiveHive基本操作
HiveSQL
Beth_Chan
·
2020-12-14 16:54
大数据
Hive引擎Spark优化配置参数
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。本文主要描述在底层引擎为Spark时,经常会用到的、常见的配置参数。
云掣科技
·
2020-12-10 21:38
大数据
hive
spark
HIVE SQL函数实例讲解
HIVESQL
函数实例讲解一、SQL函数汇总1.数学函数2.日期函数3.字符函数4.聚合函数5.取数常用函数二、表操作相关1.建表2.表删除3.表结构查询4.视图与物化视图5.索引三、注意事项四、练习
互联网搬砖侠
·
2020-12-10 18:47
数据分析必备技能
数据产品经理知识库
大数据知识库
hive
sql
数据分析
数据仓库
hadoop
Hive数据仓库实战
文章目录前言一、Hive原理和功能介绍二、Hive安装部署三、
HiveSQL
操作UDF函数Hive数据仓库模型设计总结前言Hive作为大数据平台Hadoop之上的主流应用,公司一般都是用它作为公司的数据仓库
陈敬雷-充电了么-CEO兼CTO
·
2020-12-05 16:36
数据仓库
机器学习
大数据
分布式
深度学习
基于Hadoop的数据仓库工具Hive(附超实用示例)
Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
yuyuyu
·
2020-11-30 16:01
hadoop
数据仓库
基于Hadoop的数据仓库工具Hive(附超实用示例)
Hadoop分布式文件系统中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务运行,通过自己的SQL查询分析需要的内容,这套SQL简称
HiveSQL
yuyuyu
·
2020-11-30 16:49
hadoop
数据仓库
技本功|Hive优化之监控(三)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣科技
·
2020-11-24 21:28
运维
mysql
大数据
优化
云服务
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣科技
·
2020-11-24 21:24
大数据
hive
spark
HiveSQL
电商分析案例30题
问题导读:1、如何通过UDF自定义MD5加密函数,对地址、邮箱等信息进行加密?2、如何对表内容进行检查?3、如何进行数据分析?一、前言Hive学习过程中的一个练习项目,如果不妥的地方或者更好的建议,欢迎指出!我们主要进行一下一些练习:数据结构数据清洗基于Hive的数据分析二、项目需求首先和大家讲一下这个项目的需求:「对某零售企业最近1年门店收集的数据进行数据分析」潜在客户画像用户消费统计门店的资源
☞空白页
·
2020-11-03 16:12
Hive
Presto在滴滴的探索与实践
桔妹导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和
HiveSQL
加速的首选引擎。
滴滴技术
·
2020-10-09 20:22
开源
大数据
编程语言
hadoop
数据库
人工智能
Hive SQL使用过程中的奇怪现象
HiveSQL
是一种类SQL语言,与关系型数据库所支持的SQL语法存在微小的差异。本文对比MySQL和Hive所支持的SQL语法,发现相同的SQL语句在Hive和MySQL中输出结果的会有所不同
大数据技术与数仓
·
2020-10-09 12:59
hive
技本功|Hive优化之Spark执行引擎参数调优(二)
影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和
HiveSQL
的执行等因素。
云掣科技
·
2020-10-09 12:10
大数据
hive
spark
Hive 知识整理--二
目录1.Hive执行流程2.Hive工作原理3.HIve执行顺序4.Hive和传统数据库的比较5.
hivesql
的mapjoin6.HiveHDFSHBase区别7.维度和度量8.
hivesql
优化问题
wuli玉shell
·
2020-09-28 20:32
Hive
hive
HiveSql
--类型转换:castSELECTCAST('00321'ASBIGINT)FROMtable;--判断奇数or偶数--获取偶数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=0;--获取奇数的方法select*frompos_info_report_tmp_20110712rwheremod(r.id,2)=1;--简单ca
Rainysong
·
2020-09-28 14:23
Hive使用Calcite CBO优化流程及SQL优化实战
目录
HiveSQL
执行流程Hivedebug简单介绍
HiveSQL
执行流程Hive使用Calcite优化HiveCalcite优化流程HiveCalcite使用细则Hive向Calcite提供元数据上一篇主要对
zzzzMing
·
2020-09-22 19:00
hive mapjoin使用
今天遇到一个Hive的问题,如下
hivesql
:selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录
lvhuiyin
·
2020-09-17 12:41
hive
Spark读取文本文档创建DataFrame, 通过RDD转换成DataFrame, 通过SparkSession构建DataFrame 20
前言在Spark2.0版本之前,SparkSQL中SQLContext是创建DataFrame和执行SQL的入口,可以利用hiveContext通过
hivesql
语句操作hive表数据,兼容hive操作
啊策策
·
2020-09-17 07:23
Spark社区
Java实现
HiveSQL
Parser
importcom.xxxx.model.SQLParserResult;importorg.apache.commons.logging.Log;importorg.apache.commons.logging.LogFactory;importorg.apache.hadoop.hive.ql.parse.*;importjava.util.*;/***@authoryangxin-ryan*
杨鑫newlfe
·
2020-09-17 05:44
Java
大数据挖掘与大数据应用案例
hive sql语法解读
hivesql
学习笔记(1)一、创建表在官方的wiki里,example是这样的:CREATE[EXTERNAL]TABLE[IFNOTEXISTS]table_name
wenjiangliuto
·
2020-09-17 00:17
HiveSql
的时间函数
获取当前时间:1).current_timestamp------------------2019-08-1000:12:26.6062).unix_timestamp()-------------------15653672023).from_unixtime(unix_timestamp())------------2019-08-1000:14:104).CURRENT_DATE------
武汉的鱼
·
2020-09-16 12:31
Hive
Linux_BigData常用配置/命令
文章目录Linux双网卡配置HadoopZookeeperHBase单机HiveHive表操作
HiveSQL
操作Hive函数FlumeKafkaKafkaStreamingSparkFlinkLinux
HuiGe94v587
·
2020-09-16 12:23
BigData
Linux
storm架构原理及集群部署
离线计算和实时计算离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、zookeeper任务调度1、
hivesql
2
@ange
·
2020-09-16 11:13
大数据
storm
SemanticException Column xx Found in more than One Tables/Subqueries
hivesql
hivesql
中出现报错:SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries(1)首先检查自己给某一个表起的别名是不是这个表中或者联合的表中字段的名
冲鸭,屎壳郎
·
2020-09-16 10:42
大数据
hivesql
解析json数组并拆分成多行
原始数据:[{"name":"woods","app_id":"abc123"},{"name":"tiger","app_id":"def456"}]数据存在表dev.woods_test中需求与方法:解析json,一行拆分成两行selecta_jsonfrom(selectsplit(regexp_replace(regexp_extract(json_col,'(\\[)(.*?)(\\])
Time Woods
·
2020-09-16 06:19
大数据
json
hive
大数据
java使用jdbc调用hive出现The query did not generate a result set!
使用java通过jdbc调用hive,执行
hivesql
时出现如下异常:Exceptioninthread"main"java.lang.reflect.InvocationTargetExceptionatsun.reflect.NativeMethodAccessorImpl.invoke0
天佑凡人
·
2020-09-15 23:41
Hive
Java
Parquet性能测试调优及其优化建议
parquet1、选择parquet的外部因素(1)我们已经在使用spark集群,spark原本就支持parquet,并推荐其存储格式(默认存储为parquet);(2)hive支持parquet格式存储,使用
HiveSql
weixin_33963594
·
2020-09-15 15:45
Hive数仓筛选出2秒内可能重复下单的订单id列表
面对海量订单人工进行全部排查十分困难且是不现实的,所以在此背景下,基于全量数据,写了一个
HiveSQL
来筛选出可能重复订单数据。
csdn-延
·
2020-09-15 14:32
hive
大数据
sql
大数据
hive
订单
防重
hadoop
hive sql 优化
优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
仲景武
·
2020-09-15 12:01
hive
Spark SQL之 UDF自定义函数实战
目录一:UDF含义二:使用scala/java创建的方法直接使用在
HiveSQL
中三:代码一:UDF含义UDF:(UserDefinedFunction)用户自定义函数二:使用scala/java创建的方法直接使用在
威少SOS
·
2020-09-15 03:13
#
Spark
SQL
Spark SQL概述
Hive,它是将
HiveSQL
转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。
ITBOY_ITBOX
·
2020-09-15 02:11
Spark
spark sql 1.6.0 自定义永久函数
sparksql1.5.0也支持Spark(Hive)SQL中UDF的使用相对于使用MapReduce或者SparkApplication的方式进行数据分析,使用
HiveSQL
或SparkSQL能为我们省去不少的代码工作量
wuzhilon88
·
2020-09-15 02:49
hadoop学习
spark
hive
Hive mapjoin使用(数据倾斜优化)
今天遇到一个Hive的问题,如下
hivesql
:selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录
TechChan
·
2020-09-15 00:08
Hadoop
13_Hive优化
Hive优化要点:优化时,把
hivesql
当做mapreduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。
weixin_34393428
·
2020-09-14 23:40
hive实例讲解实现in和not in子句
in查询如果要查询当天登陆的注册用户,需要用in查询,
hivesql
如下:selectlogin.uidfromloginleftouterjoin
yaoyaoxingkong
·
2020-09-14 21:07
Hive
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他