hivesql 第14页

HiveSQL中常见的聚合函数，窗口函数有哪些？作用是什么？

1.聚合函数(把多行处理成一行)sum：求和count：计算总数max：最大值min：最小值avg：平均值。。。2.窗口函数over（）：指定分析函数工作的窗口的大小。currentrow：当前行npreceding:往前n行数据nfollowing:往后n行数据unbounded:起点unboundedprecening:从前面的起点开始unboundedfollowing:表示到后面的终点la

有风微冷·2020-07-11 18:12

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

作者介绍：胡梦宇，知乎数据架构平台开发工程师背景ApacheHive是基于ApacheHadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并且提供了HiveSQL进行查询和分析，在离线数仓中被广泛使用

PingCAP·2020-07-11 13:25

Impala安装文档完整版

除了像Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法（HiveSQL），ODBC驱动程序和用户界面（HueBeeswax）。

joerong888·2020-07-11 09:18

SparkSql中时间阈操作【窗口函数】

最长签到，累计消费等问题，其实映射到其他业务场景也就变成了类似的计算；如游戏领域，连续登陆时间，连续签到时长，最大连续签到天数等常见的业务场景；方法都是共通的，这里就用sparksql来实现一些方法，hivesql

哈士奇说喵·2020-07-10 22:08

Hive SQL 优化

要想做好hive优化，首先要理解MR过程，HiveSQL转换为MR的过程，以及Hive表的分区分桶机制。本质上的优化是，减少读，避免shuffle和增加并发度。

Mr_Hagrid·2020-07-10 20:51

hive SQL基础经典练习题(上）

hiveSQL基础经典练习题(上）hiveSQL入门容易，精通很难。基础的巩固相当重要，看起来简单易入门的SQL其实是千变万化的，能一次写正确SQL的工程师，亦然遵守二八法则。

Hero.Lin·2020-07-10 10:58

Hive sql和Presto sql的一些对比

最近由于工作上和生活上的一些事儿好久没来博客园了，但是写博客的习惯还是得坚持，新的一年需要更加努力，困知勉行，终身学习,每天都保持空杯心态.废话不说，写一些最近使用到的PrestoSQL和HiveSQL

weixin_30699235·2020-07-10 06:57

Hive之数据类型

Hive是基于Hadoop的一个数据仓库工具，一个数据仓库分析系统，在Hadoop中用来处理结构化数据，可以将结构化的数据映射为一张数据库表，并提供HQL（hiveSQL）查询功能，底层数据是存储在HDFS

摘星大师·2020-07-09 18:34

linux执行命令返回值问题

问题背景：在linux中执行python脚本，脚本中使用cmd调用hive-e来执行hivesql，脚本使用命令的exitcode退出。

「已注销」·2020-07-09 12:23

Hive/HiveSQL常用优化方法全面总结

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。

xinxindsj·2020-07-09 02:59

大数据干货丨Hive 与 ElasticSearch 的数据交互

本文将详细介绍利用ES与Hive直接的数据交互；通过Hive外部表的方式，可以快速将ES索引数据映射到Hive中，使用易于上手的HiveSQL实现对数据的进一步加工。

xinxindsj·2020-07-09 02:58

Spark SQL概述

Hive：将SQL语句转换成MapReduce程序执行，HiveSQL查询的MapReduce作业转化过程：输入将SQL转换成抽象语法树将抽象语法树转换成查询块将查询块转换成逻辑查询计划重写逻辑查询计划将逻辑查询计划转成物理计划选择最佳的优化查询策略输出

夕阳惜夏·2020-07-08 19:52

Hive-hiveSQL调优

2019独角兽企业重金招聘Python工程师标准>>>前言很早以前也是写过hivesql优化分享，但视角都偏狭隘。这篇希望能够从一个比较高层的视角来看待hive优化。

weixin_34114823·2020-07-08 16:22

Hive调优实战

Hive优化总结---by食人花优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。

szn·2020-07-08 07:39

mapjoin解析

今天遇到一个hive的问题，如下hivesql：selectf.a,f.bfromAtjoinBfon(f.a=t.aandf.ftime=20110802)该语句中B表有30亿行记录，A表只有100行记录

love others as self·2020-07-08 05:09

Hive SQL常用命令总结，大数据开发人员按需收藏

这种SQL就是HiveSQL，她可以将SQL语句转换为MapReduce任务运行，通过特殊的SQL去查询分析需要的内容，使不熟悉mapreduce的用户很方便的利用SQL语言查询，

技术大咖秀·2020-07-08 05:42

Run Hive on spark tasks with Hue, always running more than 30 min

环境CDH6.3.1Hive2.1.1（执行引擎Spark）HueSpark2.4.0问题Hue执行hivesql:理论上14.005s已经执行完了，结果已经正常返回，但是hue上的job持续了30m才结束

bertramlau·2020-07-07 13:30

Hive SQL 解析及应用

SQL已经成为各家"数据公司"必不可少的数据查询语言.Hive在其中的地位也更是显而易见,大多数批处理任务还是在使用HiveSQL开发.从Table级别看,一个HiveSQL文件,包含了如下信息:DROP

haitaoyao·2020-07-07 12:17

hive调优案例

Hive优化核心思想：把HiveSQL当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行select仅查询本表字段where仅对本表字段做条件过滤Explain显示执行计划EXPLAIN

浮生若梦1379·2020-07-06 19:19

HiveSQL DQL join与union

3.3join查询将多个表通过字段关联在一起，形成查询结果创建student_location表，存储学生的地理位置信息CREATETABLEstudent_location(idstringcomment'stdno',provincestringcomment'provincename',citystringcomment'cityname',regionstringcomment'regio

想艳阳天里的你·2020-07-06 04:20

hive sql 的总结分析

旨在对hivesql整体总结记录todo总结一、hive的不同种类的joinHive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，union支持LEFTSEMIJOIN和CROSSJOIN

lianchaozhao·2020-07-06 02:02

Spark SQL

SparkSQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。

weixin_34124939·2020-07-06 00:08

hiveSql

第十二单元常用函数、窗口函数（开窗函数）1、常用函数1.1字符串--字符串拼接函数concatselectconcat('abc','def');selectconcat_ws('-','abc','def');--求字符串长度lengthselectlength('jsdfijsdkfjkdsfjkdf');1.2日期--日期函数to_dateselectto_date('2019-09-111

故里良田·2020-07-05 21:27

hiveSQl学习

语法：https://blog.csdn.net/hguisu/article/details/7256833Hive入门及常用指令：https://blog.csdn.net/u014236541/article/details/78245924外部表与内部表区别：https://blog.csdn.net/qq_36743482/article/details/78393678创建分区表：ht

Kevinniec·2020-07-05 05:47

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-07-05 01:27

mapreduce 实现内连接，左连接，右连接，全连接，反连接

mapreduce可以实现sql所做的任何查询操作，通过写mapreduce可以了解hadoop里面的数据操作，提高hivesql的性能。

勿在浮沙筑高台LS·2020-07-04 11:09

大数据学习路线（完整详细版）

清洗：Spark、HiveSQL/SparkSQL、MapReduce（已经过时）存储：HDFS、Alluxio（分布式内存存储）、Redis（高速缓存）

✾ ͡冷೨夏ʚɞ͜✿·2020-07-04 01:19

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-07-02 16:00

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-07-02 16:00

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

collen7788·2020-07-02 15:54

Ubuntu16安装HIVE全程记录

什么是HiveHive由Facebook实现并开源，是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能，底层数据是存储在HDFS上。

chengshuo678·2020-07-02 05:41

HiveSQL基础之常用函数

1.如何把时间戳转换成日期语法from_unixtime(bigintunixtime,stringformat)format1.yyyy-MM-ddhh:mm:ss2.yyyy-MM-ddhh3.yyyy-MM-ddhh:mm4.yyyyMMdd举例SELECTfrom_unixtime(paytime,'yyyy-MM-ddhh:mm:ss')FROMuser_tradeWHEREdt='20

华夏_数据分析·2020-07-01 09:48

Hive/HiveSQL常用优化方法全面总结

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。

大数据技术与架构·2020-07-01 05:54

Spark基本架构及运行原理

SparkSQL:Spark处理结构化数据的库，就像HiveSQL,Mysql一样，企业中用来做报表统计。SparkStreaming:实时数据流处理组件，类似Storm。SparkStrea

zxc123e·2020-06-30 20:51

Hive的10种常用优化总结，再也不怕MapReduce分配不均了

对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。

Leo.yuan·2020-06-30 10:29

[Hive]Hive调优：让任务并行执行

业务背景extract_trfc_page_kpi的hivesql如下：setmapred.job.queue.name=pms;sethive.exec.reducers.max=8;setmapred.reduce.tasks

yeweiouyang·2020-06-30 07:53

Oozie作业调度 - Demo

可靠的工作流调度系统，它内部定义了三种作业：1.工作流作业：由一系列动作构成的有向无环图（DAGs）2.协调器作业：按时间频率周期性触发Oozie工作流的作业3.Bundle作业：管理协调器作业一、首先示例提交HiveSQL

迷失技术de小猪·2020-06-30 06:19

Hive调优实战

优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

xch_w·2020-06-29 23:33

hive部分：hive的优化，MapReduce的优化

hive核心思想：把HiveSQL当做Mapreduce程序去优化。以下SQL不会转为Mapreduce来执行：select仅查询本表字段；where仅对本表字段做条件过滤。

道法—自然·2020-06-29 22:26

HiveSql性能优化

一、解决数据倾斜1.过滤掉null部分key值存在大量空字段，会hash到同一reduce，造成reduce长尾，将null值过滤掉举例：selectuser_idfromlogswherestatdate='20170815'whereuser_idisnotnull;2.hivejoin倾斜：设置joinskew参数解决sethive.optimize.skewjoin=true;sethiv

攻城狮Kevin·2020-06-29 22:52

HiveSql中limit10的坑——对大数据量的表查询加group by

一般查询hive表中某个字段是否存在某个值，会使用如下查询语句select*from表名wheredt=XXXXand字段like'%某个值%'limit10；这种比较适合hive表数据量较小的情况，出现limit10，hive会默认判断此表数据量不大，只开启一个map进行查询，如果对于大表，比如好几百G上T的数据量，这么大的数据量只开一个map一方面查询慢，另一方面，因为数据量太大容易把机器跑崩

攻城狮Kevin·2020-06-29 22:52

dip-data-analyze 使用的hiveserver 实践之 jvm调优

其中5分钟任务有2个，小时任务有20个以上，晚上执行的任务有6个.任务并不多，都是使用hivesql连接到hiveserver去执行。本周曾经有2次hiveserver失效。

wf1982·2020-06-29 17:54

SparkSQL之一张贴告诉你什么是SparkSQL

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

王傲旗的大数据之路·2020-06-29 11:17

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的HiveETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入

ming_rw·2020-06-29 09:19

impalasql和hivesql的窗口函数和根据月份时间增量取数

窗口函数和根据月份时间增量取数今天跟大家分享一下窗口函数举个例子：假设当前环境为impala，droptableifexistsdw.stu;----dw库中的stu表-------------------createtabledw.stu(fperiodstringcomment’年月’,namestringcomment’姓名’,ageintcomment’年龄’,salarydoubleco

全能小孩·2020-06-29 08:31

hive sql 实现时间循环

实现效果：hivesql实现：–根据开始时间和结束时间生成时间段内所有时间selectregexp_replace(date_add(dt,row_number()over(orderbydt)-1),

西西南偏南·2020-06-29 08:26

flink SQL 外关联

flinkSQL的底层解析用的是apachecalcite,hiveSQL也用的calcite解析，因此flinkSQL的大致原理和我们常见的sql差不

呔小怪兽休走·2020-06-28 22:53

算法人必懂的Hive知识-四道Hive面试&笔试题解析

近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的HiveSQL问题，Hive作为算法工程师的一项必备技能，在面试中也是极有可能被问到的，所以有备无患，本文将对这四道题进行详细的解析，还是有一定难度的

悄悄的努力·2020-06-28 21:26

hive学习二

主要是想了解一下和hivesql是如何转换成mapreduce任务的，所以开搞。这个图主要描述了hive对于各种参数如-e、-f等参数的解析和对hivesql语句的完整性的处理等。

想什么就写什么·2020-06-28 21:47

HiveSQL优化

HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了（没有之一的那种），单独写MapReduce任务的应该不多了，主要还是用的HiveSQL

一直青蛙·2020-06-28 20:44

推荐频道

hivesql

HiveSQL中常见的聚合函数，窗口函数有哪些？作用是什么？

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

Impala安装文档完整版

SparkSql中时间阈操作【窗口函数】

Hive SQL 优化

hive SQL基础经典练习题(上）

Hive sql和Presto sql的一些对比

Hive之数据类型

linux执行命令返回值问题

Hive/HiveSQL常用优化方法全面总结

大数据干货丨Hive 与 ElasticSearch 的数据交互

Spark SQL概述

Hive-hiveSQL调优

Hive调优实战

mapjoin解析

Hive SQL常用命令总结，大数据开发人员按需收藏

Run Hive on spark tasks with Hue, always running more than 30 min

Hive SQL 解析及应用

hive调优案例

HiveSQL DQL join与union

hive sql 的总结分析

Spark SQL

hiveSql

hiveSQl学习

【赵强老师】什么是Spark SQL？

mapreduce 实现内连接，左连接，右连接，全连接，反连接

大数据学习路线（完整详细版）

【赵强老师】什么是Spark SQL？

【赵强老师】什么是Spark SQL？

【赵强老师】什么是Spark SQL？

Ubuntu16安装HIVE全程记录

HiveSQL基础之常用函数

Hive/HiveSQL常用优化方法全面总结

Spark基本架构及运行原理

Hive的10种常用优化总结，再也不怕MapReduce分配不均了

[Hive]Hive调优：让任务并行执行

Oozie作业调度 - Demo

Hive调优实战

hive部分：hive的优化，MapReduce的优化

HiveSql性能优化

HiveSql中limit10的坑——对大数据量的表查询加group by

dip-data-analyze 使用的hiveserver 实践之 jvm调优

SparkSQL之一张贴告诉你什么是SparkSQL

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

impalasql和hivesql的窗口函数和根据月份时间增量取数

hive sql 实现 时间循环

flink SQL 外关联

算法人必懂的Hive知识-四道Hive面试&笔试题解析

hive学习二

HiveSQL优化

hive sql 实现时间循环