hivesql 第15页

Hive调优实战

优化时，把hivesql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

xch_w·2020-06-29 23:33

hive部分：hive的优化，MapReduce的优化

hive核心思想：把HiveSQL当做Mapreduce程序去优化。以下SQL不会转为Mapreduce来执行：select仅查询本表字段；where仅对本表字段做条件过滤。

道法—自然·2020-06-29 22:26

HiveSql性能优化

一、解决数据倾斜1.过滤掉null部分key值存在大量空字段，会hash到同一reduce，造成reduce长尾，将null值过滤掉举例：selectuser_idfromlogswherestatdate='20170815'whereuser_idisnotnull;2.hivejoin倾斜：设置joinskew参数解决sethive.optimize.skewjoin=true;sethiv

攻城狮Kevin·2020-06-29 22:52

HiveSql中limit10的坑——对大数据量的表查询加group by

一般查询hive表中某个字段是否存在某个值，会使用如下查询语句select*from表名wheredt=XXXXand字段like'%某个值%'limit10；这种比较适合hive表数据量较小的情况，出现limit10，hive会默认判断此表数据量不大，只开启一个map进行查询，如果对于大表，比如好几百G上T的数据量，这么大的数据量只开一个map一方面查询慢，另一方面，因为数据量太大容易把机器跑崩

攻城狮Kevin·2020-06-29 22:52

dip-data-analyze 使用的hiveserver 实践之 jvm调优

其中5分钟任务有2个，小时任务有20个以上，晚上执行的任务有6个.任务并不多，都是使用hivesql连接到hiveserver去执行。本周曾经有2次hiveserver失效。

wf1982·2020-06-29 17:54

SparkSQL之一张贴告诉你什么是SparkSQL

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

王傲旗的大数据之路·2020-06-29 11:17

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的HiveETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入

ming_rw·2020-06-29 09:19

impalasql和hivesql的窗口函数和根据月份时间增量取数

窗口函数和根据月份时间增量取数今天跟大家分享一下窗口函数举个例子：假设当前环境为impala，droptableifexistsdw.stu;----dw库中的stu表-------------------createtabledw.stu(fperiodstringcomment’年月’,namestringcomment’姓名’,ageintcomment’年龄’,salarydoubleco

全能小孩·2020-06-29 08:31

hive sql 实现时间循环

实现效果：hivesql实现：–根据开始时间和结束时间生成时间段内所有时间selectregexp_replace(date_add(dt,row_number()over(orderbydt)-1),

西西南偏南·2020-06-29 08:26

flink SQL 外关联

flinkSQL的底层解析用的是apachecalcite,hiveSQL也用的calcite解析，因此flinkSQL的大致原理和我们常见的sql差不

呔小怪兽休走·2020-06-28 22:53

算法人必懂的Hive知识-四道Hive面试&笔试题解析

近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的HiveSQL问题，Hive作为算法工程师的一项必备技能，在面试中也是极有可能被问到的，所以有备无患，本文将对这四道题进行详细的解析，还是有一定难度的

悄悄的努力·2020-06-28 21:26

hive学习二

主要是想了解一下和hivesql是如何转换成mapreduce任务的，所以开搞。这个图主要描述了hive对于各种参数如-e、-f等参数的解析和对hivesql语句的完整性的处理等。

想什么就写什么·2020-06-28 21:47

HiveSQL优化

HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾Hadoop应该是当前最流行的大数据处理工具了（没有之一的那种），单独写MapReduce任务的应该不多了，主要还是用的HiveSQL

一直青蛙·2020-06-28 20:44

hive精选50题

Hivesql语句必练50题-入门到精通(1)spark-shell–masterspark://node1:7077–executor-memory1g–total-executor-cores2–jars

浮生若梦1379·2020-06-28 20:39

Hive学习之路（一）Hive初识

Hive简介什么是Hive1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在

weixin_33704234·2020-06-28 03:03

Pandas处理大数据的一些小技巧

近期的工作和HiveSQL打交道比较多，偶尔遇到一些SQL不好解决的问题，会将文件下载下来用pandas来处理，由于数据量比较大，因此有一些相关的经验可以和大家分享近期的工作和HiveSQL打交道比较多

weixin_33682719·2020-06-28 03:23

[大数据面试题]hadoop核心知识点

*这里不涉及HiveSQL和HBase操作的笔试题，这些东西另有总结。1.MR意义。MR是一个用于处理大数据的分布式离线计算框架，它采用”分而治之“的思想。

weixin_30750335·2020-06-28 00:25

hive数据类型及其数据转换

由于需要使用hivesql进行数据查询，同时涉及多个不同类型的字段的组合，看Hivesql的文档相关和资料才知道，hive是支持大部分基础数据类型之间的相互转换的。

weixin_30730151·2020-06-28 00:28

hive引擎的选择：tez和spark

问题&&不便tez：在hivesql中使用了union或join操作tez会将任务切分,每个小任务，创建一个文件文件夹，如下：这就会造成一个非常严重的问题，假如这张表的下文，使用这张表没有用tez，而是使用

weixin_30709061·2020-06-27 23:31

HiveSQL解析过程详解

Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建，每天执行近万次的HiveETL计算流程，负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中，我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力，在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入

weixin_30487317·2020-06-27 20:04

hiveSql常见错误记录

1.Instrictmode,ifORDERBYisspecified,LIMITmustalsobespecified.这个错误提示是因为在hive下写的sql使用了orderby对数据进行数据排序，因为orderby事实上是全局排序，因此，在reduce阶段仅为一个reduce做汇总，为此，数据量庞大，在hive的严格模式下禁止全局排序的。两种解决方案更改hive严格模式设定sethive.m

weixin_30375427·2020-06-27 18:06

Hadoop Hive sql语法详解

分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL去查询分析需要的内容，这套SQL简称HiveSQL

weixin_30355437·2020-06-27 18:47

HiveSQL解析过程详解

HiveSQL解析过程详解Hive是基于Hadoop的一个数据仓库系统，在各大公司都有广泛的应用。

ljtyxl·2020-06-27 08:09

一、HiveSQL基本操作

文章目录一、Hive数据类型1、基本类型2、复杂类型二、存储格式1、textfile2、SequenceFile3、RCFile4、ORCFile5、Parquet三、操作数据库1、创建数据库2、删除数据库3、进入数据库四、操作表属性1、显示数据库下面所有表2、删除表3、显示建表结果4、显示表分区5、修改表属性6、表重命名7、新增列8、删除列9、修改列10、删除分区11、增加分区12、修改分区、L

Wells·Lee·2020-06-27 05:50

hive表自增列实现方法（完全实现表中数据自增列唯一）之优化一（加快文件处理速度，已经非常非常快了）

Hive表自增列的实现，我在网上找了好久，大都是自己编写UDF（或者是UDAF/UDTF）之类的，或者是直接使用hive的lib库中提供的jar包，加载之后创建方法，然后在hivesql中调用，不过这些都会遇到一个问题

第一片心意·2020-06-27 04:22

Hive 报错：Error: Error while compiling statement: FAILED: ParseException line 1:7 Failed to recognize

执行hiveSQL语句“selectoutfromXXX”时报错如下：Error:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:7Failedtorecognizepredicate'out

程序媛三妹·2020-06-27 01:53

Spark job在hue-oozie中的另一种方式调度

工作中使用的是hue来配置oozie工作流调度及任务中调度关系，sparkjob的输入是由hivesql产生输出的表，在配置sparkjob由于一些客观关系出现很多问题导致无法正确的执行，在oozie中支持

xubc·2020-06-27 00:14

自动可视化报表搭建项目

一、项目基本信息目的：给某互联网客服中心搭建自动可视化报表供运营层使用；使用对象：运营总监、经理、主管；此使用对象决定底层表最小粒度；该项目使用工具：Hivesql、MySQL、Python、powerBI

tan_rong·2020-06-26 17:32

Hive1.2.2（三）

一、课前准备1.安装hive环境2.掌握hivesqlDDL和DML操作3.掌握hivesql的分区表创建和使用二、课堂主题本课堂主要围绕hive的查询操作进行讲解，主要包括以下几个方面1.select

起始的地方·2020-06-26 16:00

kylin sql查询验证

beta版中，SQL在cube中无法找到的数据将不会重定向到HiveSQL查询验证选择窗口最上方的Insight标签，输入SQL语句查询上面步骤创建的StreamingTable，点击Submit执行SQL

1057718341_h·2020-06-26 08:56

HiveSQL找出连续日期及连续的天数

参考：https://www.cnblogs.com/Joetao/p/3842242.html参考关键代码：select本期起始日期=min(rq),本期终止日期=max(rq),持续天数=max(id1)-min(id1)+1,距上一期天数=casea.id1-a.id2when-1then0elsemax(datediff(d,rq2,rq))endfrom(selectid1=datedi

卡卡大叔·2020-06-26 07:59

hivesql 效率优化

1.groupby数据倾斜问题hive是根据groupby的key进行数据分发的，某个key相同的数据太多的会被分发到一个reducer上，key的数据分布不均匀会导致大量数据被shuffle到某个或者某些reducer上，出现严重的数据倾斜，使得数据计算变慢配置任务参数sethive.groupby.skewindata=true;原理：该配置会触发hive增加额外的mr过程，随机化key后进行

夜雨滴空阶·2020-06-26 07:58

hive 执行计划

1，hivesql的执行顺序from...where....select...groupby...having...orderby...2，explain查看执行计划explainselectcity,

scottzcw·2020-06-26 02:15

HiveSQL例题-常用函数与基础语法讲解

我们通过一些简单的案例来讲解Hive的常用基础语法以及一些常用的函数。学习目标：1.掌握HIVE基础语法、常用函数及其组合使用2.掌握一些基本业务指标的分析思路与实现技巧1、基础语法：SELECT…A…FROM…B…WHERE…C…A：列名B：表名C：筛选条件需求1：某次经营活动中，商家发起了"异性拼团购"，试着针对某个地区的用户进行推广，找出匹配用户。思考：根据需求，我们可以参考实现选出地区城市

糖潮丽子·2020-06-25 16:17

学会使用JOIN语句

Hivesql只支持等值连接，不支持非等值连接以及or连接(而标准sql是支持非等值连接的，hivesql不支持非等值连接的原因是，通过mapreduce很难实现这种类型的连接)。

upup-我是昵称存在的分割线·2020-06-25 09:37

葵花宝典--SparkSQL

它进行了优化；并且提供了两个抽象类：DadaFrame和DataSet2、特点易整合：完美的把sql和spark进行了无缝连接统一的数据访问：使用相同的方式连接不同的数据源兼容HIVE：在现有的仓库运行sql和HiveSql

张薄薄·2020-06-25 07:45

HiveSQL数据笔试题

题目一：计算平台的每一个用户发过多少朋友圈、获得多少点赞已知，数据如下：T1：10万行数据uid(用户id)log_id(日记id)uid1log_id1uid1log_id2uid2log_id3……T2：1000万行数据（注：没有被点赞的日记此表不做记录）log_id(日记id)like_uid(点赞的用户id)log_id1uid2log_id1uid3log_id1uid4log_id3u

流风雨情·2020-06-25 04:39

机器学习特征工程经验总结一

其实大部分人都是在跑数据，各种map-reduce，hiveSQL，数据仓库搬砖，数据清洗、数据清洗、数据清洗，业务分析、分析cas

levy_cui·2020-06-24 03:20

hiveSQL常见面试题

小编前几天去面试了一个大数据分析的岗位，学习了几个月信心满满的小编被无情的面试教育了，被教育的不是一些高深的算法理论，而是一些hiveSQL。这些题小编真不是不会，场景都非常熟悉，但就是容易忘。

AI课工场·2020-06-24 00:51

sparkSQL flinkSQL hiveSQL性能对比

最近在研究flink，发现较新版的flink支持sql，这下好了，我用spark两年了，对用法和性能算是踩过一些坑了。听说flink挺快的，那么flinkSQL和sparkSQL到底哪个快呢？想必很多人也想知道吧，那就拿数据说话（虽然不是自己做的基线测试，但好歹也找了好久）下图是hive,spark,flink的sql执行速度对比：下图是平均的综上所述，flinkSQL和sparkSQL的性能只差

dianfuwo9488·2020-06-23 04:32

写一个测试用例testcase，分别验证TXT文件和gzip文件的可并行计算性？

2）写hivesql,通过某种计算两种不同形式的数据文件对应的表，查看其map个数的差异3）下个结论txt文件测试：TXT压缩成gzip文件的时候保留原TXT文件：gzip-cinput.txt就生成了

classics_moon·2020-06-22 23:34

Hadoop为基础关于Hive的安装配置及连接（安装）MySQL和Navicat

Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称HiveSQL

米卡玛卡·2020-06-21 20:06

Hive SQL执行计划深度解析

HiveSQL执行计划深度解析转载：http://blog.csdn.net/moon_yang_bj/article/details/31744381分类：hadoop&hive2014-06-1711

forever_ai·2020-06-21 16:27

Hive学习笔记（6）DDL

官方参考文档LanguageManualDDL创建/删除/更改/使用数据库在hivesql中database关键词和schema关键词可以互换，意思是一样的创建数据库CREATE(DATABASE|SCHEMA

井地儿·2020-06-21 08:41

Hive-谈谈你对Hive的认识

Hive通过把HiveSQL进行解析和转换，最终生成一系列在hadoop上运行的mapreduce任务，通过执行这些任务完成数据分析与处理。

吕二口·2020-06-04 17:00

Spark SQL 教程

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写Ma

weare_b646·2020-05-29 12:48

PHP 正则表达式详细讲解如何提取两个字符串之间的字符（支持单个&多个）

场景：假如我有一个hiveSQL语句，需求为：将变量{@date}替换成具体的日期，如20200526，select"F"assex,c.movienameasname,avg(a.rate)asavgrate

申文哲·2020-05-26 20:00

pandas dataframe 中的explode函数用法详解

在使用pandas进行数据分析的过程中，我们常常会遇到将一行数据展开成多行的需求，多么希望能有一个类似于hivesql中的explode函数。这个函数如下：Code#!

Sinsa_SI·2020-05-18 14:06

在hue oozie调度中执行含中文（汉字）的sql出现乱码

问题描述用的是cdh6，在hue是上编辑了一个Hivesql，其中包含了汉字。在hive编辑页面执行正常，通过工作流执行hive节点时会出现中文乱码。

Ryan_Fn·2020-05-14 13:22

【赵强老师】在Spark SQL中读取JSON文件

如果大家了解Hive的话，应该知道它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

collen7788·2020-05-11 15:08

推荐频道

hivesql

Hive调优实战

hive部分：hive的优化，MapReduce的优化

HiveSql性能优化

HiveSql中limit10的坑——对大数据量的表查询加group by

dip-data-analyze 使用的hiveserver 实践之 jvm调优

SparkSQL之一张贴告诉你什么是SparkSQL

HiveSQL解析原理：包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作

impalasql和hivesql的窗口函数和根据月份时间增量取数

hive sql 实现 时间循环

flink SQL 外关联

算法人必懂的Hive知识-四道Hive面试&笔试题解析

hive学习二

HiveSQL优化

hive精选50题

Hive学习之路 （一）Hive初识

Pandas处理大数据的一些小技巧

[大数据面试题]hadoop核心知识点

hive数据类型及其数据转换

hive引擎的选择：tez和spark

HiveSQL解析过程详解

hiveSql常见错误记录

Hadoop Hive sql语法详解

HiveSQL解析过程详解

一、HiveSQL基本操作

hive表自增列实现方法（完全实现表中数据自增列唯一）之优化一（加快文件处理速度，已经非常非常快了）

Hive 报错：Error: Error while compiling statement: FAILED: ParseException line 1:7 Failed to recognize

Spark job在hue-oozie中的另一种方式调度

自动可视化报表搭建项目

Hive1.2.2（三）

kylin sql查询验证

HiveSQL找出连续日期及连续的天数

hivesql 效率优化

hive 执行计划

HiveSQL例题-常用函数与基础语法讲解

学会使用JOIN语句

葵花宝典--SparkSQL

HiveSQL数据笔试题

机器学习特征工程经验总结一

hiveSQL常见面试题

sparkSQL flinkSQL hiveSQL性能对比

写一个测试用例testcase，分别验证TXT文件和gzip文件的可并行计算性？

Hadoop为基础关于Hive的安装配置及连接（安装）MySQL和Navicat

Hive SQL执行计划深度解析

Hive学习笔记（6）DDL

Hive-谈谈你对Hive的认识

Spark SQL 教程

PHP 正则表达式 详细讲解如何提取两个字符串之间的字符（支持单个&多个）

pandas dataframe 中的explode函数用法详解

在hue oozie调度中执行含中文（汉字）的sql出现乱码

【赵强老师】在Spark SQL中读取JSON文件

hive sql 实现时间循环

Hive学习之路（一）Hive初识

PHP 正则表达式详细讲解如何提取两个字符串之间的字符（支持单个&多个）