hivesql 第11页

将hdfs文件导入hive表

hivesql对hdfs的操作最终都会转化为mr任务，下面介绍如何将已经存在的hdfs文件“导入”hive表，很简单条件及要求：1）hdfs文件为经过lzo压缩的seqFile2）seqFile数据样例

luoshi0801·2020-09-14 00:03

HiveSQL面试题

1.我们有如下的用户访问数据userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u042017/1/203u012017/1/236u012017/2/218u022017/1/236u012017/2/224要求使用SQL统计出每个用户的累积访问次数，如下表所示：用户id月份小计累积u012017-011111u0120

Nice_N·2020-09-13 21:09

grouping sets操作符简化group by+union all操作

GROUPINGSETS就是一种将多个GROUPBY逻辑UNION写在一个HIVESQL语句中的便利写法。

Sql Boy·2020-09-13 20:30

hive数据表去重方法

解决思路：（1）groupby的方法首先新建与test表完全相同的新表test_pure,然后利用groupby在有相同值的若干字段上进行分组统计，正常情况下，hivesql的select是无法取到非groupby

zcc_0015·2020-09-13 14:06

hive sql截取指定分隔符后的字符串

**hivesql截取指定分隔符后的字符串**1、字符串示例：aa/ba/dd/cf2、目的：截取最后一个分隔符‘/‘后的字符串’cf’3、需要的函数：reverse()反转函数，将字符串aa/ba/dd

今天菜里有肉·2020-09-12 21:08

hivesql语法经验

在写及测的过程中发现的，有一些可能需要进一步验证。1FAILED:NullPointerExceptionnull不能用视图作为leftouterjoin的右表2FAILED:UDFArgumentTypeExceptionOnlynumericorstringtypeargumentsareacceptedbutdecimalispassed.在cdhhive0.10中，avg的列不能是deci

shj1119·2020-09-12 07:31

hive常见错误

a.namefromstualeftjoincoursebona.id=b.id错误：SemanticExceptionColumnxxFoundinmorethanOneTables/Subqueries问题：hivesql

大王go巡山·2020-09-12 06:11

hql语句

简介hql为hivesql的缩写。hive本身为java语言开发而成，所以hive上面如果有什么特殊需求，完全可以是用hiveudf订制自己的需求（后续会介绍udf的开发方法）。

Joseph-Growth·2020-09-12 04:48

Spark SQL应用解析

Hive是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

dawandi6620·2020-09-11 14:47

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈

每日产生万亿的消息数据入库，需要针对几十亿IMEI手机设备去重，并关联数千亿的历史全表，进行曝光、点击、PV、UV、日活、新增、留存等统计指标分析，当前所有业务的ETL清洗、统计计算、用户画像都全部依赖离线m/r和HiveSQL

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖·2020-09-11 14:56

Spark on hive 与 Hive on spark 的区别

HvieonSpark：（数据源是hive本身）Hvie将自己的MapReduce计算引擎替换为Spark，当我们执行HiveSQL(HQL)时

适合不合适·2020-09-11 03:49

hive,spark sql优化

一.hivesql优化1.发生数据倾斜，如何解决？什么是数据倾斜？

ronaldo_liu2018·2020-09-10 23:29

hive指标计算：同比

项目场景：通过hivesql进行指标计算求同比：创建hive内表createtableccic_dev.test_yoy(yearmonthstring,citystring,countint)STOREDASPARQUET

滴水石穿，非一日之功·2020-09-10 23:24

技本功|Hive优化之建表配置参数调优（一）

影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

b732fee81ae2·2020-09-04 15:28

3.Spark基础学习三（Spark_SQL）

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduc的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

做个合格的大厂程序员·2020-09-02 16:03

技本功|Hive优化之配置参数的优化（一）

影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

云掣科技·2020-08-26 13:16

技本功|Hive优化之配置参数的优化（一）

影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

云掣科技·2020-08-26 11:00

技本功|Hive优化之配置参数的优化（一）

影响Hive效率的主要因素有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等。本文主要从建表配置参数方面对Hive优化进行讲解。

云掣YUNCHE·2020-08-25 21:14

Spark基础

为其它场景提供了底层的服务SparkSQL:是Spark处理结构化数据的库，就像HiveSQL,Mysql一样。

班得瑞的猫·2020-08-25 17:11

如何计算留存率（Hive Sql or Spark sql）

看下面这个例子：如上示例所示，我们如何通过HiveSql或者SparkSql解决

沙漏遗失了年华·2020-08-25 17:21

大数据分析利器之hive(三)

大数据分析利器之hive一、课前准备安装hive环境掌握hivesql常见的DDL和DML操作掌握hivesql的分区表构建和使用二、课堂主题本堂课主要围绕hive的查询操作进行讲解。

队列人生·2020-08-25 06:17

Hive SQL 日常工作使用总结

写写日常在使用HiveSQL做分析时经常使用的一些函数或者方法like时间区间排序当前时间类型转换case..when..then句式多列合并条件聚合采样计算百分数正则化匹配DataFrame插入hive

茁壮小草·2020-08-25 05:56

Hive表实现一次查询多次插入需要注意的点

Hivesql里，为了提高查询效率，我们可以将通用的功能模块微服务化，除了可以使用with..as这种优化方式外，本文记录另外一种方式:from()insertinto如果目标表是普通表，则需要插入不同的表

秋名山小桃子·2020-08-25 01:29

FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

执行Hivesql时报错：执行语句和报错详情如下：hive(thnews_new)>>insertintotablethnews_new.thnews_all>selectdate_id.id,date_id.source

孤此一木จุ๊บ·2020-08-24 17:40

日记录-20190718

Excel数据校验，每个数据进行比对，SUM（B2：B3）/E32019-08-09格式更改为2019/8/9:=Year(几行几列)=MONTH()=DAY()=DATE(YEAR,MONTH,DAY)HIVESQL

花晓说·2020-08-24 16:55

hivesql统计日活跃用户

需求2017-09-15号的数据：192.168.33.6,hunter,2017-09-1510:30:20,/a192.168.33.7,hunter,2017-09-1510:30:26,/b192.168.33.6,jack,2017-09-1510:30:27,/a192.168.33.8,tom,2017-09-1510:30:28,/b192.168.33.9,rose,2017-0

忧伤的橘子·2020-08-24 16:42

【大数据面经-数据仓库-03】常用hivesql udf考察

目录explodelateralviewexplod说明，关于内置的hive的udf函数使用，建议直接参考hive官方wikihttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-explode(array)explodeexplode()takesinanarray(oramap

踩大侠·2020-08-24 14:30

hive MapJoin 异常： return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

点击浏览教程今天写了一个hivesql，A表往B表插入数据，如果公共字段id相同，则不插入，即不存在则插入，否则不插入，这样一个sql，可是执行时报了内存异常，具体信息是：2018-08-1413:45

ikeguang·2020-08-24 14:23

Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execu

hivesql执行join语句报错Error:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED

Java使我强大·2020-08-24 12:23

Hive优化

核心思想：把HiveSQL当做Mapreduce程序去优化注意:以下SQL不会转为Mapreduce来执行,Explain用于显示执行计划,可以来验证sql是否发生mapreduceselect仅查询本表字段

XtHhua·2020-08-24 09:56

SQL解析框架 - Calcite

最通用的SQL解析框架-Calcite最近在研究Flink，在flink-table中看到了calcite，想到自己一年前刚刚从事大数据时，在HiveSQL就对SQL解析产生了很大的好奇，但当时对于这么多的概念一下子接受不过来就放弃了对

廖嘉逸·2020-08-24 06:37

解析Hive复杂字段2--UDF

前言上一篇文章说道工作中遇到一个需要解析Hive的复杂字段提取HotelId的多个结果的问题，第一时间采用了Hivesql自带的lateralview，explode及正则表达式处理成功，现在尝试采用hiveudf

风筝flying·2020-08-23 17:57

HiveSQL行转列lateral view explore()以及连接concat_ws()和列转行collect_list()&collect_set()区别的使用案例

行转列：在我们使用hive进行数据统计分析时可能有这么一个场景：一行数据中，一个字段中有很多和数据项，我们需要对每个数据项进行一个统计分析。例如：一个人有很多人生的重要阶段，我们有一批人，求在某个阶段的人的总数uid，stage1,jiehun:shengzi:maiche2,maiche:maifang3,maifang:jiehun4,dushu:maiche5,dushu:maifang:j

卷曲的葡萄藤·2020-08-22 23:32

Hive concat函数和concat_ws函数和concat_group函数&row_number over()和sum() over()&列转行,行转列

concat函数,concat_ws函数，concat_group函数hivesql中的concat函数,concat_ws函数，concat_group函数之间的区别CONCAT（）函数CONCAT（

Stefanboy·2020-08-22 20:05

Spark总结（SparkSQL）

SparkSQL的由来我们学过Hive，它是将HiveSQL转化为MapReduce然后提交集群上去运行，大大简化了编写MapReduce的程序的复杂性，但是由于计算的时候效率比较慢。

花掏尽·2020-08-22 14:56

HiveSQL建表-查询

分布式文件系统中的数据，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行，通过自己的SQL去查询分析需要的内容，这套SQL简称HiveSQL

*MuYu*·2020-08-22 13:25

hivesql 匹配特殊转义字符

如果需要用like来匹配字符串中的特殊字符，eg.?，\，/。需要对其做转义，否则会当做正则表达被处理。hive>selectchannelfromtest;a?bca_bca.bchive>selectchannelfromtestwherechannellike'%\?%'a?bchive>selectchannelfromtestwherechannellike'%\_%'正则表达式需要转义

*MuYu*·2020-08-22 13:25

Sssssss_A·2020-08-22 01:58

hiveSQL常用句式整理（不定时更新）

基础子查询的语法：（SELECT[ALL|DISTINCT]]FROM[WHERE][GROUPBY][HAVING])注意：1.子查询的SELECT查询必须使用圆括号括起来2.任何可以使用表达式的地方都可以使用子查询，只要它返回的是单个值子查询常用的语法格式WHERE查询表达式[NOT]IN(子查询)WHERE查询表达式比较运算符[ANY|ALL]（子查询）WHERE[NOT]EXISTS(子查

强仔fight·2020-08-21 20:28

大数据： hive 时间维度表初始化记录步骤

下面是我的一个时间维度表：网上很多用mysql或者是oracle的存储过程初始化数据的，下面我用HiveSql初始化，记录一下。

shrek11·2020-08-21 17:00

[DBA]hive的基本操作

hive的基本操作-奏乐-博客园http://www.cnblogs.com/hankedang/p/5649473.html指定hivesql运行队列setmapreduce.job.queuename

葡萄喃喃呓语·2020-08-21 04:57

Hive----JDBC工具类的建立使用（包括HIVEsql工具类）---IDEA开发

Hive-----JDBC---utilpackagecom.www.hive.util;importjava.sql.*;importjava.util.Date;importjava.util.*;importjava.util.List;publicclassHiveUtil{//成员变量privateConnectionconnection=null;privateStatementsta

qq_37001101·2020-08-21 01:24

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

作者介绍：胡梦宇，知乎数据架构平台开发工程师背景ApacheHive是基于ApacheHadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并且提供了HiveSQL进行查询和分析，在离线数仓中被广泛使用

PingCAP·2020-08-20 17:26

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

作者介绍：胡梦宇，知乎数据架构平台开发工程师背景ApacheHive是基于ApacheHadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并且提供了HiveSQL进行查询和分析，在离线数仓中被广泛使用

PingCAP·2020-08-20 17:25

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-08-20 17:11

【赵强老师】什么是Spark SQL？

我们已经学习了Hive，它是将HiveSQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。

赵强老师·2020-08-20 17:11

Hive 与 ElasticSearch 的数据交互

本文将详细介绍利用ES与Hive直接的数据交互；通过Hive外部表的方式，可以快速将ES索引数据映射到Hive中，使用易于上手的HiveSQL实现对数据的进一步加工。

oldbalck·2020-08-20 14:10

oppo面试整理

我负责的是其中Filter和OrderBy两种HiveSQL的语法信息的下推，也就是将Filter和OrderBy信息下推给存储层。

柴俊涛·2020-08-20 07:07

python发送含有多个变量的网页正文邮件

接上文，我们在接到自动化需求后，需要把hivesql语句跑出，然后把结果下载下来做成日报并发送给领导，这里就有领导们要求的格式，我们需要用网页语言模仿表格格式，将每日报表呈现出来。

goskiller·2020-08-19 18:38

利用poi把excel转成sql建表语句并写入文件

自我学习可以把现有的excel表格里面的sheet表转成sql建表语句，因为每个表的字段非常多，上百个字段，所以通过这种自动生成建表sql的方式，会比较方便，目前这个仅仅可以满足关系型数据库，后续可能还会增加一个转hivesql

京河小蚁·2020-08-19 04:36

推荐频道

hivesql

将hdfs文件导入hive表

HiveSQL面试题

grouping sets操作符简化group by+union all操作

hive数据表去重方法

hive sql截取指定分隔符后的字符串

hivesql语法经验

hive常见错误

hql语句

Spark SQL应用解析

每日生产万亿消息数据入库，腾讯如何突破大数据分析架构瓶颈

Spark on hive 与 Hive on spark 的区别

hive,spark sql优化

hive指标计算：同比

技本功|Hive优化之建表配置参数调优（一）

3.Spark基础学习三（Spark_SQL）

技本功|Hive优化之配置参数的优化（一）

技本功|Hive优化之配置参数的优化（一）

技本功|Hive优化之配置参数的优化（一）

Spark基础

如何计算留存率（Hive Sql or Spark sql）

大数据分析利器之hive(三)

Hive SQL 日常工作使用总结

Hive表实现一次查询多次插入需要注意的点

FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

日记录-20190718

hivesql统计日活跃用户

【大数据面经-数据仓库-03】常用hivesql udf考察

hive MapJoin 异常 ： return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execu

Hive优化

SQL解析框架 - Calcite

解析Hive复杂字段2--UDF

HiveSQL行转列lateral view explore()以及连接concat_ws()和列转行collect_list()&collect_set()区别的使用案例

Hive concat函数和concat_ws函数和concat_group函数&row_number over()和sum() over()&列转行,行转列

Spark总结（SparkSQL）

HiveSQL建表-查询

hivesql 匹配特殊转义字符

4.推荐系统之Hive

hiveSQL常用句式整理（不定时更新）

大数据： hive 时间维度表初始化 记录步骤

[DBA]hive的基本操作

Hive----JDBC工具类的建立使用（包括HIVEsql工具类）---IDEA开发

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

知乎 Hive Metastore 实践：从 MySQL 到 TiDB

【赵强老师】什么是Spark SQL？

【赵强老师】什么是Spark SQL？

Hive 与 ElasticSearch 的数据交互

oppo面试整理

python发送含有多个变量的网页正文邮件

利用poi把excel转成sql建表语句并写入文件

hive MapJoin 异常： return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

大数据： hive 时间维度表初始化记录步骤