韩家小志

Hive--行转列/列转行

行转列/列转行

一、lateral view
- 案例1：与explode连用
- 案例2：与parse_url_tuple连用
二、explode
三、行列转换
- 行转列
- - 多行转多列
  - 多行转单列
- 列转行
- - 多列转多行
  - 单列转多行

一、lateral view

分类：视图
功能：配合UDTF来使用,把某一行数据拆分成多行数据
很多的UDTF不能将结果与源表进行关联，使用lateral view ，可以将UDTF拆分的单个字段数据与原始表数据关联上
使用方式：

select …… from tabelA lateral view UDTF(xxx) 视图名 as a,b,c

案例1：与explode连用

-- 假设我们有一张表pageAds，它有两列数据
-- 第一列是pageid(string类型)，第二列是adid_list(Array类型)，即用逗号分隔的广告ID集合：
pageid	 			adid_list
"front_page"		[1, 2, 3]
"contact_page"		[3, 4, 5]
 
-- 要统计所有广告ID在所有页面中出现的次数。

-- 首先分拆广告ID：

SELECT 
	pageid, adid 
FROM pageAds .
LATERAL VIEW explode(adid_list) adTable AS adid;
    
-- 执行结果如下：pageid(string类型),adid(int类型)
pageid		 adid
"front_page"	1
"front_page"	2
"front_page"	3
"contact_page"	3
"contact_page"	4
"contact_page"	5

-- 接下来就是一个聚合的统计：

SELECT 
adid, count(1) 
FROM pageAds 
LATERAL VIEW explode(adid_list) adTable AS adid
GROUP BY adid;

-- 执行结果如下：

adid	count(1)
1			1
2			1
3			2
4			1
5			1

案例2：与parse_url_tuple连用


--准备数据:vim /export/datas/lateral.txt
1	http://facebook.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu

--创建表
create table tb_url(
id int,
url string
) row format delimited fields terminated by '\t';
--加载数据
load data local inpath '/export/datas/lateral.txt' into table tb_url;
--使用UDTF解析
SELECT parse_url_tuple(url, 'HOST') from tb_url;

--使用UDTF+lateral view
select 
  a.*,
  b.host,
  b.path
from 
  tb_url a 
  lateral view parse_url_tuple(url, 'HOST',"PATH") b as host,path;

--对比
SELECT id,parse_url_tuple(url, 'HOST') from tb_url;--失败，UDTF函数不能与字段连用
select id, a.* from tb_url lateral view parse_url_tuple(url, 'HOST','PATH') a as host,path;

案例3:多个lateral view连用
一个FROM语句后可以跟多个lateral view语句，后面的lateral view语句能够引用它前面的所有表和列名。

-- 以下面的表为例：
--col1(Array类型) col2(Array类型)
col1		 col2
[1, 2]		[a", "b", "c"]
[3, 4]		[d", "e", "f"]

SELECT 
myCol1, col2
FROM baseTable
LATERAL VIEW explode(col1) myTable1 AS myCol1;
--执行结果为：mycol1(int类型)	 col2(Array类型)

mycol1	 	col2
1		[a", "b", "c"]
2		[a", "b", "c"]
3		[d", "e", "f"]
4		[d", "e", "f"]
 
--加上一个lateral view：

SELECT 
myCol1, myCol2 
FROM baseTable
LATERAL VIEW explode(col1) myTable1 AS myCol1
LATERAL VIEW explode(col2) myTable2 AS myCol2;

--它的执行结果为：mycol1(int类型)	 col2(string类型)
myCol1		myCol2
1			"a"
1			"b"
1			"c"
2			"a"
2			"b"
2			"c"
3			"d"
3			"e"
3			"f"
4			"d"
4			"e"
4			"f"
注意上面语句中，两个lateral view按照出现的次序被执行。

二、explode

分类：UDTF
功能：函数可以将一个array或者map展开
- explode(array)：
  将array列表里的每个元素生成一行
- explode(map)：
  每一对元素作为一行，key为一列，value为一列
使用方式：
- 直接使用
- 与lateral view连用
案例：

	1-实现wordcount【explode(array)】
		select explode(split(word," ")) from words;  --直接使用,word为array
	2-将兴趣爱好展开【explode(map)】
		select explode(hobby) from complex_map;  --直接使用,hobby为map
	3-与侧视图连用
		select a.name,b.* from complex_map a lateral view explode(hobby) b as hobby,deep;
		-- 与lateral view连用

三、行列转换

行转列

多行转多列

案例：多行转多列

-》创建数据：vim /export/datas/r2c1.txt
a	c	1
a	d	2
a	e	3
b	c	4
b	d	5
b	e	6
-》希望结果
+-------+----+----+----+--+
| col1  | c  | d  | e  |
+-------+----+----+----+--+
| a     | 1  | 2  | 3  |
| b     | 4  | 5  | 6  |
+-------+----+----+----+--+

准备


-》创建表
create table row2col1(
col1 string,
col2 string,
col3 int
)row format delimited fields terminated by '\t';

-》加载数据
load data local inpath '/export/datas/r2c1.txt' into table row2col1;

思考
- 原表中a和b都有多行，最后a和b都只有一行，肯定对第一列做了分组
- 结果有4列
  - 结果第一列：就是原来的第一列
  - 结果第二列：以a为例，对a的数据分组以后
    如果原表第二列是c，结果表的第二列就是1，取的是原表的第三列
    如果原表第二列是d，结果表的第三列就是2，取的是原表的第三列
    如果原表第二列是e，结果表的第四列就是3，取的是原表的第三列
  - a分组以后是3条

a	c	1
a	d	2
a	e	3
case col2 when 'c' then col3 else 0 end   =》 1  0  0  =》 1
case col2 when 'd' then col3 else 0 end   =》 0  2 	0  =》 2
case col2 when 'e' then col3 else 0 end   =》 0  0  3  =》 3

实现


select 
  col1 as col1,
  max(case col2 when 'c' then col3 else 0 end) as c,
  max(case col2 when 'd' then col3 else 0 end) as d,
  max(case col2 when 'e' then col3 else 0 end) as e
from 
  row2col1
group by 
  col1;

多行转单列

案例：多行转单列

准备

-》创建数据：vim /export/datas/r2c2.txt
a	b	1
a	b	2
a	b	3
c	d	4
c	d	5
c	d	6
-》希望结果：concat_ws(分隔符,col3)
+-------+-------+--------+--+
| col1  | col2  |  col3  |
+-------+-------+--------+--+
| a     | b     | 1,2,3  |
| c     | d     | 4,5,6  |
+-------+-------+--------+--+
-》创建表
create table row2col2(
col1 string,
col2 string,
col3 int
)row format delimited fields terminated by '\t';
-》加载数据
load data local inpath '/export/datas/r2c2.txt' into table row2col2;

实现


select 
  col1, 
  col2, 
  concat_ws(',', collect_set(cast(col3 as string))) as col3
from 
  row2col2
group by 
  col1, col2;

列转行

多列转多行

案例：多列转多行
需求

-》创建数据：vim /export/datas/c2r1.txt
a	1	2	3
b	4	5	6
-》希望结果
+-----------+-----------+-----------+--+
| _u1.col1  | _u1.col2  | _u1.col3  |
+-----------+-----------+-----------+--+
| a         | c         | 1         |
| b         | c         | 4         |
| a         | d         | 2         |
| b         | d         | 5         |
| a         | e         | 3         |
| b         | e         | 6         |
+-----------+-----------+-----------+--+

准备数据


-》创建表
create table col2row1(
col1 string,
col2 int,
col3 int,
col4 int
)row format delimited fields terminated by '\t';
-》加载数据
load data local inpath '/export/datas/c2r1.txt' into table col2row1;




或者

drop table if exists row2col1;
create table row2col1 as 
select 'a' as col1,1 as col2,2 as col3,3 as col4
union all
select 'b' as col1,4 as col2,5 as col3,6 as col4
;

方法一

select col1, 'c' as col2, col2 as col3 from col2row1
UNION ALL
select col1, 'd' as col2, col3 as col3 from col2row1
UNION ALL
select col1, 'e' as col2, col4 as col3 from col2row1;

不使用union all可以吗？
方法二

select split(value_list,':')[0] as col1
		,split(value_list,':')[1] as col2
		,split(value_list,':')[2] as col3
from (select concat_ws(',',concat(col1,':c:',col2),concat(col1,':d:',col3),concat(col1,':e:',col4)) as value
      from  col2row1
      )t
lateral view explode(split(value,','))v as value_list
;

还有一种不用union all的解法（某些场景下用会很优雅～）
方法三
- posexplode该函数可以将index和数据都取出来，使用posexplode并令取到的index相等就行了

select col1
    -- ,tb1.a as tb1a
    -- ,tb2.a as tb2a
    -- ,tb3.a as tb3a
    ,col2
    ,col3
from(select array(col1,col1,col1) as col1_list
        ,array('c','d','e') as col2_list
        ,array(col2,col3,col4)  as col3_list
    from  col2row1
    )t
lateral view posexplode(col1_list) tb1 as a,col1
lateral view posexplode(col2_list) tb2 as a,col2
lateral view posexplode(col3_list) tb3 as a,col3
where tb1.a=tb2.a and tb2.a=tb3.a
;

posexplode 我经常会用来做膨胀数据使用~供参考


select a.a 
    ,a.b 
    ,date_add('2023-08-01',pos) as dt
    ,pos+1						as n_day
from (select 1 as a ,2 as b 
    union all 
    select 3 as a ,4 as b 
    )a 
lateral view posexplode(split(repeat('a,a',datediff('2023-08-31','2023-08-01')),',')) tab as pos,day
-- lateral view posexplode(split(repeat('a,a',30),',')) tab as pos,day 
-- 这里如果直接写30会被炸开成31（n+1）
-- pos是从0开始，到30(repeat次数)
-- 为什么不是lateral view posexplode(split(repeat(',',datediff('2023-08-31','2023-08-01')),',')) tab as pos,day 呢？？？
-- 因为hive引擎下 和spark引擎下是不一样的，可以自行测试一下，hive 切出来不是你想要的。。。

-- select split(repeat(',',datediff('2023-08-31','2023-08-01')),','); 
--  	[]
-- select split(repeat('a,a',datediff('2023-08-31','2023-08-01')),','); 
-- ["a","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","aa","a"]	
order by dt desc
;

多表查询中 Join：多表之间列合并 union：多表之间行的合并

单列转多行

案例：单列转多行

准备

-》创建数据：vim /export/datas/c2r2.txt
a	b	1,2,3
c	d	4,5,6

-》希望结果
+-------+-------+-------+--+
| col1  | col2  | col3  |
+-------+-------+-------+--+
| a     | b     | 1     |
| a     | b     | 2     |
| a     | b     | 3     |
| c     | d     | 4     |
| c     | d     | 5     |
| c     | d     | 6     |
+-------+-------+-------+--+
-》创建表
create table col2row2(
col1 string,
col2 string,
col3 string
)row format delimited fields terminated by '\t';
-》加载数据
load data local inpath '/export/datas/c2r2.txt' into table col2row2;

实现

select 
col1, 
col2, 
lv.col3 as col3
from 
  col2row2 
lateral view explode(split(col3, ',')) lv as col3;

经常用来解析json套数组，这里举个case

SELECT
       statisticLadder_json
      ,get_json_object(statisticLadder_json, '$.activityId') as activityId
      ,get_json_object(statisticLadder_json, '$.strategyId') as strategyId
FROM ( SELECT '[{"activityId":1,"strategyId":2,"status":0,"strategyMatch":{"dmp":true,"property":false,"scene":true},"propertyMatch":{"clientType":false}},{"activityId":2,"strategyId":3,"status":0,"strategyMatch":{"dmp":true,"property":false,"scene":true},"propertyMatch":{"clientType":false}}]' as str
) a
    LATERAL view explode(split(regexp_replace(str,'^\\[|]$',''), ',(?!")')) b as statisticLadder_json
    
-- 结果
statisticLadder_json	activityId	strategyId
{"activityId":1,"strategyId":2,"status":0,"strategyMatch":{"dmp":true,"property":false,"scene":true},"propertyMatch":{"clientType":false}}	1	2	
{"activityId":2,"strategyId":3,"status":0,"strategyMatch":{"dmp":true,"property":false,"scene":true},"propertyMatch":{"clientType":false}}	2	3

第五阶段【MySQL数据库：常用PT工具】06：使用pt-archiver来进行数据归档做一个有趣的人Zz DBA数据工程师成长之路数据库 mysql dba
一、环境准备1、环境准备准备好一套主从复制的环境，以及一个归档的实例，也就是一个单机部署的MySQL192.168.5.130主库192.168.5.132从库归档库192.168.5.129归档2、创建用户创建归档用户，主库130创建CREATEUSER'dba_archive'@'192.168.%'IDENTIFIEDWITHMYSQL_NATIVE_PASSWORDBY'admin';GR
python数据分析一周速成2.连表查询【含数据库实战项目】噼里啪啦噼酷啪Q 数据分析数据分析 CDA python
连表查询结合数据库实战（sql和hive跨库取数）数据准备#前面省略数据库连接，提示：可以用pymysql和pyhive模块pre_sql="""selectap,timefrombiaoyiawherea.time>20250101"""sql_df=run_mysql(pre_sql)pre_hive="""selectapplication_number,activation_dtefrom
利用神经网络来解决鸢尾花分类任务(附实验结果和代码) 侠之大者231 深度学习实战机器学习深度学习人工智能分类神经网络
前言本篇文章使用自己亲手搭建的神经网络模型来解决鸢尾花数据集的分类任务，读者们可以通过该简单的任务进一步理解神经网络，并且可以自己动手去搭建神经网络。鸢尾花数据集的介绍https://archive.ics.uci.edu/ml/index.php大家可以通过这个网站下载鸢尾花数据集，里面有各种经典数据集供大家使用。附：本来想给大家具体讲一讲的，但发现网站里面讲的已经很详细了，大家想用的自己去了解
Linux(Centos 7.6)命令详解：unzip 豆是浪个 linux centos 运维
1.命令作用unzip用于在一个ZIP存档压缩文件中进行陈列/检测/提取文件(list,testandextractcompressedfilesinaZIParchive)；unzip命令是Linux系统中用于解压缩ZIP格式压缩文件的常用工具。它能够快速、方便地将ZIP文件解压到当前目录或指定目录。2.命令语法Usage:unzip[-Z][-opts[modifiers]]file[.zip
Linux(Centos 7.6)命令详解：zip 豆是浪个 linux 运维服务器
1.命令作用打包和压缩(存档)文件(packageandcompress(archive)files)；该程序用于打包一组文件进行分发；存档文件；通过临时压缩未使用的文件或目录来节省磁盘空间；且压缩文件可以在Linux、Windows和macOS中轻松提取。2.命令语法usage:zip[-options][-bpath][-tmmddyyyy][-nsuffixes][zipfilelist][
大数据实战：Spark + Hive 逐笔计算用户盈亏 WuJiWeb3 区块链链上数据分析从0到1搭建区块链大数据平台 spark hive 大数据 web3 区块链 hadoop
简介本文将通过使用Spark+Hive实现逐笔计算区块链上用户交易数据的盈亏需求。由于我们是进行离线计算，所以我们的数据源是Hive表数据，Sink表也是Hive表，即Spark读取Hive表数据进行批计算之后写回到Hive表并供后续使用。通过本文你将会学到：如何使用SparkSQLAPI读取Hive数据源如何通过读取配置文件进行传参执行SQL如何将SparkSQL转换为JavaRDD进行处理如何
Ubuntu系统下交叉编译szip linux运维
一、交叉编译szip1.下载源码下载Szip：https://docs.hdfgroup.org/archive/support/doc_resource/SZIP/i...下载并解压源码。tar-xvzfszip-2.1.1.tar.gzcdtar-xvzfszip-2.1.1mkdirszipbuild2.设置环境变量设置交叉编译工具链的环境变量：exportPATH=/home/yoyo/3
Hbase在hdfs上的archive目录占用空间过大宝罗Paul 大数据 hbase
hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。【问题】告警信息alert:datanode_storageistriggered告警信息表明某个或某些datanode的HDFS存储空间使用率已超过阈值(我们设置的是80%)，需要清理。[hdfs@master-2r
hbase集群archive目录过大问题处理 spring208208 大数据组件线上问题分析 hbase 数据库大数据
1.问题现象现场反馈hbase集群/hbase/archive目录过大，大小约为1.52PB现场集群已经清理掉2个月以前的snapshot文件，当前archive目录文件仍不能释放现场发现1T以上的archive子目录有211个查看集群hbase配置，hmaster堆栈大小20GB，hmaster清理周期5分钟查看hmaster进程分配内存占用6G上下问题分析HMaster内存估算，假如/hbas
在mac上如何配置clion使用googletest进行测试 rd_cheng c++c++clion googletest gtest
1、下载googletest并且编译wgethttps://github.com/google/googletest/archive/release-1.8.0.tar.gz&&\tarzxfrelease-1.8.0.tar.gz&&\rm-frelease-1.8.0.tar.gz&&\cdgoogletest-release-1.8.0&&\cmakeconfigure.&&\make&&\
Hive JDBC 大数据查询场景下的 Socket 读超时问题及实战解决方案窝窝和牛牛大数据 hive hadoop
文章目录HiveJDBC大数据查询场景下的Socket读超时问题及实战解决方案问题背景️解决方案方案一：通过JDBCURL直接配置超时（推荐）方案二：动态设置全局loginTimeout（兼容旧版本）总结与建议HiveJDBC大数据查询场景下的Socket读超时问题及实战解决方案问题背景在使用HiveJDBC执行查询时，偶发SocketTimeoutException异常，堆栈显示在ResultS
ASIHTTPRequest类库简介和使用说明从小爱吃苹果干 iOS ASIHttpRequest ASIHTTPRequest
一、简介原文链接http://www.cnblogs.com/dotey/archive/2011/05/10/2041966.html1.下载源码官方网站：http://allseeing-i.com/ASIHTTPRequest/。可以从上面下载到最新源码，以及获取到相关的资料。2.概况使用iOSSDK中的HTTP网络请求API，相当的复杂，调用很繁琐，ASIHTTPRequest就是一个对C
查看归档日志及rman备份文件大叶梧桐 LINUX 归档日志 man备份
[root@his1/]#ls----查看**/**根目录下的文件archivebootdevhomelib64mediamntoptrmansbinsrvtmpusrbincgroupetcliblost+foundmiscnetprocrootselinuxsysu01var[root@his1/]#cdarchive/------进入archive/[root@his1archive]#ls
Ubuntu系统中下载安装使用Anaconda xxxn1102_ ubuntu ubuntu conda
文章目录一、下载二、安装1、上传安装文件2、阅读安装协议3、确认安装协议4、确认安装位置5、初始化Anaconda6、查看是否安装成功三、base环境四、Anaconda管理虚拟环境一、下载官网下载地址：https://www.anaconda.com/download中科大镜像源官网：https://mirrors.ustc.edu.cn/anaconda/archive/以上两个网址都可下载，
达梦数据库备份 huazhixuthink 数据库 oracle sql
达梦数据库联机在线备份操作指南一、基础条件与准备开启归档模式‌:联机备份必须处于归档模式下，否则无法执行。需通过disql工具执行以下操作：alterdatabasemount;alterdatabaseARCHIVELOG;例子：[dmdba@server~]$cd/opt/dmdbms/bin[dmdba@serverbin]$./disqlSYSDBA/'"Dameng@123"':5236
基于hive的电信离线用户的行为分析系统赵谨言论文经验分享毕业设计
标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于Hive的电信离线用户行为分析系统。通过收集电信用户的通话记录、上网行为、短信使用等多源数据，利用Hive数据仓库工具进行数据存储和处理，采用数据挖掘和机器学习算法对用户行为进行分析。实验结果表明，该系统
安装httpd m0_74536424 Linux学习笔记 apache linux 网络
安装httpd1.源码编译安装//下载依赖包[root@openEulter-1~]#dnf-yinstallgccgcc-c++makeapr-*pcre-develredhat-rpm-config...安装过程省略...Complete!//下载软件包[root@openEulter-1~]#wgethttps://archive.apache.org/dist/httpd/httpd-2.
数据分析学习目录且行且安~ 数据分析进阶之路 #数据分析目录数据分析
在未来5个月里，将会陪伴大家一起来学习关于数据分析的相关内容，包括从数据思维，数据工具（Excel，Mysql，Hive，Python），数据方法论，数据展示（Tableau,BI），数据挖掘、数据实战项目一整套的内容，同步会将可能用到的以及有用的知识点整理出来。内容会慢慢更新。如下为数据分析的整个目录一、数据分析思维与方法论1.1、从0-1搭建指标体系、用户标签体系1.1.1、指标体系搭建-专项
Python进阶--多线程桔子code Python笔记本多线程 python
原文链接：http://www.juzicode.com/archives/841在《Python进阶教程m9–网络通信–socket通信》中我们实现了一个socket服务端和客户端通信的例子，这个例子中服务端需要等待客户端发送消息后才能返回消息给客户端，在客户端没有发送消息时，服务端一直在data=connet.recv(1024)上被阻塞住，直到等到客户端发来消息才能做下一步的动作。但是在实际
安装mysql 大霞上仙数据库 mysql 数据库
1、安装数据库下载链接https://downloads.mysql.com/archives/community/下载zip安装包，解压到某个路径下，将bin文件夹添加到系统环境变量。然后终端输入指令mysql--version验证2、初始化数据库打开命令提示符（以管理员身份）。导航到你的MySQL目录的bin文件夹（例如cdC:\mysql\bin）。basedir路径下新建my.ini文件中
Databend 产品月报（2025年2月）数据库
很高兴为您带来Databend2025年2月的最新更新、新功能和改进！我们希望这些增强功能对您有所帮助，并期待您的反馈。从MySQL迁移到DatabendDatabend推荐使用db-archiver进行MySQL批量迁移，使用FlinkCDC进行实时变更数据捕获（CDC）迁移。教程已更新：使用db-archiver从MySQL迁移使用FlinkCDC从MySQL迁移设置会话标签现在，您可以为会话
doris: Hive 向阳1218 大数据 hive hadoop 数据仓库 doris
自2.1.3版本开始，ApacheDoris支持对Hive的DDL和DML操作。用户可以直接通过ApacheDoris在Hive中创建库表，并将数据写入到Hive表中。通过该功能，用户可以通过ApacheDoris对Hive进行完整的数据查询和写入操作，进一步帮助用户简化湖仓一体架构。本文介绍在ApacheDoris中支持的Hive操作，语法和使用须知。提示这是一个实验功能。提示使用前，请先设置：
hive-DML语法(超级详细) 研发咨询顾问核心库-大数据 hive hadoop 数据仓库
N.0变量使用setwindow_day=50--定义变量select${hiveconf:window_day}--使用变量N.1单表查询语句N.1.1语法
Hive SQL 优化大数据侠客大数据相关技术文档总结 hive sql 性能优化
标题一、HIVESQL执##标题行顺序了解hivesql的执行顺序，有助于写出更高质量的代码。第一步：确定数据源，进行表的查询和加载from(left/right/inner/outner)joinon第二步：过滤数据，进行条件筛选wheregroupbyhaving第三步：查询数据select第四步：显示数据distinctorderbylimitunion/unionallSql:select
Hive--桶表 XK&RM Hive hive
目录1.为什么要使用桶表？？？2.桶表分桶规则3.桶表的创建3.1DLL3.2数据3.3DML3.4查看桶表里面的数据3.5临时表创建并加载数据3.6把临时表的数据加载到桶表里面4.桶表的查询4.1桶表查询全表的数据4.2桶表查看第一个桶里面的数据4.3查看第二个桶里面的数据4.4查看第三个桶里面的数据4.5查看桶表固定行数据4.6桶表查询语法4.7其他查询5桶表、分区表的区别6两个桶表之间的Jo
HIVE的执行计划实操不爱学习的小枫大数据 hive 大数据
什么是执行计划所谓执行计划，顾名思义，就是对一个查询任务（sql），做出一份怎样去完成任务的详细方案。举个生活中的例子，我从上海要去新疆，我可以选择坐飞机、坐高铁、坐火车，甚至于自驾。具体到线路更是五花八门，现在我准备选择自驾了，具体什么路线怎样去划算（时间&费用），这是一件值得考究的事情。HIVE（我们的自驾工具）提供了EXPLAIN命令来展示一个查询的执行计划（什么路线）,这个执行计划对于我们
hive alter table add columns 是否使用 cascade 的方案 houzhizhen hive hive
结论altertablexxxaddcolumns时加上cascade时，会把所有的分区都加上此字段。如果不加则只有新的分区会加上此字段，旧的分区没有此字段，即便数据文件里有对应的数据，也不能显示内容。如果分区都是insertoverwrite生成的，并且旧分区的数据不再重新生成，可以在addcolumns不用cascade，这样旧的分区对应的列显示null。新的分区正常显示新增的列。如果分区都是
Hive Exception: Too many counters: 2001 max=2000 的解决方法 houzhizhen hive hive hadoop big data
在hive任务的执行过程中，可能出现Toomanycounters的异常。如果执行引擎时tez，则说明当前作业的counters数量超过tez默认的counters限制。Exception:Toomanycounters:2001max=2000atorg.apache.tez.common.counters.Limits.checkCounters(Limits.java:88)atorg.ap
Hive 3.1 在 metastore 运行的 remote threads houzhizhen hive hive hadoop 数据仓库
Remotethreads是仅当Hivemetastore作为单独的服务运行是启动，请求需要开启compactor。有以下几种：1.AcidOpenTxnsCounterService统计当前open的事务数从表TXNS中统计状态为open的事务。此事务数量可以再hivemetrics中。2.AcidHouseKeeperService定期调用txnHandler.performTimeOuts(
通过spark-redshift工具包读取redshift上的表 stark_summer spark spark redshift parquet api 数据
spark数据源API在spark1.2以后，开始提供插件诗的机制，并与各种结构化数据源整合。spark用户可以读取各种各样数据源的数据，比如Hive表、JSON文件、列式的Parquet表、以及其他表。通过spark包可以获取第三方数据源。而这篇文章主要讨论spark新的数据源，通过spark-redshift包，去访问AmazonRedshift服务。spark-redshift包主要由Dat
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

Hive--行转列/列转行

行转列/列转行

一、lateral view

案例1：与explode连用

案例2：与parse_url_tuple连用

二、explode

三、行列转换

行转列

多行转多列

多行转单列

列转行

多列转多行

单列转多行

你可能感兴趣的:(#,Hive函数,hive)