_七七

Hive3.x数仓开发

文章目录

一、数仓仓库概念
二、数据仓库分层架构
- ODS\DW\DA(ADS)
- ETL\ELT
三、Apache Hive 概述
- 为什么使用Hive
- Hive和Hadoop关系
四、Apache Hive架构、组件
- 组件
五、Apache Hive数据模型
- Data Model概念
- Databases数据库
- Partitions分区
- Buckets分桶
- Hive和MySQL对比
六、元数据
- Hive Metadata
- Hive Metastore
七、Metastore配置方式
- 内嵌模式
- 本地模式
远程模式
八、Hive部署
- 安装前准备
- Hadoop与Hive整合
- 内嵌模式
- 本地模式
- - mysql安装
  - Hive安装
  - 配置hive-site.xml
- 远程模式安装
- - 配置hive-site.xml
- 远程模式Meatstore
九、Hive命令行客户端
- bin/hive Client
- bin/beeline Client
十、HIve SQL DDL相关
- 10.1 Hive数据类型
- - 原生数据类型
  - 复杂数据类型
  - 隐式转换
  - 显示转换
- 10.2 Hive读写文件机制
- - SerDe是什么
  - SerDe相关语法
  - LazysimpleserDe分隔符指定
- 10.3 Hive默认分隔符
- 10.4 Hive数据存储路径
- - 指定存储路径
- 10.5 Hive建表且上传文件
- - 复杂数据类型
  - location指定表路径
- 10.6 Hive 内外部表
- - 内部表
  - 外部表
  - 内、外部表差异
  - 如何选择内、外部表
  - Location关键字的作用
- 10.7 Hive Partitioned Tables 分区表
- - 概念
  - 语法树
  - 分区表数据加载--静态分区
  - - 本质
  - 多重分区表
  - 分区表数据加载--动态分区
  - 分区表的注意事项
- 10.8 Hive Bucketed Tables分桶表
- - 概念
  - 规则
  - 完整语法树
  - 语法
  - 分桶表的创建
  - 分桶表的数据加载
  - 使用好处
- 10.9 Hive Transactional Tables事务表
- - Hive事务背景知识
  - 局限性
  - 创建事务表
- 10.10 Hive Views 视图
- - 概念
  - 创建视图的好处
- 10.11 Hive3.0新特性：Materialized Views 物化视图
- - 概念
  - 物化视图、视图区别
  - 语法
  - 基于物化视图的查询重写
十一、Hive Database | Schema(数据库)DDL操作
- 11.1 create database 创建数据库
- 11.2 describe database 描述数据库
- 11.3 use database 切换数据库
- 11.4 drop database 删除数据库
- 11.5 alert database 修改数据库
十二、Hive Table 表的 DDL操作
- 12.1 整体概述
- 12.2 describe table
- 12.3 drop table
- 12.4 truncate table 清空表
- 12.5 alter table
十三、Hive Partition (分区) DDL操作
- 13.1 add partition
- 13.2 rename partition
- 13.3 delete partition
- 13.4 alter partition
- 13.5 MSCK partition
- - - 案例 Hive MSCK 修复partition
十四、Hive SHOW语法
十五、HiveSQL数据操控、查询语言（DML、DQL ) 对数据进行增删改查操作
- 15.1 Hive SQL-DML-Load 加载数据
- - 功能
  - 语法规则
  - 语法规则之filepath
  - LOCAL本地是哪里?
  - 语法规则之OVERWRITE
  - 本地加载（复制操作）
  - 非本地加载（mv移动动作）
- 15.2 Hive SQL-DML-Insert 插入数据
- - 1、Hive 3.0新特性 insert as select
  - 2、 insert的使用方式
  - 3、Hive官方推荐加载数据的方式︰
  - 4、insert+select
  - 5、multiple inserts多重插入
  - 6、dynamic partition insert动态分区插入
  - 7、insert Directory导出数据
- 15.3 Hive Transaction 事务表
- - 1、Hive事务背景知识
  - 2、实现原理
  - 3、实现原理之delta文件夹命名格式
  - 4、实现原理
  - 5、合并器(Compactor)
  - 6、事务表参数限制和使用设置
- 15.4 Hive SQL-DML-Update更新、Delete删除数据
- 15.5 Hive SQL-DQL-Select 查询数据
- - 1、基础语法
  - - > SELECT 、正则
    - > ALL、DISTINCT
    - > WHERE
    - > 分区查询、分区裁剪
    - > GROUP BY
    - > HAVING
    - > HAVING与WHERE区别
    - > LIMIT
    - 执行顺序
  - 2、高阶语法
  - - > ORDER BY
    - > CLUSTER BY
    - > DISTRIBUTE BY + SORT BY
    - > CLUSTER、DISTRIBUTE、SORT、ORDER BY
    - > Union联合查询
    - > FROM子句中子查询( Subqueries )
    - > Common Table Expressions ( CTE )CTE表达式
- 15.6 Hive SQL Join 连接操作
- - 1、Hive Join语法规则
  - - > inner join内连接
    - > left join左连接
    - > right join右连接
    - > full outer join全外连接
    - > left semi join左半开连接
    - > cross join交叉连接
  - 2、Hive Join使用注意事项
十六、Hive内置运算符
- 16.1 关系运算符
- - - is null \ is not null 空值判断
  - - like \ not A like B \ rlike
  - - rlike 等同于 regexp
  - - regexp
- 16.2 算术运算符
- - - 取整操作 div
  - - 取余操作 %
  - - 位与操作 &
  - - 位或操作 |
  - - 位异或操作 ^
- 16.3 逻辑运算符
- - 与操作
  - 或操作
  - 非操作
  - 在
  - 不在
  - 逻辑是否存在 EXISTS
- 16.3 字符串、复杂类型构造、复杂类型取值运算符
- - 字符串 || concat运算
  - 复杂类型构造运算符
  - 复杂类型取值操作
十七、Hive Functions函数入门
- 概述
- 分类标准
- 用户定义函数UDF分类标准
- UDF分类标准扩大化
- 内置函数
- - ( 1/8 ) string Functions字符串函数
  - ( 2/8 ) Date Functions日期函数
  - ( 3/8 ) Mathematical Functions数学函数
  - ( 4/8 ) collection Functions集合函数
  - ( 5/8 ) conditional Functions条件函数
  - ( 6/8 ) Type conversion Functions类型转换函数
  - ( 7/8 ) Data Masking Functions数据脱敏函数
  - ( 8/8 ) Misc. Functions其他杂项函数

一、数仓仓库概念

数据仓库（英语:Data Warehouse，简称数仓、DW ) ，是一个用于存储、分析、报告的数据系统。

数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持( Decision Support ) 。

二、数据仓库分层架构

ODS\DW\DA(ADS)

ETL\ELT

三、Apache Hive 概述

为什么使用Hive

Hive和Hadoop关系

四、Apache Hive架构、组件

组件

用户接口
包括CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。

五、Apache Hive数据模型

Data Model概念

数据模型︰用来描述数据、组织数据和对数据进行操作，是对现实世界数据特征的描述。
Hive的数据模型类似于RDBMS库表结构，此外还有自己特有模型。
Hive中的数据可以在粒度级别上分为三类：
Table表
Partition分区
Bucket分桶

Databases数据库

Hive作为一个数据仓库，在结构上积极向传统数据库看齐，也分数据库（Schema )，每个数据库下面有各自的表组成。默认数据库default。
Hive的数据都是存储在HDFS上的，默认有一个根目录，在hive-site.xml中，由参数hive.metastore.warehouse.dir指定。默认值为/user/hive/warehouse。
Hive中的数据库在HDFS上的存储路径为︰
$ {hive.metastore.warehouse.dir} / databasename.db

Partitions分区

Partition分区是hive的一种优化手段表。分区是指根据分区列（例如“日期day”)的值将表划分为不同分区。这样可以更快地对指定分区数据进行查询。

分区在存储层面上的表现是：
table表目录下以子文件夹形式存在。
一个文件夹表示一个分区。子文件命名标准∶分区列=分区值
Hive还支持分区下继续创建分区，所谓的多重分区。

Buckets分桶

Bucket分桶表是hive的一种优化手段表。分桶是指根据表中字段（例如“编号ID”)的值，经过hash计算规则将数据文件划分成指定的若干个小文件。
分桶规则: hashfunc(字段) % 桶个数，余数相同的分到同一个文件。

Hive和MySQL对比

Hive虽然具有RDBMS数据库的外表，包括数据模型、SQL语法都十分相似，但应用场景却完全不同。

Hive只适合用来做海量数据的离线分析。

Hive的定位是数据仓库，面向分析的OLAP系统

Hive不是大型数据库，也不是要取代MySQLi承担业务数据处理。

六、元数据

元数据( Metadata )，又称中介数据、中继数据，为描述数据的数据(data about data )，主要是描述数据属性( property )的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

Hive Metadata

Hive Metadata即Hive的元数据。

包含用Hive创建的database、table、表的位置、类型、属性，字段顺序类型等元信息。
元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等。

Hive Metastore

Metastore即元数据服务。Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通过连接metastore服务，由metastore再去连接MySQL数据库来存取元数据。
有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。某种程度上也保证了hive元数据的安全。

七、Metastore配置方式

概述

metastore服务配置有3种模式∶内嵌模式、本地模式、远程模式。
区分3种配置方式的关键是弄清楚两个问题：
Metastore服务是否需要单独配置、单独启动?
Metadata是存储在内置的derby中，还是第三方RDBMS，比如MySQL。

内嵌模式

内嵌模式(Embedded Metastore )是metastore默认部署模式。

此种模式下，元数据存储在内置的Derby数据库，并且Derby数据库和metastore服务都嵌入在主HiveServer进程中，当启动HiveServer进程时，Derby和metastore都会启动。
不需要额外起Metastore服务。

但是一次只能支持一个活动用户，适用于测试体验，不适用于生产环境。

本地模式

本地模式( Local Metastore)下，Metastore服务与主HiveServer进程在同一进程中运行，但是存储元数据的数据库在单独的进程中运行，并且可以在单独的主机上。metastore服务将通过JDBC与metastore数据库进行通信。
本地模式采用外部数据库来存储元数据，推荐使用MySQL。
hive根据hive.metastore.uris参数值来判断，如果为空，则为本地模式。
缺点是∶每启动一次hive服务，都内置启动了一个metastore。

远程模式

远程模式(Remote Metastore )下，Metastore服务在其自己的单独JVM上运行，而不在HiveServer的JVM中运行。如果其他进程希望与Metastore服务器通信，则可以使用Thrift Network API进行通信。
远程模式下，需要配置hive. metastore.uris参数来指定metastore服务运行的机器ip和端口，并且需要单独手动启动metastore服务。元数据也采用外部数据库来存储元数据，推荐使用MySQL。
在生产环境中，建议用远程模式来配置Hive Metastore。在这种情况下，其他依赖hive的软件都可以通过Metastore访问hive。由于还可以完全屏蔽数据库层，因此这也带来了更好的可管理性/安全性。

八、Hive部署

安装前准备

由于Apache Hive是一款基于Hadoop的数据仓库软件，通常部署运行在Linux系统之上。因此不管使用何种方式配Hive Metastore，必须要先保证服务器的基础环境正常，Hadoop集群健康可用。
服务器基础环境
集群时间同步、防火墙关闭、主机Host映射、免密登录、JDK安装
Hadoop集群健康可用
启动Hive之前必须先启动Hadoop集群。特别要注意，需等待HDFS安全模式关闭之后再启动运行Hive。Hive不是分布式安装运行的软件，其分布式的特性主要借由Hadoop完成。包括分布式存储、分布式计算。

Hadoop与Hive整合

因为Hive需要把数据存储在HDFS上，并且通过MapReduce作为执行引擎处理数据;因此需要在Hadoop中添加相关配置属性，以满足Hive在Hadoop上运行。

修改Hadoop中core-site.xml，并且Hadoop集群同步配置文件，重启生效。

<property>
    <name>hadoop.proxyuser.root.hostsname>
    <value>*value>
property>

<property>
    <name>hadoop.proxyuser.root.groupsname>
property>

Hive下载   hive-3.1.2/   
https://dlcdn.apache.org/hive/

内嵌模式

只适合测试数据不共享

总体步骤：

#上传解压安装包
cd /export/server/
tar zxvf apache-hive-3.1.2-bin.tar.gz
mv apache-hive-3.1.2-bin hive

#解决hadoop hive之间guava版本差异
cd /export/ server/hive
rm -rf lib/guava-19.0.jar
cp /export/server/hadoop-3.1.4/share/hadoop/common/lib/guava-27.0-jre.jar ./lib/

#修改hive坏环境变量文件添加Hadoop_HOME
cd /export/server/hive/conf/
mv hive-env.sh.template hive-env.sh
vim hive-env.sh
export HADOOP_HOME=/export/server/hadoop-3.1.4
export HIVE_CONF_DIR=/export/server/hive/conf
export HIVE_AUX_JARS_PATH=/export/server/hive/lib

#初始化metadata
cd /export/server/hive
bin/ schematool -dbType derby -initschema

#启动hive服务
bin/hive

解压hive

解决版本冲突

[root@hadoop102 hive312]# cp /opt/module/hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar ./lib/

修改环境变量

[root@hadoop102 conf]# cd ../conf
[root@hadoop102 conf]# mv hive-env.sh.template hive-e
hive-env.sh.template                  hive-exec-log4j2.properties.template  
[root@hadoop102 conf]# mv hive-env.sh.template hive-env.sh
[root@hadoop102 conf]# vim hive-env.sh

初始化metadate

[root@hadoop102 hive312]# bin/schematool -dbType derby -initSchema

启动hive服务

[root@hadoop102 bin]# cd /opt/software/hive312/
[root@hadoop102 hive312]# bin/hive

本地模式

mysql安装

Hive安装

配置hive-site.xml

不管哪里启动hive 都是访问mysql

远程模式安装

配置hive-site.xml

远程模式Meatstore

远程模式特点元数据单独存储元数据服务单独启动

九、Hive命令行客户端

bin/hive Client

其他机器访问

bin/beeline Client

十、HIve SQL DDL相关

10.1 Hive数据类型

原生数据类型

复杂数据类型

注意事项

Hive SQL中，数据类型英文字母大小写不敏感；
除SQL数据类型外，还支持Java数据类型，比如字符串string；
复杂数据类型的使用通常需要和分隔符指定语法配合使用；
如果定义的数据类型和文件不一致，Hive会尝试隐式转换，但是不保证成功。

隐式转换

与标准SQL类似，HQL支持隐式和显式类型转换。
原生类型从窄类型到宽类型的转换称为隐式转换，反之，则不允许。
下表描述了类型之间允许的隐式转换︰

显示转换

显式类型转换使用CAST函数。
例如，CAST ( '100' as INT )会将100字符串转换为100整数值。
如果强制转换失败，例如CAST ( ‘Allen'as INT )，该函数返回NULL。

10.2 Hive读写文件机制

SerDe是什么

SerDe是Serializer、Deserializer的简称，目的是用于序列化和反序列化

序列化是对象转化为字节码的过程 ; 而反序列化是字节码转换为对象的过程。

Hive使用SerDe(包括FileFormat )读取和写入表行对象。

需要注意的是，“key”部分在读取时会被忽略，而在写入时key始终是常数。基本上行对象存储在“value”中。

可以通过desc formatted tablename查看表的相关SerDe信息。默认如下:

Hive读取文件机制︰首先调用InputFormat （默认TextInputFormat )，返回一条一条kv键值对记录（默认是一行对应一条键值对)。然后调用Serbe（默认LazySimpleSerDe )的Deserializer，将一条记录中的value根据分隔符切分为各个字段。
Hive写文件机制∶将Row写入文件时，首先调用SerDe (默认LazySimpleSerDe )的Serializer将对象转换成字节序列，然后调用OutputFormat将数据写入HDFS文件中。

ROW FORMAT这一行所代表的是跟读写文件、序列化SerDe相关的语法，功能有二︰

使用哪个SerDe类进行序列化；
如何指定分隔符。

SerDe相关语法

ROW FORMAT这一行所代表的是跟读写文件、序列化SerDe相关的语法，功能有二︰

使用哪个SerDe类进行序列化；
如何指定分隔符。

其中ROW FORMAT是语法关键字，DELIMITED和SERDE二选其一。

如果使用delimited表示使用默认的LazySimpleSerDe类来处理数据。
如果数据文件格式比较特殊可以使用ROW FORMAT SERDE serde_name指定其他的Serde类来处理数据，甚至支持用户自定义SerDe类。

LazysimpleserDe分隔符指定

LazySimpleSerDe是Hlive默认的序列化类，包含4种子语法，分别用于指定字段之间、集合元素之间、map映射 kv之间、换行的分隔符号。
在建表的时候可以根据数据的特点灵活搭配使用。

10.3 Hive默认分隔符

Hive建表时如果没有row format语法指定分隔符，则采用默认分隔符；

默认的分割符是’ \001’，是一种特殊的字符，使用的是ASCII编码的值，键盘是打不出来的。

在vim编辑器中，连续按下Ctrl+v/Ctrl+a即可输入'\001'，显示^A

在一些文本编辑器中将以SOH的形式显示：

10.4 Hive数据存储路径

Hive表默认存储路径是由${HIVE_HOME}/conf/hive-site.xml配置文件的hive.metastore.warehouse.dir属性指定，默认值是︰/user/hive/warehouse。

指定存储路径

在Hive建表的时候，可以通过location语法来更改数据在HDFS上的存储路径，使得建表加载数据更加灵活方便。
语法∶LOCATION ''。
对于已经生成好的数据文件，使用location指定路径将会很方便。

row formate delimited
fileds terminated by ",";

10.5 Hive建表且上传文件

DROP TABLE IF EXISTS tmp_test_20220418;

CREATE table if not exists tmp_test_20220418(

    id int comment 'id',
    name string comment 'name'

)
row format delimited
fileds terminated by ',';

建表成功之后，在Hive的默认存储路径下就生成了表对应的文件夹
把archer.txt文件上传到对应的表文件夹下。

hadoop fs -put /root/hivedata/archer.txt /user/hive/warehouse/mytest.db/tmp_test_20220418

执行查询操作，可以看出数据已经映射成功。
核心语法：row format delimited fields terminated by指定字段之间的分隔符。

复杂数据类型

例如：前3个字段原生数据类型、最后一个字段复杂类型map。

需要指定字段之间分隔符、集合元素之间分隔符、map kv之间分隔符。

CREATE table tmp_test_20220418(
    id int,
    name string,
    win_rate int,
    skin_price map<string,int>
)row format delimited
field terminated by ',' -- 指定字段之间的分隔符
collection items terminated by '-' --指定集合元素之间的分隔符
map keys terminated by ':' --指定map元素kv之间的分隔符

location指定表路径

CREATE table if not exists tmp_test_20220418(

    id int comment 'id',
    name string comment 'name'

)
LOCATION '/data';--使用location关键字指定表数据在hdfs上的存储路径

10.6 Hive 内外部表

完整语法树

内部表

内部表( Internal table )也称为被Hive拥有和管理的托管表(Managed table )。

默认情况下创建的表就是内部表，Hive拥有该表的结构和文件。
换句话说，Hive完全管理表（元数据和数据）的生命周期，类似于RDBMS中的表。
当您删除内部表时，它会删除数据以及表的元数据。

可以使用DESCRIBE FORMATTED tablename，来获取表的元数据描述信息，从中可以看出表的类型。

外部表

外部表（External table )中的数据不是Hive拥有或管理的，只管理表元数据的生命周期。
要创建一个外部表，需要使用EXTERNAL语法关键字。
删除外部表只会删除元数据，而不会删除实际数据。
在Hive外部仍然可以访问实际数据。
实际场景中，外部表搭配location语法指定数据的路径，可以让数据更安全。

内、外部表差异

无论内部表还是外部表，Hive都在Hlive Metastore中管理表定义、字段类型等元数据信息。
删除内部表时，除了会从Metastore中删除表元数据，还会从HDFS中删除其所有数据文件。
删除外部表时，只会从Metastore中删除表的元数据，并保持HDFS位置中的实际数据不变。

如何选择内、外部表

当需要通过Hive完全管理控制表的整个生命周期时，请使用内部表。
当数据来之不易，防止误删，请使用外部表，因为即使删除表，文件也会被保留。

Location关键字的作用

在创建外部表的时候，可以使用location指定存储位置路径，如果不指定会如何?
如果不指定location，外部表的默认路径也是位于/user/hive/warehouse，由默认参数控制。·创建内部表的时候，是否可以使用location指定?
内部表可以使用location指定位置的。
·是否意味着Hive表的数据在HDFS上的位置不是一定要在/user/hive/warehouse下?
不一定，Hive中表数据存储位置，不管内部表还是外部表，默认都是在/user/hive/warehouse，当然可以在建表的时候通过location关键字指定存储位置在HDFS的任意路径。

10.7 Hive Partitioned Tables 分区表

概念

当Hive表对应的数据量大、文件个数多时，为了避免查询时全表扫描数据，Hive支持根据指定的字段对表进行分区，分区的字段可以是日期、地域、种类等具有标识意义的字段。
比如把一整年的数据根据月份划分12个月( 12个分区），后续就可以查询指定月份分区的数据，尽可能避免了全表扫描查询。

语法树

分区字段不能和表中字段重复

分区表数据加载–静态分区

所谓静态分区指的是分区的属性值是由用户在加载数据的时候手动指定的。
语法如下：

load data [local] inpath 'filepath' into table tablename partition(分区字段 = '分区值'...);

Local参数用于指定待加载的数据是位于本地文件系统还是HDFS文件系统。

本质

外表上看起来分区表好像没多大变化，只不过多了一个分区字段。
实际上分区表在底层管理数据的方式发生了改变。这里直接去HDFS查看区别。

多重分区表

通过建表语句中关于分区的相关语法可以发现，Hive支持多个分区字段∶PARTITIONED BY (partitionl data_type，partition2 data_type，…)。
多重分区下，分区之间是一种递进关系，可以理解为在前一个分区的基础上继续分区。
从HDFS的角度来看就是文件夹下继续划分子文件夹。比如∶把全国人口数据首先根据省进行分区，然后根据市进行划分，如果你需要甚至可以继续根据区县再划分，此时就是3分区表。

分区表数据加载–动态分区

所谓动态分区指的是分区的字段值是基于查询结果（参数位置）自动推断出来的。
核心语法就是insert+select。
启用hive动态分区，需要在hive会话中设置两个参数︰

分区表的注意事项

一、分区表不是建表的必要语法规则，是一种优化手段表，可选；
二、分区字段不能是表中已有的字段，不能重复；
三、分区字段是虚拟字段，其数据并不存储在底层的文件中；
四、分区字段值的确定来自于用户价值数据手动指定（静态分区）或者根据查询结果位置自动推断（动态分区)
五、Hive支持多重分区，也就是说在分区的基础上继续分区，划分更加细粒度。

10.8 Hive Bucketed Tables分桶表

概念

分桶表也叫做桶表，bucket，是一种用于优化查询而设计的表类型。
分桶表对应的数据文件在底层会被分解为若干个部分，通俗来说就是被拆分成若干个独立的小文件。
在分桶时，要指定根据哪个字段将数据分为几桶(几个部分）。

规则

分桶规则如下∶桶编号相同的数据会被分到同一个桶当中。
hash_function取决于分桶字段bucketing_column的类型：
1.如果是int类型，hash_function(int) == int；
2.如果是其他比如bigint，string或者复杂数据类型，hash_function比较棘手，将是从该类型派生的某个数字，比如hashcode值。

完整语法树

语法

CLUSTERED BY (col_name)表示根据哪个字段进行分；
INTO N BUCKETS表示分为几桶(也就是几个部分）。
需要注意的是，分桶的字段必须是表中已经存在的字段。

分桶表的创建

根据state州把数据分为5桶，建表语句如下∶
在创建分桶表时，还可以指定分桶内的数据排序规则：

分桶表的数据加载

使用好处

(1/3)基于分桶字段查询时，减少全表扫描
(2/3）JOIN时可以提高MR程序效率，减少笛卡尔积数量根据join的字段对表进行分桶操作
（比如下图中id是join的字段)
(3/3)分桶表数据进行高效抽样
当数据量特别大时，对全体数据进行处理存在困难时，抽样就显得尤其重要了。
抽样可以从被抽取的数据中估计和推断出整体的特性，是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。

10.9 Hive Transactional Tables事务表

Hive事务背景知识

Hive本身从设计之初时，就是不支持事务的，因为llive的核心目标是将已经存在的结构化数据文件映射成为表，然后提供基于表的SQL分析处理，是一款面向分析的工具。且映射的数据通常存储于HDFS上，而HDFS是不支持随机修改文件数据的。
这个定位就意味着在早期的Hive的SQL语法中是没有update，delete操作的，也就没有所谓的事务支持了，因为都是select查询分析操作。
从Hive0.14版本开始，具有ACID语义的事务已添加到Hive中，以解决以下场景下遇到的问题
尺寸变化缓慢
星型模式数据仓库中，维度表随时间缓慢变化。例如，零售商将开设新商店，需要将其添加到商店表中，或者现有商店可能会更改其平方英尺或某些其他跟踪的特征。这些更改导致需要插入单个记录或更新单条记录(取决于所选策略）。
数据重述
有时发现收集的数据不正确，需要更正。

局限性

虽然Hive支持了具有ACID语义的事务，但是在使用起来，并没有像在MySQL中使用那样方便，有很多局限性。原因很简单，毕竟Hive的设计目标不是为了支持事务操作，而是支持分析操作，且最终基于HDFs的底层存储机制使得文件的增加删除修改操作需要动一些小心思。
一、尚不支持 BEGIN ，COMMIT 和 ROLLBACK 。所有语言操作都是自动提交的。
二、仅支持ORC文件格式 (STORED AS ORC )。
三、默认情况下事务配置为关闭。需要配置参数开启使用。
四、表必须是分桶表( Bucketed )才可以使用事务功能。
五、表参数transactional 必须为 true。
六、外部表不能成为ACID表，不允许从非ACID会话读取/写入ACID表。

创建事务表

并没有对文件修改只是对文件进行删除标记，使文件不能被查询。

10.10 Hive Views 视图

概念

Hive中的视图( view )是一种虚拟表，只保存定义，不实际存储数据。
通常从真实的物理表查询中创建生成视图，也可以从已经存在的视图上创建新视图。
创建视图时，将冻结视图的架构，如果删除或更改基础表，则视图将失败。
视图是用来简化操作的，不缓冲记录，也没有提高查询性能。

创建视图的好处

1、将真实表中特定的列数据提供给用户，保护数据隐私

2、降低查询的复杂度，优化查询语句

10.11 Hive3.0新特性：Materialized Views 物化视图

概念

物化视图( Materialized View )是一个包括查询结果的数据库对像，可以用于预先计算并保存表连接或聚集等耗时较多的操作的结果。
在执行查询时，就可以避免进行这些耗时的操作，而从快速的得到结果。
使用物化视图的目的就是通过预计算，提高查询性能，当然需要占用一定的存储空间。
Hive3.0开始尝试引入物化视图，并提供对于物化视图的查询自动重写机制（基于Apache Calcite实现）。
Hive的物化视图还提供了物化视图存储选择机制，可以本地存储在Hive，也可以通过用户自定义storage handlers存储在其他系统( 如Druid )。
Hive引入物化视图的目的就是为了优化数据查询访问的效率，相当于从数据预处理的角度优化数据访问。
Hive从3.0丢弃了index索引的语法支持，推荐使用物化视图和列式存储文件格式来加快查询的速度。

物化视图、视图区别

视图是虚拟的，逻辑存在的，只有定义没有存储数据。
物化视图是真实的，物理存在的，里面存储着预计算的数据。
物化视图能够缓存数据，在创建物化视图的时候就把数据缓存起来了，Hive把物化视图当成一张“表”，将数据缓存。而视图只是创建一个虚表，只有表结构，没有数据，实际查询的时候再去改写SQL去访问实际的数据表。
视图的目的是简化降低查询的复杂度，而物化视图的目的是提高查询性能。

语法

(1) 物化视图创建后，select查询执行数据自动落地，“自动”也即在query的执行期间，任何用户对该物化视图是不可见的，执行完毕之后物化视图可用；
(2) 默认情况下，创建好的物化视图可被用于查询优化器optimizer查询重写，在物化视图创建期间可以通过DISABLEREWRITE参数设置禁止使用。

(3）默认SerDe和storage format为hive.materializedview.serde、hive.materializedview.fileformat ;
(4）物化视图支持将数据存储在外部系统（如druid )，如下述语法所示:

(5）目前支持物化视图的drop和show操作，后续会增加其他操作

( 6 ）当数据源变更（新数据插入inserted、数据修改modified )，物化视图也需要更新以保持数据一致性，目前需要用户主动触发rebuild重构。

基于物化视图的查询重写

物化视图创建后即可用于相关查询的加速，即∶用户提交查询query，若该query经过重写后可以命中已经存在的物化视图，则直接通过物化视图查询数据返回结果，以实现查询加速。
是否重写查询使用物化视图可以通过全局参数控制，默认为true :
hive.materializedview.rewriting=true;
用户可选择性的控制指定的物化视图查询重写机制，语法如下:

代码：

十一、Hive Database | Schema(数据库)DDL操作

整体概述

在Hive中，DATABASE的概念和RDBMS中类似，我们称之为数据库，DATABASE和SCHEMA是可互换的都可以使用。
默认的数据库叫做default，存储数据位置位于/user/hive/warehouse下。
用户自己创建的数据库存储位置是/user/hive/warehouse/database_name.db下。

11.1 create database 创建数据库

create database用于创建新的数据库

COMMENT：数据库的注释说明语句
LOCATION：指定数据库在HDFS存储位置，默认/user/hive/warehouse/dbname. db
WITH DBPROPERTIES∶用于指定一些数据库的属性配置。

11.2 describe database 描述数据库

describe database

显示Hive中数据库的名称，注释(如果已设置）及其在文件系统上的位置等信息。
EXTENDED关键字用于显示更多信息。
可以将关键字describe简写成desc使用。

11.3 use database 切换数据库

use database

选择特定的数据库
切换当前会话使用哪一个数据库进行操作

11.4 drop database 删除数据库

drop database

删除数据库
默认行为是RESTRICT，这意味着仅在数据库为空时才删除它。
要删除带有表的数据库(不为空的数据库），我们可以使用CASCADE。

11.5 alert database 修改数据库

十二、Hive Table 表的 DDL操作

12.1 整体概述

Hive中针对表的DDL操作可以说是DDL中的核心操作，包括建表、修改表、删除表、描述表元数据信息。
其中以建表语句为核心中的核心，详见Hive DDL建表语句。
可以说表的定义是否成功直接影响着数据能够成功映射，进而影响是否可以顺利的使用Hive开展数据分析。
由于Hive建表之后加载映射数据很快，实际中如果建表有问题，可以不用修改，直接删除重建。

12.2 describe table

显示Hive中表的元数据信息

describe formatted table_name;

如果指定了EXTENDED关键字，则它将以Thrift序列化形式显示表的所有元数据。
如果指定了FORMATTED关键字，则它将以表格格式显示元数据。

12.3 drop table

drop table

删除该表的元数据和数据
如果已配置垃圾桶且未指定PURGE，则该表对应的数据实际上将移动到HDFS垃圾桶，而元数据完全丢失。删除EXTERNAL表时，该表中的数据不会从文件系统中删除，只删除元数据。
如果指定了PURGE，则表数据跳过HDFS垃圾桶直接被删除。因此如果DROP失败，则无法挽回该表数据。

12.4 truncate table 清空表

truncate table

从表中删除所有行。
可以简单理解为清空表的所有数据但是保留表的元数据结构。如果HDFS启用了垃圾桶，数据将被丢进垃圾桶，否则将被删除。

12.5 alter table

十三、Hive Partition (分区) DDL操作

Hive中针对分区Partition的操作主要包括∶
增加分区、删除分区、重命名分区、修复分区、修改分区。

13.1 add partition

ADD PARTITION会更改表元数据，但不会加载数据。如果分区位置中不存在数据，查询时将不会返回结果。
因此需要保证增加的分区位置路径下，数据已经存在，或者增加完分区之后导入分区数据

13.2 rename partition

13.3 delete partition

删除表的分区。这将删除该分区的数据和元数据。

13.4 alter partition

13.5 MSCK partition

Hive将每个表的分区列表信息存储在其metastore中。但是，如果将新分区直接添加到HDFS（例如通过使用 hadoopfs -put 命令 )或从HDFS中直接删除分区文件夹，则除非用户ALTER TABLE table_name ADD/DROP PARTITION在每个新添加的分区上运行命令，否则metastore ( 也就是Hive )将不会意识到分区信息的这些更改。
MSCK是metastore check的缩写，表示元数据检查操作，可用于元数据的修复。

MSCK默认行为ADD PARTITIONS，使用此选项，它将把HDFS上存在但元存储中不存在的所有分区添加到metastore。
DROP PARTITIONS选项将从已经从HDFS中删除的metastore中删除分区信息。
SYNC PARTITIONS选项等效于调用ADD和DROP PARTITIONS。
如果存在大量未跟踪的分区，则可以批量运行MSCK REPAIR TABLE，以避免OOME(内存不足错误

案例 Hive MSCK 修复partition

example 1 ：创建一张分区表，直接使用HDFS命令在表文件夹下创建分区文件夹并上传数据，此时在Hive中
查询是无法显示表数据的，因为metastore中没有记录，使用MSCK ADD PARTITIONS进行修复。

example 2 ：针对分区表，直接使用HDFS命令删除分区文件夹，此时在Hive中查询显示分区还在，因为
metastore中还没有被删除，使用MSCK DROP PARTITIONS进行修复。

十四、Hive SHOW语法

Show相关的语句提供了一种查询Hive metastore的方法。可以帮助用户查询相关信息。
比如我们最常使用的查询当前数据库下有哪些表show tables。


--1、显示所有数据库SCHEMAS.和DATABASES的用法功能一样
show databases;
show schemas;

--2、显示当前数据库所有表/视图/物化视图/分区/索引
show tables;
SHOW TABLES [IN database_name] ; --指定某个数据库

3、显示当前数据库下所有视图
show VIEWS;
shoW VIEWS 'test_* '; -- show dll views that start with "test_"
SHoW VIEWS FROM test1; -- show views from database test1
show VIEWS [IN/FROM database_name];

--4、显示当前数据库下所有物化视图
SHOW MATERIALIZED VIEWS [IN/FROM database_name];

--5、显示表分区信息，分区按字母顺序列出，不是分区表执行该语句会报错
show partitions table_name;

--6、显示表/分区的扩展信息
SHOW TABLE EXTENDED [INIFROM database_name] LIKE table_name;
show table extended like student;

--7、显示表的属性信息
SHOW TBLPROPERTIES table_name;
show tblproperties student;

--8、显示表、视图的创建语句
SHoW CREATE TABLE ([db_name.]table_name|view_name);
show create table student;

--9、显示表中的所有列，包括分区列。
show COLUANS (FROM|IN) table_name [(FROM|IN) db_name];
show columns in student;

--10、显示当前支持的所有自定义和内置的函数
show functions; 

--11、Describe desc
--查看表信息
desc extended table_name;
--查看表信恳（格式化美观）
desc formatted table_name;
--查看数据库相关信息
describe database database_name;

十五、HiveSQL数据操控、查询语言（DML、DQL ) 对数据进行增删改查操作

15.1 Hive SQL-DML-Load 加载数据

不管路径在哪里，只有把数据文件移动到对应的表文件夹下面，Hive才能映射解析成功
最原始暴力的方式就是使用hadoop fs -put | -mv 等方式直接将数据移动到表文件夹下
但是，Hive官方推荐使用Load命令将数据加载到表中。

功能

Load英文单词的含义为∶加载、装载;
所谓加载是指︰将数据文件移动到与Hive表对应的位置，移动时是纯复制、移动操作。
纯复制、移动指在数据load加载到表中时，Hive不会对表中的数据内容进行任何转换，任何操作。

语法规则


LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename [PARTITION(partcol1=val1, partcol2=val2 ...)]

LOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename [PARTITION(partcol1=val1, partcol2=val2 ...)][INPUTFORMAT 'inputformat' SERDE 'serde'](3.0 or later)

语法规则之filepath

filepath表示待移动数据的路径。可以指向文件(在这种情况下，Hive将文件移动到表中），也可以指向目录（在这种情况下，Hive将把该目录中的所有文件移动到表中）。
filepath文件路径支持下面三种形式，要结合LOCAL关键字一起考虑︰
1、相对路径，例如：project/datal
2、绝对路径，例如：/user/hive/project/data1
3、具有schema的完整URI，例如：hdfs://namenode:9000/user/hive/project/data1
指定LOCAL，将在本地文件系统中查找文件路径。
若指定相对路径，将相对于用户的当前工作目录进行解释；
用户也可以为本地文件指定完整的URI - 例如：file:///user/hive/project/data1。
没有指定LOCAL关键字。
如果filepath指向的是一个完整的URI，会直接使用这个URI；
如果没有指定schema，Hive会使用在hadoop配置文件中参数fs.default.name指定的(不出意外，都是HDFS )。

LOCAL本地是哪里?

如果对HiveServer2服务运行此命令
本地文件系统指的是Hiveserver2服务所在机器的本地Linux文件系统，不是Hive客户端所在的本地文件系统。

语法规则之OVERWRITE

如果使用了OVERWRITE关键字，则目标表（或者分区)中的已经存在的数据会被删除，然后再将filepath指向的文件/目录中的内容添加到表/分区中。

本地加载（复制操作）

非本地加载（mv移动动作）

加载分区（前提为分区表）

15.2 Hive SQL-DML-Insert 插入数据

1、Hive 3.0新特性 insert as select

Hive3.0+，load加载数据时除了移动、复制操作之外，在某些场合下还会将加载重写为INSERT AS SELECT。
Hive3.0+，还支持使用inputformat、SerDe指定输入格式，例如Text，ORC等。

比如，如果表具有分区，则load命令没有指定分区，则将load转换为INSERT AS SELECT，并假定最后一组列为分区列，如果文件不符合预期，则报错。

本来加载的时候没有指定分区，语句是报错的，但是文件的格式符合表的结构，前两个是col1, col2,最后一个是分区字段col3，则此时会将load语句转换成为insert as select语句。

2、 insert的使用方式

背景：RDBMS中如何使用insert

在MySQL这样的RDBMS中，通常使用insert+values的方式来向表插入数据，并且执行速度很快。
这也是RDBMS中表插入数据的核心方式。

假如把Hive当成RDBMS，用insert+values的方式插入数据，会如何?
执行过程非常非常慢，原因在于底层是使用MapReduce把数据写入Hive表中

试想一下，如果在Hive中使用insert+values，对于大数据环境一条条插入数据，用时难以想象。

3、Hive官方推荐加载数据的方式︰

清洗数据成为结构化文件，再使用Load语法加载数据到表中。这样的效率更高。
但是并不意味insert语法在Hive中没有用武之地。

4、insert+select

insert+select表示∶将后面查询返回的结果作为内容插入到指定表中，注意OVERWRITE将覆盖已有数据。

1.需要保证查询结果列的数目和需要插入数据表格的列数目一致。
2.如果查询出来的数据类型和插入表格对应的列数据类型不一致，将会进行转换，但是不能保证转换一定成功，转换失败的数据将会为NULL。

5、multiple inserts多重插入

翻译为多次插入，多重插入，其核心功能是：一次扫描，多次插入。
语法目的就是减少扫描的次数，在一次扫描中。完成多次insert操作。

6、dynamic partition insert动态分区插入

对于分区表的数据导入加载，最基础的是通过load命令加载数据。
在load过程中，分区值是手动指定写死的，叫做静态分区。

问题：
1．假如说现在有全球224个国家的人员名单（每个国家名单单独一个文件)，导入到分区表中，不同国家不同分区，如何高效实现?
2．使用load语法导入224次?

背景
再假如，现在有一份名单students.txt，内容如下;
要求创建一张分区表，根据最后一个字段（选修专业)进行分区，同一个专业的同学分到同一个分区中，如何实现 ?

动态分区

概述
动态分区插入指的是︰分区的值是由后续的select查询语句的结果来动态确定的。
根据查询结果自动分区。

7、insert Directory导出数据

语法格式

Hive支持将select查询的结果导出成文件存放在文件系统中。语法格式如下;注意∶导出操作是一个OVERWRITE覆盖操作，慎重。

目录可以是完整的URI。如果未指定scheme，则Hive将使用hadoop配置变量fs.default.name来决定导出位置;
如果使用LOCAL关键字，则Hive会将数据写入本地文件系统上的目录；
写入文件系统的数据被序列化为文本，列之间用\001隔开，行之间用换行符隔开。如果列都不是原始数据类型，那么这些列将序列化为JSON格式。也可以在导出的时候指定分隔符换行符和文件格式。

15.3 Hive Transaction 事务表

1、Hive事务背景知识

Hive设计之初时，是不支持事务的，原因︰

Hive的核心目标是将已经存在的结构化数据文件映射成为表，然后提供基于表的SQL分析处理，是—款面向历史、面向分析的工具；
Hive作为数据仓库，是分析数据规律的，而不是创造数据规律的；
Hive中表的数据存储于HDFS上，而HDFS是不支持随机修改文件数据的，其常见的模型是一次写入，多次读取。

从Hive0.14版本开始，具有ACID语义的事务（支持INSERT，UPDATE，DELETE)已添加到Hive中。
以解决以下场景下遇到的问题∶

流式传输数据
使用如Apache Flume或Apache Kafka之类的工具将数据流式传输到现有分区中，可能会有脏读（开始查询后能看到写入的数据）。

变化缓慢数据更新
星型模式数据仓库中，维度表随时间缓慢变化。例如，零售商将开设新商店，需要将其添加到商店表中，或者现有商店可能会更改其平方英尺或某些其他跟踪的特征。这些更改需要插入单个记录或更新记录（取决于所选策略)。

数据修正
有时发现收集的数据不正确，需要局部更正。

2、实现原理

Hive的文件是存储在HDFS上的，而HDFS上又不支持对文件的任意修改，只能是采取另外的手段来完成。

1、用HDFS文件作为原始数据（基础数据），用delta保存事务操作的记录增量数据;
2、正在执行中的事务，是以一个staging开头的文件夹维护的，执行结束就是delta文件夹。
每次执行一次事务操作都会有这样的一个delta增量文件夹；
3、当访问Hive数据时，根据HDFS原始文件和delta增量文件做合并，查询最新的数据。

INSERT语句会直接创建delta目录；
DELETE目录的前缀是delete_delta；
UPDATE语句采用了split-update特性，即先删除、后插入；

3、实现原理之delta文件夹命名格式

delta_minWID_maxWID_stmtID，即delta前缀、写事务的ID范围、以及语句ID；删除时前缀是delete_delta，里面包含了要删除的文件；
Hive会为写事务(INSERT、DELETE等）创建一个写事务ID (Write ID)，该ID在表范围内唯一；
语句ID ( Statement ID )则是当一个事务中有多条写入语句时使用的，用作唯一标识。

4、实现原理

每个事务的delta文件夹下，都有两个文件：

_orc_acid_version的内容是2，即当前ACID版本号是2。和版本1的主要区别是UPDATE语句采用了split-update特性，即先删除、后插入。这个文件不是ORC文件，可以下载下来直接查看。

2. bucket_00000文件则是写入的数据内容。如果事务表没有分区和分桶，就只有一个这样的文件。文件都以ORC格式
存储，底层二级制，需要使用ORC TOOLS查看。

operation：0表示插入，1表示更新，2表示删除。由于使用了split-update，UPDATE是不会出现的，所以delta文件中的operation是0 , delete_delta文件中的operation是2。
originalTransaction、currentTransaction:该条记录的原始写事务ID，当前的写事务ID。
rowld：一个自增的唯一ID，在写事务和分桶的组合中唯一。
row：具体数据。对于DELETE语句，则为null，对于INSERT就是插入的数据，对于UPDATE就是更新后的数据。

ORC TOOLS：

5、合并器(Compactor)

随着表的修改操作，创建了越来越多的delta增量文件，就需要合并以保持足够的性能。
合并器Compactor是一套在Rive Metastore内运行，支持ACID系统的后台进程。所有合并都是在后台完成的，不会阻止数据的并发读、写。合并后，系统将等待所有旧文件的读操作完成后，删除旧文件。
合并操作分为两种，minor compaction (小合并)、major compaction(大合并）：
小合并会将一组delta增量文件重写为单个增量文件，默认触发条件为10个delta文件;
大合并将一个或多个增量文件和基础文件重写为新的基础文件，默认触发条件为delta文件相应于基础文件占比，10%。

6、事务表参数限制和使用设置

局限性

虽然Hive支持了具有ACID语义的事务，但是在使用起来，并没有像在MySQL中使用那样方便，有很多限制；

尚不支持BEGIN，COMMIT和 ROLLBACK，所有语言操作都是自动提交的;
表文件存储格式仅支持ORC ( STORED AS ORC ) ；
需要配置参数开启事务使用；
外部表无法创建为事务表，因为Hive只能控制元数据，无法管理数据；
表属性参数transactional必须设置为true；
必须将Hive事务管理器设置为org.apache.hadoop.hive.ql.lockmgr.DbTxnManager才能使用ACID
事务表不支持LOAD DATA …语句。只能使用insert 语法。

设置参数

客户端

服务端

创建使用

15.4 Hive SQL-DML-Update更新、Delete删除数据

概述

Hive是基于HIadoop的数据仓库，是面向分析支持分析工具。将已有的结构化数据文件映射成为表，然后提供SQL分析数据的能力。
因此在Hive中常见的操作就是分析查询select操作。
Hive早期是不支持update和delete语法的，因为Hive所处理的数据都是已经存在的的数据、历史数据。
后续Hive支持了相关的update和delete操作，不过有很多约束。详见Hive事务的支持。

不是事务表，执行update语句会报错

创建事务表

创建事务表后可进行更新删除操作

15.5 Hive SQL-DQL-Select 查询数据

语法树

从哪里查询取决于FROM关键字后面的table_reference。可以是普通物理表、视图、 join结果或子查询结果。

表名和列名不区分大小写。

案例

1、基础语法

> SELECT 、正则

> ALL、DISTINCT

用于指定查询返回结果中重复的行如何处理。
1、如果没有给出这些选项，则默认值为ALL(返回所有匹配的行)。
2、DISTINCT指定从结果集中删除重复的行。

> WHERE

WHERE后面是一个布尔表达式，用于查询过滤。
在WHERE表达式中，可以使用Hive支持的任何函数和运算符，但聚合函数除外。
那么为什么不能在where子句中使用聚合函数呢？
因为聚合函数要使用它的前提是结果集已经确定。而where子句还处于“确定”结果集的过程中，因而不能使用聚合函数。
从Hive 0.13开始，WHERE子句支持某些类型的子查询。

> 分区查询、分区裁剪

针对Hive分区表，在查询时可以指定分区查询，减少全表扫描，也叫做分区裁剪。
所谓分区裁剪指:对分区表进行查询时，会检查WHERE子句或JOIN中的ON子句中是否存在对分区字段的过滤，如果存在，则仅访问查询符合条件的分区，即裁剪掉没必要访问的分区。

> GROUP BY

GROUP BY语句用于结合聚合函数，根据一个或多个列对结果集进行分组。

> HAVING

在SQL中增加HAVING子句原因是，WHERE关键字无法与聚合函数一起使用。
HAVING子句可以让我们筛选分组后的各组数据，并且可以在Having中使用聚合函数，因为此时where ，group by已经执行结束，结果集已经确定。

> HAVING与WHERE区别

having是在分组group by后对数据进行过滤where是在分组前对数据进行过滤。
having后面可以使用聚合函数where后面不可以使用聚合函数。

> LIMIT

LIMIT用于限制SELECT语句返回的行数。
LIMIT接受一个或两个数字参数，这两个参数都必须是非负整数常量。
第一个参数指定要返回的第一行的偏移量(从Hive 2.0.0开始），第二个参数指定要返回的最大行数。当给出单个参数时，它代表最大行数，并且偏移量默认为0。
如 limit 2,3 从索引2（索引0开始），返回3条数据。

执行顺序

在查询过程中执行顺序：from > where > group(含聚合)>having >order > select；

聚合语句(sum, min, max, avg, count) 要比 having子句优先执行
where子句在查询过程中执行优先级别优先于聚合语句(sum, min, max, avg, count)

2、高阶语法

> ORDER BY

Hive SQL中的ORDER BY语法类似于标准SQL语言中的ORDER BY语法，会对输出的结果进行全局排序。
因此当底层使用lMapReduce引擎执行的时候，只会有一个reducetask执行。如果输出的行数太大，会导致需要很长的时间才能完成全局排序。
默认排序为升序( ASC ) ，也可以指定为DESC降序。
在Hive 2.1.0和更高版本中，支持在ORDER BY子句中为每个列指定null类型结果排序顺序。ASC顺序的默认空排序顺序为NULLS FIRST，而DESC顺序的默认空排序顺序为NULLS LAST。

> CLUSTER BY

根据指定字段将数据分组，每组内再根据该字段正序排序(只能正序)。
概况起来就是︰根据同一个字段，分且排序。
分组规则hash散列（分桶表规则一样) : Hash_Func(col_name) % reducetask个数
分为几组取决于reducetask的个数

示例：

排序分组为1

再设置reduces为2

执行结果如下：分为两个部分，每个部分内正序排序。

思考需求∶

根据sex性别分为两个部分，每个分组内再根据age年龄的倒序排序。

CLUSTER BY无法单独完成，因为分和排序的字段只能是同一个;
ORDER BY更不能在这里使用，因为是全局排序，只有一个输出，无法满足分的需求。

> DISTRIBUTE BY + SORT BY

DISTRIBUTE BY + SORT BY就相当于把CLUSTER BY的功能一分为二︰

DISTRIBUTE BY负责根据指定字段分组;
SORT BY负责分组内排序规则。

分组和排序的字段可以不同。

> CLUSTER、DISTRIBUTE、SORT、ORDER BY

order by全局排序，因此只有一个reducer，结果输出在一个文件中，当输入规模大时，需要较长的计算时间。
distribute by根据指定字段将数据分组，算法是hash散列。sort by是在分组之后，每个组内局部排序。
cluster by既有分组，又有排序，但是分组和排序只能是同一个字段。
如果distribute和sort的字段是同一个时，此时，cluster by = distribute by + sort by。

> Union联合查询

UNION用于将来自于多个SELECT语句的结果合并为一个结果集。

使用DISTINCT关键字与只使用UNION默认值效果一样，都会删除重复行。1.2.0之前的Hive版本仅支持UNION ALL，在这种情况下不会消除重复的行。
使用ALL关键字，不会删除重复行，结果集包括所有SELECT语句的匹配行（包括重复行)。
每个 select_statement 返回的列的数量和名称必须相同。

> FROM子句中子查询( Subqueries )

在Hive0.12版本，仅在FROM子句中支持子查询。
必须要给子查询一个名称，因为FROM子句中的每个表都必须有一个名称。子查询返回结果中的列必须具有唯一的名称。子查询返回结果中的列在外部查询中可用，就像真实表的列一样。子查询也可以是带有UNION的查询表达式。
Hive支持任意级别的子查询，也就是所谓的嵌套子查询。
Hive 0.13.0和更高版本中的子查询名称之前可以包含可选关键字AS。

where子句中子查询( Subqueries )
●从Hive 0.13开始，WHERE子句支持下述类型的子查询∶

不相关子查询∶该子查询不引用父查询中的列，可以将查询结果视为IN和NOT IN语句的常量
相关子查询:子查询引用父查询中的列;

> Common Table Expressions ( CTE )CTE表达式

CTE介绍

公用表表达式（CTE) 是一个临时结果集∶该结果集是从WITH子句中指定的简单查询派生而来的
，紧接在SELECT或INSERT关键字之前。
CTE仅在单个语句的执行范围内定义。
CTE可以在 SELECT，INSERT，CREATE TABLE AS SELECT或CREATE VIEW AS SELECT语句中使用。

15.6 Hive SQL Join 连接操作

join语法的出现是用于根据两个或多个表中的列之间的关系，从这些表中共同组合查询数据。

1、Hive Join语法规则

在Hive中，当下版本3.1.2总共支持6种join语法。分别是∶

inner join(内连接)
left join(左连接)
right join (右连接)
full outer join(全外连接)
left semi join(左半开连接)
cross join(交叉连接，也叫做笛卡尔乘积)。

table_reference : 是join查询中使用的表名，也可以是子查询别名（查询结果当成表参与join )。
table_factor : 与table_reference相同，是联接查询中使用的表名，也可以是子查询别名。
join_condition : join查询关联的条件，如果在两个以上的表上需要连接，则使用AND关键字。
Hive中join语法从面世开始其实并不丰富，不像在RDBMS中那么灵活。
从Hive 0.13.0开始，支持隐式联接表示法（请参阅HIVE-5558 )。允许FROM子句连接以逗号分隔的表列表，而省略JOIN关键字。
从Hive 2.2.0开始，支持N子句中的复杂表达式，支持不相等连接（请参阅HIVE-15211和HIVE-15251)。在此之前，Hive不支持不是相等条件的联接条件。

> inner join内连接

内连接是最常见的一种连接，它也被称为普通连接。
其中inner可以省略:inner join == join
只有进行连接的两个表中都存在与连接条件相匹配的数据才会被留下来。

> left join左连接

left join中文叫做是左外连接(Left Outer Join)或者左连接，其中outer可以省略，left outer join是早期的写法。
left join的核心就在于left左。左指的是join关键字左边的表，简称左表。
通俗解释∶join时以左表的全部数据为准，右边与之关联;
左表数据全部返回，右表关联上的显示返回，关联不上的显示null返回。

> right join右连接

right join中文叫做是右外连接(Right Outer Jion)或者右连接，其中outer可以省略。right join的核心就在于Right右。右指的是join关键字右边的表，简称右表。
通俗解释: join时以右表的全部数据为准，左边与之关联﹔右表数据全部返回，左表关联上的显示返回，关联不上的显示null返回。

很明显，right join和left join之间很相似，重点在于以哪边为准，也就是一个方向的问题。

> full outer join全外连接

full outer join等价 full join ,中文叫做全外连接或者外连接。
包含左、右两个表的全部行，不管另外一边的表中是否存在与它们匹配的行;
在功能上∶等价于对这两个数据集合分别进行左外连接和右外连接，然后再使用消去重复行的操作将上述两个结果集合并为一个结果集。

> left semi join左半开连接

左半开连接（LEFT SEMI JOIN ) 会返回左边表的记录，前提是其记录对于右边的表满足ON语句中的判定条件。
从效果上来看有点像inner join之后只返回左表的结果。

> cross join交叉连接

交叉连接cross join，将会返回被连接的两个表的笛卡尔积，返回结果的行数等于两个表行数的乘积。对于大表来说，cross join慎用。
在SQL标准中定义的cross join就是无条件的inner join。返回两个表的笛卡尔积,无需指定关联键。
在HiveSQL语法中，cross join后面可以跟where子句进行过滤，或者on条件过滤。

2、Hive Join使用注意事项

a) 允许使用复杂的联接表达式,支持非等值连接
b）同一查询中可以连接2个以上的表

c）如果每个表在联接子句中使用相同的列，则Hive将多个表上的联接转换为单个MR作业

d）join时的最后一个表会通过reducer流式传输，并在其中缓冲之前的其他表，因此，将大表放置在最后有助于减少reducer阶段缓存数据所需要的内存

e）在join的时候，可以通过语法STREAMTABLI提示指定要流式传输的表。如果省略STREAMTABLE提示，则Hive将流式传输最右边的表。

f）join在WHERE条件之前进行。
g）如果除一个要连接的表之外的所有表都很小，则可以将其作为仅map作业执行( mapjoin ) 。

十六、Hive内置运算符

创建一个空表 dual

16.1 关系运算符

- is null \ is not null 空值判断

- like \ not A like B \ rlike

_单个字符
%任意数量字符

- rlike 等同于 regexp

判断正则

- regexp

判断字符串是否匹配正则表达式

16.2 算术运算符

算术运算符操作数必须是数值类型。分为一元运算符和二元运算符∶
一元运算符，只有一个操作数；二元运算符有两个操作数，运算符在两个操作数之间。

- 取整操作 div

- 取余操作 %

- 位与操作 &

4 & 8 = 0 ； 0100 & 1000 = 0000
6 & 4 = 4 ； 0100

- 位或操作 |

- 位异或操作 ^

16.3 逻辑运算符

与操作

或操作

非操作

在

不在

逻辑是否存在 EXISTS

逻辑是否存在：[NOT] EXISTS (subquery)
将主查询的数据，放到子查询中做条件验证，根据验证结果（TRUE或FALSE）来决定主查询的数据结果是否得以保留。

验证A.ID是否等于B.ID

16.3 字符串、复杂类型构造、复杂类型取值运算符

官方文档参考地址
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

字符串 || concat运算

-- 其他运算符
select 'a' || 'b';

复杂类型构造运算符

SELECT  array(11,22,33);
-- [11||22||33]

复杂类型取值操作

十七、Hive Functions函数入门

概述

Hive内建了不少函数，用于满足用户不同使用需求，提高SQL编写效率：

使用show functions查看当下可用的所有函数;
通过describe function extended funcname来查看函数的使用方式。

分类标准

Hive的函数分为两大类︰内置函数(Built-in Functions)、用户定义函数UDF (User-Defined
Functions)

内置函数可分为︰数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数等；
用户定义函数根据输入输出的行数可分为3类：UDF、UDAF、UDTF。

用户定义函数UDF分类标准

根据函数输入输出的行数︰

UDF ( User-Defined-Function )普通函数，一进一出；
UDAF ( User-Defined Aggregation Function )聚合函数，多进一出；
UDTF ( User-Defined Table-Generating Functions )表生成函数，一进多出；

UDF分类标准扩大化

UDF分类标准本来针对的是用户自己编写开发实现的函数。
UDF分类标准可以扩大到Hive的所有函数中︰包括内置函数和用户自定义函数。
因为不管是什么类型的函数，一定满足于输入输出的要求，那么从输入几行和输出几行上来划分没有任何问题。千万不要被UD ( User-Defined )这两个字母所迷惑，照成视野的狭隘。
比如Hive官方文档中，针对聚合函数的标准就是内置的UDAF类型。

内置函数

( 1/8 ) string Functions字符串函数

( 2/8 ) Date Functions日期函数

( 3/8 ) Mathematical Functions数学函数

( 4/8 ) collection Functions集合函数

( 5/8 ) conditional Functions条件函数

主要用于条件判断、逻辑判断转换这样的场合

( 6/8 ) Type conversion Functions类型转换函数

主要用于显式的数据类型转换∶

( 7/8 ) Data Masking Functions数据脱敏函数

主要完成对数据脱敏转换功能，屏蔽原始数据，主要如下：

( 8/8 ) Misc. Functions其他杂项函数

你可能感兴趣的:(大数据数仓,数据仓库,学习,hive)

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2019-12-22-22:30 涓涓1016
今天是冬至，写下我的日更，是因为这两天的学习真的是能量的满满，让我看到了自己，未来另外一种可能性，也让我看到了这两年这几年的过程中我所接受那些痛苦的来源。一切的根源和痛苦都来自于人生，家庭，而你的原生家庭，你的爸爸和妈妈，是因为你这个灵魂在那一刻选择他们作为你的爸爸和妈妈来的，所以你得接受他，你得接纳他，他就是因为他的存在而给你的学习和成长带来这些痛苦，那其实是你必然要经历的这个过程，当你去接纳的
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
阶段总结反思轻争
马上就要进入10月份了，今天做一下前段时间的总结和反思。前段时间，日更、英语、健身、护肤坚持的比较好。阅读、书法坚持的不好。1.中间被迫停更半个多月，其余时间一直在坚持日更挑战。偶尔也有不想写的时候，就做一下摘抄。因为阅读（输入）没跟上来，所以写作（输出）质量有待进一步加强。2.英语做到了一周至少学习5天，每次不少于30分钟，但是小班课没有跟上更新速度，下一步要争取利用零碎时间补听小班课。3.减肥
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
展现思维导图魅力，不断挖掘人生宝藏思维导图讲师Mandy
第13期最强思维导图训练营已经结束一周了，但是我依旧是感觉所有学员还在努力的学习，这些学员中有教师、学生、白领、公务员、宝妈等等，只要你努力，只要你想改变自己，任何行业，任何岗位都可以参与进来，28天足以让你见成效，在这28天中，我们的学员不仅仅是收获了一枚毕业证，最重要的是让自己的思维方式得到升级，今天的你为自己投资，明天的你就会感谢你今天的付出，我们来听一听来自13期最强思维导图训练营优秀学员
2019-3-23晨间日记红红火火小耳朵
今天是什么日子起床：7点40就寝：23点半天气：有太阳，不过一会儿出来一会儿进去特别清爽的凉意，还蛮舒服的心情：小激动要给女朋友过生日啦纪念日：田田女士过生日任务清单昨日完成的任务，最重要的三件事：1.英语一对一2.运动计划3.认真护肤习惯养成：调整状态周目标·完成进度英语七天打卡（5/7）轻课阅读（87/180）音标课（25/30）读书（福尔摩斯一章）学习·信息·阅读#英语课#Cookingte
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
教育用心灵温暖心灵
@陈春丽长期学习班冯倩。今天一早就听到说高职合并，取消中专教育的教育信息。感觉是虽然知道，再听还是吓一跳。国家重视职业教育为何还要取消中专技术学校的教育？再听高中就要进行技术教育了，一部分人学习好继续努力学习考大学，一部分人在高中就可以进行职业教育接受职业教育了还要中专技术教育学校干什么呢！a有些职业教育学校转型升级快，不是孩子上完给找工作，而是学校帮孩子创业，我觉得是不错的方向！新闻新你得实时更
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

Hive3.x数仓开发

文章目录

一、数仓仓库概念

二、数据仓库分层架构

ODS\DW\DA(ADS)

ETL\ELT

三、Apache Hive 概述

为什么使用Hive

Hive和Hadoop关系

四、Apache Hive架构、组件

组件

五、Apache Hive数据模型

Data Model概念

Databases数据库

Partitions分区

Buckets分桶

Hive和MySQL对比

六、元数据

Hive Metadata

Hive Metastore

七、Metastore配置方式

内嵌模式

本地模式

远程模式

八、Hive部署

安装前准备

Hadoop与Hive整合

内嵌模式

本地模式

mysql安装

Hive安装

配置hive-site.xml

远程模式安装

配置hive-site.xml

远程模式Meatstore

九、Hive命令行客户端

bin/hive Client

bin/beeline Client

十、HIve SQL DDL相关

10.1 Hive数据类型

原生数据类型

复杂数据类型

隐式转换

显示转换

10.2 Hive读写文件机制

SerDe是什么

SerDe相关语法

LazysimpleserDe分隔符指定

10.3 Hive默认分隔符

10.4 Hive数据存储路径

指定存储路径

10.5 Hive建表 且 上传文件

复杂数据类型

location指定表路径

10.6 Hive 内外部表

内部表

外部表

内、外部表差异

如何选择内、外部表

Location关键字的作用

10.7 Hive Partitioned Tables 分区表

概念

语法树

分区表数据加载–静态分区

本质

多重分区表

分区表数据加载–动态分区

分区表的注意事项

10.8 Hive Bucketed Tables分桶表

概念

规则

完整语法树

语法

分桶表的创建

分桶表的数据加载

使用好处

10.9 Hive Transactional Tables事务表

Hive事务背景知识

局限性

创建事务表

10.5 Hive建表且上传文件