毫无感情的dj

Apache Hive详解

一、引入

Hive简介

为什么要使用Hive

Hive的特点

Hive的发展历程

二、Hive架构体系

三、MySQL安装

安装准备

安装

卸载（了解）

四、Hive集群搭建

准备工作

安装过程

五、Hive的MySQL元数据库与表

六、Hive库操作

七、Hive表操作

八、Hive查询结果四大排序

九、Hive函数

内置函数

关系运算符

算术运算符

逻辑运算符

复数运算符

Hive常用内置函数

一、引入

Hive简介

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

我们可以将hive想象成mysql，他就是对hdfs存储的数据进行增删改查的。

比如要计算user.txt中用户们出现了几次，我们来看看hive的实现过程：

为什么要使用Hive

为什么不直接使用Hadoop

人员学习成本高
项目要求周期短
MapReduce实现复杂查询逻辑开发难度大

为什么使用Hive

操作接口采用SQL语法，提供快速开发能力
免去了写MapReduce，减少开发人员学习成本
功能扩展很方便

Hive的特点

hive延迟高，适合高吞吐量，批量，海量数据处理
语法和SQL相似，学习成本低，避免去写复杂的MapReduce，缩短开发周期
Hive支持自由的扩展集群的规模，一般不需要重启服务
Hive支持自定义函数，用户可以根据自己的需求去定义函数
良好的容错性，节点出现问题，SQL仍然可以成功执行

Hive的发展历程

在Hive的发展历程中，不得不提的就是Stinger

Stinger不是一个项目或产品，而是一种提议，旨在将Hive性能提升100倍，包括Hive的改进和Tez项目两个部分。

Stinger分了几个阶段来做：Phase 1、2、3 ，Stringer.next；这几个阶段对Hive性能的提升是非常至关重要的

07/08 facebook
13/05 hive-0.11 Stinger Phase 1 加入了ORC/HiveServer2
13/10 hive-0.12 Stinger Phase 2 ORC improvement(对ORC做了些改善)
14/04 hive-0.13 Stinger Phase 3 Tez/Vectorized query engine(加入了Tez和支持向量化的查询)
14/11 hive-0.14 Stinger.next Phase 1 Cost-based optimizer(Cost-based简称CBO) (Cost-based的优化很牛逼算法各方面的优化 Spark现在也在做)
…… …….
当时有一句话：The Stinger Initiative making Apache Hive 100 times faster

二、Hive架构体系

Hive的体系结构主要分为以下几个部分：

用户接口
- 用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是 Cli，Cli 启动的时候，会同时启动一个 hive 副本。Client 是 hive 的客户端，用户连接至 hive Server。在启动 Client 模式的时候，需要指出 hive Server 所在节点，并且在该节点启动 hive Server。 WUI 是通过浏览器访问 hive。
元数据存储
- hive 将元数据存储在数据库中，如 mysql、derby。hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
解释器、编译器、优化器、执行器
- 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行。
Hadoop
- hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（不包含 * 的查询，比如 select * from tbl 不会生成 MapReduce 任务）。

三、MySQL安装

为什么学Hive还要安装MySQL：

metastore是hive元数据的集中存放地
metastore默认使用内嵌的derby数据库作为存储引擎
- 但是你在哪路径下，执行hive指令，就在哪路径下生成metastore_db。建一套数据库文件，这样是极其不合适的，公司里每个人若不一样，则会显得非常混杂。导致员工之间无法公用交流。
Derby引擎的缺点：一次只能打开一个会话
使用Mysql作为外置存储引擎，多用户同时访问

hive只是个工具，包括它的数据分析，依赖于mapreduce，它的数据管理，依赖于外部系统；

Hive提供了增强配置，可将数据库替换成mysql等关系型数据库，将存储数据独立出来在多个服务示例之间共享。

这也是为什么，在安装hive时，也需要配置mysql了。

安装准备

1、检查是否已经安装过mysql，执行命令
- rpm -qa | grep mysql
- 如果已存在，则执行删除命令后边为Mysql目录
  - rpm -e --nodeps mysql-xxxx
2、查询所有Mysql对应的文件夹
- whereis mysqlm
- find / -name mysql
- 删除相关目录或文件
  - rm -rf /usr/bin/mysql /usr/include/mysql /data/mysql /data/mysql/mysql
- 验证是否删除完毕
  - whereis mysqlm
  - find / -name mysql

确保先执行以下命令：

systemctl stop firewalld #关闭防火墙

安装perl与net-tools依赖

1：yum install net-tools -y

2：yum install perl* -y

安装

下载地址：MySQL :: Download MySQL Community Server

上传安装包后创建目录放置解压包：mkdir /opt/mysql

解压：tar -xvf mysql-8.0.26-1.el7.x86_64.rpm-bundle.tar -C /opt/mysql

可以看到解压后的文件都是 rpm 文件，所以需要用到 rpm 包资源管理器相关的指令安装这些 rpm 的安装包

在安装执行 rpm 安装包之前先下载 openssl-devel 插件，因为 mysql 里面有些 rpm 的安装依赖于该插件。

yum install openssl-devel

安装完该插件之后，依次执行以下命令安装这些 rpm 包

rpm -ivh mysql-community-common-8.0.26-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-plugins-8.0.26-1.el7.x86_64.rpm

rpm -e mariadb-libs --nodeps #解决下一行代码可能会出现的依赖检测失败错误

rpm -ivh mysql-community-libs-8.0.26-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-compat-8.0.26-1.el7.x86_64.rpm

rpm -ivh mysql-community-devel-8.0.26-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-8.0.26-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-8.0.26-1.el7.x86_64.rpm

在 Linux 中 MySQL 安装好了之后系统会自动的注册一个服务，服务名称叫做 mysqld，所以可以通过以下命令操作 MySQL：

启动 MySQL 服务：systemctl start mysqld
重启 MySQL 服务：systemctl restart mysqld
关闭 MySQL 服务：systemctl stop mysqld

启动服务：systemctl start mysqld

现在我们就可以登录MySQL了，但是登录MySQL需要密码对不对，不要慌，rpm 安装 MySQL 会自动生成一个随机密码，可在 /var/log/mysqld.log 这个文件中查找该密码（切记：如果之前你的机器上mysql没有删除干净，现在这个文件就是空的）：

[Note] [MY-010454] [Server] A temporary password is generated for root@localhost: HONhF9oMf.ik

我这里生成的随机密码是HONhF9oMf.ik

登录：
mysql -u root -p

我们先修改密码(在当前登录成功页执行代码)：

# 将密码复杂度校验调整简单类型
set global validate_password.policy=0; #分号不可少
# 设置密码最少位数限制为 4 位
set global validate_password.length=4; #分号不可少

# 设置新密码

ALTER USER 'root'@'localhost' IDENTIFIED BY '123456'; #分号不可少

修改 mysql 库下的 user 表中的 root 用户允许任意 ip 连接

update mysql.user set host='%' where user='root';

flush privileges; #重新加载权限表

卸载（了解）

卸载 MySQL 前需要先停止 MySQL

命令：systemctl stop mysqld

停止 MySQL 之后查询 MySQL 的安装文件：rpm -qa | grep -i mysql

卸载上述查询出来的所有的 MySQL 安装包

rpm -e mysql-community-client-plugins-8.0.26-1.el7.x86_64 --nodeps

rpm -e mysql-community-server-8.0.26-1.el7.x86_64 --nodeps

rpm -e mysql-community-common-8.0.26-1.el7.x86_64 --nodeps

rpm -e mysql-community-libs-8.0.26-1.el7.x86_64 --nodeps

rpm -e mysql-community-client-8.0.26-1.el7.x86_64 --nodeps

rpm -e mysql-community-libs-compat-8.0.26-1.el7.x86_64 --nodeps

删除MySQL的数据存放目录

rm -rf /var/lib/mysql/

删除MySQL的配置文件备份

rm -rf /etc/my.cnf.rpmsave

四、Hive集群搭建

准备工作

注：在Hive集群搭建之前需完成Hadoop-HDFS详解与HA，完全分布式集群搭建(细到令人发指的教程)

下载hive安装包：Index of /dist/hive

下载mysql连接java驱动：Download mysql-connector-java-5.1.23-bin.jar : mysql « m « Jar File Download

这里以apache-hive-3.1.2-bin.tar.gz 为例；

将压缩包上传至node001节点上

安装过程

解压安装包

解压：tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/

重命名：mv /opt/apache-hive-3.1.2-bin/ /opt/hive-3.1.2

配置环境变量

终端输入：vim /etc/profile

末行加入：

export HIVE_HOME=/opt/hive-3.1.2
export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/sbin

source /etc/profile

hive-env.sh

终端输入：vim /opt/hive-3.1.2/conf/hive-env.sh

末行加入：

export HADOOP_HOME=/opt/hadoop-3.1.2
export HIVE_CONF_DIR=/opt/hive-3.1.2/conf
export HIVE_AUX_JARS_PATH=/opt/hive-3.1.2/lib

hive-site.xml

终端输入：vim /opt/hive-3.1.2/conf/hive-site.xml

添加配置：


	
	
		javax.jdo.option.ConnectionURL
		jdbc:mysql://node001:3306/hive?createDatabaseIfNotExist=true
	
    
	
		javax.jdo.option.ConnectionDriverName
		com.mysql.jdbc.Driver
	
    
	
		javax.jdo.option.ConnectionUserName
		root
	
    
	
		javax.jdo.option.ConnectionPassword
		123456
	
	
		datanucleus.schema.autoCreateAll
		true
	
	
		hive.metastore.schema.verification
		false
	

	
	
		hive.cli.print.header
		true
	
	
		hive.cli.print.current.db
		true
	



	
	
		hive.server2.webui.host
		node001
	
	
		hive.server2.webui.port
		10002
	


	
	
		hive.metastore.warehouse.dir
		/hive/warehouse

配置日志组件

首先添加放置日志文件的目录：mkdir -p /opt/hive-3.1.2/logs

复制log4j模板文件：

cp /opt/hive-3.1.2/conf/hive-log4j2.properties.template hive-log4j2.properties

终端输入：vim /opt/hive-3.1.2/conf/hive-log4j2.properties

将/opt/hive-3.1.2/logs添加到property.hive.log.dir

core-site.xml

终端输入：vim /opt/hadoop-3.1.2/etc/hadoop/core-site.xml

添加配置：

        
        
                hadoop.proxyuser.root.hosts
                *
        
        
        
                hadoop.proxyuser.root.groups
                *

添加驱动包

MySQL驱动

mysql-connector-java-5.1.23-bin.jar.zip，下载地址见上文

将其上传到/opt/hive-3.1.2/lib目录

执行：unzip mysql-connector-java-5.1.23-bin.jar.zip #进行解压

Guava包

删除hadoop中guava-*.jar包

rm -rf /opt/hadoop-3.1.2/share/hadoop/common/lib/guava*

rm -rf /opt/hadoop-3.1.2/share/hadoop/hdfs/lib/guava*

将Hive的Guava拷贝给hadoop

cp /opt/hive-3.1.2/lib/guava-19.0.jar /opt/hadoop-3.1.2/share/hadoop/common/lib/

cp /opt/hive-3.1.2/lib/guava-19.0.jar /opt/hadoop-3.1.2/share/hadoop/hdfs/lib/

分发

拷贝hive到其他节点

scp -r /opt/hive-3.1.2/ node002:/opt/

scp -r /opt/hive-3.1.2/ node003:/opt/

拷贝profile到其他节点

scp /etc/profile node002:/etc/

scp /etc/profile node003:/etc/

ssh root@node002 "source /etc/profile"

ssh root@node003 "source /etc/profile"

拷贝core-site.xml到其他节点

scp /opt/hadoop-3.1.2/etc/hadoop/core-site.xml node002:/opt/hadoop-3.1.2/etc/hadoop/

scp /opt/hadoop-3.1.2/etc/hadoop/core-site.xml node003:/opt/hadoop-3.1.2/etc/hadoop/

guava

进入node002节点

# 删除hadoop中guava-*.jar包

[root@node002 ~]# rm -rf /opt/hadoop-3.1.2/share/hadoop/common/lib/guava*
[root@node002 ~]# rm -rf /opt/hadoop-3.1.2/share/hadoop/hdfs/lib/guava*

# 将Hive的Guava拷贝给hadoop

[root@node002 ~]# cp /opt/hive-3.1.2/lib/guava-19.0.jar /opt/hadoop-3.1.2/share/hadoop/common/lib/
[root@node002 ~]# cp /opt/hive-3.1.2/lib/guava-19.0.jar /opt/hadoop-3.1.2/share/hadoop/hdfs/lib/

guava

进入node003节点

# 删除hadoop中guava-*.jar包

[root@node003 ~]# rm -rf /opt/hadoop-3.1.2/share/hadoop/common/lib/guava*
[root@node003 ~]# rm -rf /opt/hadoop-3.1.2/share/hadoop/hdfs/lib/guava*

# 将Hive的Guava拷贝给hadoop

[root@node003 ~]# cp /opt/hive-3.1.2/lib/guava-19.0.jar /opt/hadoop-3.1.2/share/hadoop/common/lib/
[root@node003 ~]# cp /opt/hive-3.1.2/lib/guava-19.0.jar /opt/hadoop-3.1.2/share/hadoop/hdfs/lib/

客户端配置文件

修改node002与node003的hive-site.xml

如果不修改将会造成脑裂。

终端输入：vim /opt/hive-3.1.2/conf/hive-site.xml

修改为：


	
		datanucleus.schema.autoCreateAll
		false
	
	
		hive.metastore.schema.verification
		false
	

	
	
		hive.cli.print.header
		true
	
	
		hive.cli.print.current.db
		true
	



	
	
		hive.server2.webui.host
		node001
	
	
		hive.server2.webui.port
		10002
	


	
	
		hive.metastore.warehouse.dir
		/hive/warehouse
	

	
		hive.metastore.uris
		thrift://node001:9083

初始化元数据（很重要）：

schematool -initSchema -dbType mysql

使用测试

在启动hive之前确保先启动zookeeper与Hadoop集群

启动：Hive服务

在node001输入：hive --service metastore

在node002或者node003输入：hive

node002或node003执行：show databases; 进行测试

到此hive搭建成功！

五、Hive的MySQL元数据库与表

hive这个数据库并不是自动创建的而是通过上文hive-site.xml配置文件所决定的。

	
		javax.jdo.option.ConnectionURL
		jdbc:mysql://node001:3306/hive?createDatabaseIfNotExist=true

通过show tables; 可以看到hive自动创建的一些表

mysql> show tables;
+-------------------------------+
| Tables_in_hive                |
+-------------------------------+
| AUX_TABLE                     |
| BUCKETING_COLS                |
| CDS                           |
| COLUMNS_V2                    |
| COMPACTION_QUEUE              |
| COMPLETED_COMPACTIONS         |
| COMPLETED_TXN_COMPONENTS      |
| CTLGS                         |
| DATABASE_PARAMS               |
| DBS                           |
| DB_PRIVS                      |
| DELEGATION_TOKENS             |
| FUNCS                         |
| FUNC_RU                       |
| GLOBAL_PRIVS                  |
| HIVE_LOCKS                    |
| IDXS                          |
| INDEX_PARAMS                  |
| I_SCHEMA                      |
| KEY_CONSTRAINTS               |
| MASTER_KEYS                   |
| MATERIALIZATION_REBUILD_LOCKS |
| METASTORE_DB_PROPERTIES       |
| MIN_HISTORY_LEVEL             |
| MV_CREATION_METADATA          |
| MV_TABLES_USED                |
| NEXT_COMPACTION_QUEUE_ID      |
| NEXT_LOCK_ID                  |
| NEXT_TXN_ID                   |
| NEXT_WRITE_ID                 |
| NOTIFICATION_LOG              |
| NOTIFICATION_SEQUENCE         |
| NUCLEUS_TABLES                |
| PARTITIONS                    |
| PARTITION_EVENTS              |
| PARTITION_KEYS                |
| PARTITION_KEY_VALS            |
| PARTITION_PARAMS              |
| PART_COL_PRIVS                |
| PART_COL_STATS                |
| PART_PRIVS                    |
| REPL_TXN_MAP                  |
| ROLES                         |
| ROLE_MAP                      |
| RUNTIME_STATS                 |
| SCHEMA_VERSION                |
| SDS                           |
| SD_PARAMS                     |
| SEQUENCE_TABLE                |
| SERDES                        |
| SERDE_PARAMS                  |
| SKEWED_COL_NAMES              |
| SKEWED_COL_VALUE_LOC_MAP      |
| SKEWED_STRING_LIST            |
| SKEWED_STRING_LIST_VALUES     |
| SKEWED_VALUES                 |
| SORT_COLS                     |
| TABLE_PARAMS                  |
| TAB_COL_STATS                 |
| TBLS                          |
| TBL_COL_PRIVS                 |
| TBL_PRIVS                     |
| TXNS                          |
| TXN_COMPONENTS                |
| TXN_TO_WRITE_ID               |
| TYPES                         |
| TYPE_FIELDS                   |
| VERSION                       |
| WM_MAPPING                    |
| WM_POOL                       |
| WM_POOL_TO_TRIGGER            |
| WM_RESOURCEPLAN               |
| WM_TRIGGER                    |
| WRITE_SET                     |
+-------------------------------+
74 rows in set (0.00 sec)

Hive元数据中一些重要的表结构与用途：方便impala，SparkSQL，Hive等组件访问元数据库的理解。

1、存储Hive版本的元数据表(VERSION)

该表结构简单却是很重要的
如果该表出现问题，根本进入不了Hive-Cli，当该表不存在的情况，就会报错"Table 'hive.version' doesn't exist"
该表中数据只能有一条，如果存在多条，会造成hive启动不起来

表结构如下：

字段名	说明	示例数据
VER_ID	ID主键	1
SCHEMA_VERSION	hive版本	1.1.1
VERSION_COMMENT	版本说明	Updated the data

2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)

DBS：数据库表

该表存储Hive中所有数据库的基本信息

表结构如下：

字段名	说明	示例数据
DB_ID	数据库ID	1
CTLG_NAME	目录名	hive
DESC	数据库描述	Default Hive database
DB_LOCATION_URI	数据HDFS路径	hdfs://bdp/hive/warehouse
NAME	数据库名	default
OWNER_NAME	所有者名称	public
OWNER_TYPE	所有者角色	ROLE

DATABASE_PARAMS：该表存储数据库的相关参数，在CREATE DATABASE时候用WITH DBPROPERTIES(property_name=property_value, …)指定的参数。

表结构如下：

字段名称	说明	示例数据
DB_ID	数据库ID	1
PARAM_KEY	参数名	createdby
PARAM_VALUE	参数值	root

DBS和DATABASE_PARAMS这两张表通过DB_ID字段关联。

3、Hive数据表相关的元数据表

主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。

TBLS:该表中存储Hive表，视图，索引表的基本信息

表结构如下：

字段名	说明	示例数据
TBL_ID	表ID	1
CREATE_TIME	创建时间	5678542364
DB_ID	数据库ID	2（对应DBS中DB_ID）
LAST_ACCESS_TIME	最后访问时间	6485123468
OWNER	所有者	root
OWNER_TYPE	使用者角色	ROLE
RETENTION	保留字段	0
IS_REWRITE_ENABLED	是否覆盖启用	0
SD_ID	序列化配置信息	86(对应SDS中SD_ID)
TBL_NAME	表名	ex_detail_ufdr_30streaming
TBL_TYPE	表类型	MANAGED_TABLE、EXTERNAL_TABLE、INDEX_TABLE、VIRTUAL_YABLE
VIEW_EXPANDED_TEXT	视图的详细HQL语句	select 字段1，字段2，字段3 from ex_detail_ufdr_30streaming;
VIEW_ORIGINAL_TEXT	视图的原始HQL语句	select * from ex_detail_ufdr_30streaming;

TABLE_PARAMS:数据表属性信息表

该表存储表/视图的属性信息

表结构入下：

字段名	说明	示例数据
TBL_ID	表ID	1
PARAM_KEY	属性名	totalSize、numRows、EXTERNAL
PARAM_VALUE	属性值	578436548、12458967、TRUE

TBL_PRIVS：授权表

该表存储表/视图的授权信息

4、Hive文件存储信息相关的元数据表

由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。

SDS：该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。

表结构如下：

字段名	说明	示例数据
SD_ID	存储信息ID	1
CD_ID	字段信息ID	21(对应CDS表)
INPUT_FORMAT	文件输入格式	org.apache.hadoop.mapred. TextInputFormat
IS_COMPRESSED	是否压缩	0
IS_STOREDASSUBDIRECTORIES	是否以子目录存储	0
LOCATION	HDFS路径	hdfs://192.168.1.101:9000/ detail_ufdr_streaming_test
NUM_BUCKETS	分桶数量	5
OUTPUT_FORMAT	文件输出格式	org.apache.hadoop.hive.ql.io. HiveIgnoreKeyTextOutputFormat
SERDE_ID	序列化ID	3(对应SERDES表)

SD_PARAMS: 该表存储Hive存储的属性信息，在创建表时候使用STORED BY ‘storage.handler.class.name’ [WITH SERDEPROPERTIES (…)指定。

表结构如下：

字段名	说明	示例数据
SD_ID	存储配置ID	1
PARAM_KEY	属性名
PARAM_VALUE	属性值

SERDES：该表存储序列化使用的类信息

表结构如下：

字段名	说明	示例数据
SERDE_ID	序列化配置ID	1
DESCRIPTION	描述
DESERIALIZER_CLASS	并行类
NAME	名字
SERDE_TYPE	序列化类型
SLIB	系统库
SERIALIZER_CLASS	序列化类

SERDE_PARAMS：该表存储序列化的一些属性、格式信息,比如：行、列分隔符

表结构如下：

字段名	说明	示例数据
SERDE_ID	序列化配置ID	1
PARAM_KEY	属性名
PARAM_VALUE	属性值

5、Hive表字段相关的元数据表

COLUMNS_V2：该表存储表对应的字段信息

表结构如下：

字段名	说明	示例数据
CD_ID	字段信息ID	212
COMMENT	字段注释	NULL
COLUMN_NAME	字段名	air_port_duration
TYPE_NAME	字段类型名	bigint
INTEGER_IDX	字段顺序	119

6、Hive表分分区相关的元数据表

主要涉及PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS

PARTITIONS:该表存储表分区的基本信息

表结构如下：

mysql> show create table PARTITIONS;
+------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table      | Create Table                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
+------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| PARTITIONS | CREATE TABLE `PARTITIONS` (
  `PART_ID` bigint(20) NOT NULL,
  `CREATE_TIME` int(11) NOT NULL,
  `LAST_ACCESS_TIME` int(11) NOT NULL,
  `PART_NAME` varchar(767) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL,
  `SD_ID` bigint(20) DEFAULT NULL,
  `TBL_ID` bigint(20) DEFAULT NULL,
  PRIMARY KEY (`PART_ID`),
  UNIQUE KEY `UNIQUEPARTITION` (`PART_NAME`,`TBL_ID`),
  KEY `PARTITIONS_N50` (`SD_ID`),
  KEY `PARTITIONS_N49` (`TBL_ID`),
  CONSTRAINT `PARTITIONS_FK1` FOREIGN KEY (`SD_ID`) REFERENCES `SDS` (`SD_ID`),
  CONSTRAINT `PARTITIONS_FK2` FOREIGN KEY (`TBL_ID`) REFERENCES `TBLS` (`TBL_ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

PARTITION_KEYS：该表存储分区的字段信息。

表结构如下：

mysql> show create table PARTITION_KEYS;
+----------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table          | Create Table                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |
+----------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| PARTITION_KEYS | CREATE TABLE `PARTITION_KEYS` (
  `TBL_ID` bigint(20) NOT NULL,
  `PKEY_COMMENT` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL,
  `PKEY_NAME` varchar(128) CHARACTER SET latin1 COLLATE latin1_bin NOT NULL,
  `PKEY_TYPE` varchar(767) CHARACTER SET latin1 COLLATE latin1_bin NOT NULL,
  `INTEGER_IDX` int(11) NOT NULL,
  PRIMARY KEY (`TBL_ID`,`PKEY_NAME`),
  KEY `PARTITION_KEYS_N49` (`TBL_ID`),
  CONSTRAINT `PARTITION_KEYS_FK1` FOREIGN KEY (`TBL_ID`) REFERENCES `TBLS` (`TBL_ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+----------------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

PARTITION_KEY_VALS：该表存储分区字段值

表结构如下：

mysql> show create table PARTITION_KEY_VALS;
+--------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table              | Create Table                                                                                                                                                                                                                                                                                                                                                                                                             |
+--------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| PARTITION_KEY_VALS | CREATE TABLE `PARTITION_KEY_VALS` (
  `PART_ID` bigint(20) NOT NULL,
  `PART_KEY_VAL` varchar(255) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL,
  `INTEGER_IDX` int(11) NOT NULL,
  PRIMARY KEY (`PART_ID`,`INTEGER_IDX`),
  KEY `PARTITION_KEY_VALS_N49` (`PART_ID`),
  CONSTRAINT `PARTITION_KEY_VALS_FK1` FOREIGN KEY (`PART_ID`) REFERENCES `PARTITIONS` (`PART_ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+--------------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

PARTITION_PARAMS：该表存储分区的属性信息

表结构如下：

mysql> show create table PARTITION_PARAMS;
+------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| Table            | Create Table                                                                                                                                                                                                                                                                                                                                                                                                                                                |
+------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| PARTITION_PARAMS | CREATE TABLE `PARTITION_PARAMS` (
  `PART_ID` bigint(20) NOT NULL,
  `PARAM_KEY` varchar(256) CHARACTER SET latin1 COLLATE latin1_bin NOT NULL,
  `PARAM_VALUE` varchar(4000) CHARACTER SET latin1 COLLATE latin1_bin DEFAULT NULL,
  PRIMARY KEY (`PART_ID`,`PARAM_KEY`),
  KEY `PARTITION_PARAMS_N49` (`PART_ID`),
  CONSTRAINT `PARTITION_PARAMS_FK1` FOREIGN KEY (`PART_ID`) REFERENCES `PARTITIONS` (`PART_ID`)
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+------------------+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.00 sec)

7、其他不常用的元数据表

DB_PRIVS
- 数据库权限信息表。通过GRANT语句对数据库授权后，将会在这里存储。
IDXS
- 索引表，存储Hive索引相关的元数据
INDEX_PARAMS
- 索引相关的属性信息
TBL_COL_STATS
- 表字段的统计信息。使用ANALYZE语句对表字段分析后记录在这里
TBL_COL_PRIVS
- 表字段的授权信息
PART_PRIVS
- 分区的授权信息
PART_COL_PRIVS
- 分区字段的权限信息
PART_COL_STATS
- 分区字段的统计信息
FUNCS
- 用户注册的函数信息
FUNC_RU
- 用户注册函数的资源信息

六、Hive库操作

创建数据库

create database test; # 创建名字为test的数据库

create database if not exists test; # 如果test数据库不存在就创建，存在就什么也不做

create database dbname location '路径'; #通过location指定数据库路径

create database dbname comment '描述信息'; #给数据库添加描述信息

查看数据库

show databases; # 展示所有数据库

show databases like 'haha*'; # 模糊匹配like；显示包含haha前缀的数据库名称

切换数据库

use test; # 从当前数据库切换到test数据库

删除数据库

drop database test; # 删除test数据库

drop database if exists test; # 如果test数据库存在就删除否则什么也不做

drop database test cascade; # 强制删除test数据库

查看数据库的详细描述

desc database test; # 查看test数据库的详细信息

describe database test; # 查看test数据库的详细信息

七、Hive表操作

显示数据库中的表

show tables; # 显示所有表

show tables like 'tab_*'; # 显示tab_开头的所有表

show tables 'tab_*'; # 显示tab_开头的所有表

desc tab_name; # 显示表的详细信息
describe tab_name; # 显示表的详细信息

创建表

建表语法：

create [external] table [if not exists] table_name (
col_name data_type [comment '字段描述信息']
col_name data_type [comment '字段描述信息'])
[comment '表的描述信息']
[location '指定表的路径']
[partitioned by (col_name data_type,...)]
[clustered by (col_name,col_name,...)]
[sorted by (col_name [asc|desc],...) into num_buckets buckets]
[row format row_format]
[location location_path]

其中中括号[ ]里面为可选参数；发现其最简单的建表语句是：

create table 表名(字段名字段类型)

简单的表创建

create table tab_test(name string, age int);

指定字段分隔符

create table tab_test(name string,age int)
row format delimited fields terminated by ',';

创建外部表

create external table tab_test(name string,age int)
row format delimited fields terminated by ',';

外部表和普通表（内部表）的区别：

外部表有external修饰，表数据保存在hdfs上，该位置由用户指定。删除表时，只会删除表的元数据，所以外部表不是由Hive完全管理的
普通表没有external修饰，表数据保存在Hive默认的路径下，数据完全由Hive管理，删除表时元数据和表数据都会一起删除。

使用场合

希望做数据备份并且不经常改变的数据，存放在外部表可以减少失误操作
数据清洗转换后的中间结果，可以存放在内部表，因为Hive对内部表支持的功能比较全面，方便管理
处理完成的数据由于需要共享，可以存储在外部表，这样能够防止失误操作，增加数据的安全性

创建分区表

create table tab_part(name string,age int)
partitioned by (sex string)
row format delimited fields terminated by ',';

分区表指的是在创建表时指定的partition的分区空间。
partition就是辅助查询，缩小查询范围，加快数据的检索速度和对数据按照一定的规格和条件进行管理。

创建表，指定location

create table tab_location(name string,age int)
row format delimited fields terminated by ','
location 'hdfs://192.168.1.101:9000/user/hive/tables/';

创建带桶的表

create table student(id int,name string,age int)
partitioned by (sex string)
clustered by(id)
sorted by (age) into 2 buckets
row format delimited fields terminated by ',';

分桶是相对分区进行更细粒度的划分。
分桶将整个数据内容按照某列属性值取 hash 值进行区分，具有相同 hash 值的数据进入到同一个文件中。

作用是

取样 sampling 更高效。没有分区的话需要扫描整个数据集。
提升某些查询操作效率，例如 map side join

修改表

添加分区

# 按照sex='male'，sex='female'进行分区
alter table student add partition(sex='male') partition(sex='female');

删除分区

alter table student drop partition(sex='male');

重命名表

alter table table_name rename to new_table_name;

增加列

alter table student add columns (rank string);
或者
alter table student replace columns (height string);

删除表

drop table tab_name;

drop table if exists tab_name;

八、Hive查询结果四大排序

order by
- order by是全局排序，会将所有的数据分发到一个reduce中去。
sort by
- sort by 是对每个reduce中的数据进行排序，确保单个reduce中的数据都是有序的，这样后续对数据使用一次归并排序就可确保数据全局有序。
distribute by
- distribute by 会将数据按照字段进行hash，确保相同内容的数据都分发到同一个reduce中，一般配合 sort by 字段使用。
cluster by
- cluster by 相当于 distribute by 和 sort by 合用，不过 cluster by 只能使用升序排列。

九、Hive函数

Hive 中的函数，分三种：

UDF (一进一出，普通函数)
UDTF (多进一出，聚合函数)
UDAF (一进多出，炸裂函数)

内置函数

关系运算符

操作符	操作数	描述
A = B	所有原始类型	如果表达式A等于表达式B，则为TRUE，否则为FALSE。
A != B	所有原始类型	如果表达式A不等于表达式B，则为TRUE，否则为FALSE。
A < B	所有原始类型	如果表达式A小于表达式B，则为TRUE，否则为FALSE。
A <= B	所有原始类型	如果表达式A小于或等于表达式B，则为TRUE，否则为FALSE。
A > B	所有原始类型	如果表达式A大于表达式B，则为TRUE，否则为FALSE。
A >= B	所有原始类型	如果表达式A大于或等于表达式B，则为TRUE，否则为FALSE。
A IS NULL	所有类型	如果表达式A的计算结果为NULL，则为TRUE，否则为FALSE。
A IS NOT NULL	所有类型	如果表达式A的计算结果为NULL，则为FALSE，否则为TRUE。
A LIKE B	String	如果字符串模式A与B匹配，则为TRUE，否则为FALSE。
A RLIKE B	String	如果A或B为NULL，则为NULL；如果A的任何子字符串与Java正则表达式B匹配，则为TRUE；否则为FALSE。
A REGEXP B	String	与RLIKE相同。

算术运算符

操作符	操作数	描述
A + B	所有数字类型	给出将A和B相加的结果。
A - B	所有数字类型	给出从A减去B的结果。
*A B**	所有数字类型	给出A和B相乘的结果。
A / B	所有数字类型	给出将B除以A的结果。
A % B	所有数字类型	给出由A除以B产生的余数。
A & B	所有数字类型	给出A和B的按位与的结果。
A \| B	所有数字类型	给出A和B的按位或的结果。
A ^ B	所有数字类型	给出A和B的按位XOR（异或）结果。
~A	所有数字类型	给出A的按位NOT的结果。

逻辑运算符

操作符	操作数	描述
A AND B	布尔值	如果A和B均为TRUE，则为TRUE，否则为FALSE。
A && B	布尔值	与A和B相同。
A OR B	布尔值	如果A或B或两者均为TRUE，则为TRUE，否则为FALSE。
A \|\| B	布尔值	与A或B相同。
NOT A	布尔值	如果A为FALSE，则为TRUE，否则为FALSE。
!A	布尔值	与NOT A相同。

复数运算符

操作符	操作数	描述
A[n]	A 是一个数组，n是一个整数	它返回数组A中的第n个元素。第一个元素的索引为0。
M[key]	M 是Map 并且键的类型为K	它返回对应于映射中键的值。
S.x	S 是一个结构	它返回S的x字段。

Hive常用内置函数

查看系统自带的函数（内置函数）

show functions;

默认内置了 289 个函数。通过命令desc function 函数名可以查看自带函数的描述；desc function extended 函数名可查看自带函数详细的用法。

# 1.查看函数描述
hive (test)> desc function upper;
OK
tab_name
upper(str) - Returns str with all characters changed to uppercase
Time taken: 0.014 seconds, Fetched: 1 row(s)

# 2.查看函数详细用法
hive (test)> desc function extended upper;
OK
tab_name
upper(str) - Returns str with all characters changed to uppercase
Synonyms: ucase
Example:
  > SELECT upper('Facebook') FROM src LIMIT 1;
  'FACEBOOK'
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFUpper
Function type:BUILTIN
Time taken: 0.066 seconds, Fetched: 7 row(s)

date_add、date_sub函数（加减天数）

select date_add('2022-9-21',1); # 第一个参数是具体日期，第二个参数是执行加操作的天数

date_format函数

select date_format('2022-9-21','yyyy-MM-dd HH:mm:ss'); # 日期格式化操作

concat函数

select concat("hahahaha","…………","hehehehe");

参考资料

Hive百度百科

Linux-安装MySQL（详细教程）

Hive之深入了解元数据

Hive元数据信息表详解

Hive的数据库和表操作

Hive 内置运算符

你可能感兴趣的:(hive,大数据,hadoop)

Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
qt-5.15.2 源码编译 Linux weixin_40857106 服务器运维
QT官方源码下载地址：https://download.qt.io/archive/qt/5.15/5.15.12/single/qt-everywhere-opensource-src-5.15.12.tar.xz安装Qt所需的依赖：sudoaptinstallbuild-essentiallibgl1-mesa-devlibxkbcommon-devlibnss3-devlibdbus-1-d
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
鸿蒙HarmonyOS开发：应用程序静态包-HAR 让开，我要吃人了鸿蒙开发 OpenHarmony HarmonyOS harmonyos 华为移动开发前端 html 开发语言鸿蒙
HAR（HarmonyArchive）是静态共享包，可以包含代码、C++库、资源和配置文件。通过HAR可以实现多个模块或多个工程共享ArkUI组件、资源等相关代码。使用场景作为二方库，发布到OHPM私仓，供公司内部其他应用使用。作为三方库，发布到OHPM中心仓，供其他应用使用。约束限制HAR不支持在设备上单独安装/运行，只能作为应用模块的依赖项被引用。HAR不支持在配置文件中声明UIAbility
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
flutter 使用xcodebuild 命令打包ipa 肥肥呀呀呀 flutter
苹果打ipa包(注意苹果打包需要连接真机)方式一、1.先执行flutterbuildios生成framework2.执行命令xcodebuild-exportArchive-archivePathbuild/ios/Runner.xcarchive-exportOptionsPlistexportOptions.plist-exportPathbuild/ios/ipaexportOptions.
《基于图神经网络的安卓应用检测系统设计与实现》开题报告大数据蟒行探索者毕业论文/研究报告神经网络 android 人工智能机器学习大数据深度学习 python
个人主页：@大数据蟒行探索者目录一、课题的研究目的和意义1.研究目的2.研究意义二、国内(外)研究现状及分析1.国内研究现状2.国外研究现状3.研究分析三、课题主要研究内容及可行性分析1.研究内容2.可行性分析四、研究方案和技术途径1.研究方案2.技术途径五、外部条件及解决办法1.开发环境2.解决办法六、主要参考文献一、课题的研究目的和意义1.研究目的随着智能手机的普及，安卓操作系统成为全球最为广
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
一文搞懂大数据神器Spark，真的太牛了！ qq_23519469 大数据 spark 分布式
Spark是什么在如今这个大数据时代，数据量呈爆炸式增长，传统的数据处理方式已经难以满足需求。就拿电商平台来说，每天产生的交易数据、用户浏览数据、评论数据等，数量巨大且种类繁多。假如要对这些数据进行分析，比如分析用户的购买行为，找出最受欢迎的商品，预测未来的销售趋势等，用普通的单机处理方式，可能需要花费很长时间，甚至根本无法完成。这时，Spark就应运而生了。Spark是一个开源的、基于内存计算的
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
数据湖：Apache Iceberg在腾讯的探索和实践学而知之@ 数据库腾讯大数据 java 编程语言
摘要：今天分享的是ApacheIceberg在腾讯内部的探索和实践。本文结合腾讯大数据技术分享内容和2020全球软件开发大会分享内容进行整理，主要内容包括：1、数据湖技术概述2、ApacheIceberg的简介3、腾讯为什么选择ApacheIceberg4、腾讯看点万亿数据下的业务痛点5、ApacheIceberg在看点实践6、ApacheIceberg读写和删除ApacheIceberg新一代数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
Java 大视界 -- 基于 Java 的大数据实时流处理中的窗口操作与时间语义详解（135）青云交大数据新视界 Java 大视界 java 大数据大数据实时流处理窗口操作时间语义滚动窗口滑动窗口
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Lisp语言的云存储俞嫦曦包罗万象 golang 开发语言后端
Lisp语言的云存储：构建智能化数据管理新时代引言随着信息技术的飞速发展，数据的生产和存储呈现出爆炸式增长。云存储作为一种新兴的数据管理方式，逐渐成为各行业必不可少的基础设施。尤其是在大数据、人工智能等领域，对数据的快速访问和高效存储要求尤为迫切。与此同时，Lisp语言作为一种历史悠久且具有强大表达能力的编程语言，通过其特有的特性，可以在云存储的架构设计与实现方面发挥独特的优势。本文将深入探讨Li
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户