不忘初欣丶

Hive 数据表操作

文章目录

1. 数据类型
2. 表操作
- - 2.1 表的创建
  - 2.2 删除表
3. 内部表和外部表
- 3.1 内部表和外部表的区别
- - 3.1.1 内部表
  - 3.1.2 外部表
- 3.2 创建内部表
- 3.3 创建外部表
- 3.4 内外部表转换
4. 数据加载和导出
- 4.1 数据加载
- - 4.1.1 `LOAD关键字`加载数据
  - 4.1.2 `INSERT SELECT` 加载数据
  - 4.1.3 数加载的选择
- 4.2 数据导出
- - 4.2.1 `insert overwrite`
  - 4.2.2 `hive shell`
5. 复杂类型数据使用
- 5.1 array类型
- 5.2 map类型
- 5.3 struct类型
6. 分区表
- 6.1 分区表概述
- 6.2 分区表创建相关语法
7. 分桶表
- 7.1 分桶表概述
- 7.2 分桶表的创建
- 7.3 分桶表数据的加载
8. 修改表
- 8.1 修改表相关语句

1. 数据类型

Hive中支持的数据类型如下：

Hive中支持的数据类型比较多，其中红色是使用比较多的类型。

2. 表操作

2.1 表的创建

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
	[(col_name data_type [COMMENT col_comment], ...)]
	[COMMENT table_comment]
	[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
	[CLUSTERED BY (col_name, col_name, ...)]
	[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
	[ROW FORMAT row_format]
	[STORED AS file_format]
	[LOCATION hdfs_path]

创建表关键字解释：
EXTERNAL：创建外部表
PARTITIONED BY：分区表
CLUSTERED BY：分桶表
STORED AS：存储格式
LOCATION：存储位置
…

-- 简单表创建类似mysql中创建表：
CREATE TABLE test(
	id INT,
    name STRING,
    gender STRING
);

2.2 删除表

DROP TABLE table_name;

3. 内部表和外部表

3.1 内部表和外部表的区别

3.1.1 内部表

未被external关键字修饰的即是内部表，即普通表。内部表又称管理表，内部表数据存储的位置由hive.metastore.warehouse.dir参数决定（默认：/user/hive/warehouse），删除内部表会直接删除元数据（metadata）及存储数据，因此内部表不适合和其他工具共享数据。

3.1.2 外部表

被external关键字修饰的即是外部表。外部表是指表数据可以在任何位置，通过LOCATION关键字指定。数据存储的不同也代表了这个表在理念是并不是Hive内部管理的，而是可以随意临时链接到外部数据上的。所以，在删除外部表的时候，仅仅是删除元数据（表的信息），不会删除数据本身。

3.2 创建内部表

基础表创建：

-- 创建一个基础的内部表
create table if not exists stu(id int,name string);

创建表，默认的数据分隔符是\001，是一种特殊字符，是ASCII值，键盘是打不出来的，且在某些文本编辑器中的显示是为SOH。

指定分隔符

-- 自行指定分隔符 '\t'
create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t';

row format delimited fields terminated by '\t'：表示以\t分隔

其他创建表形式：

-- 1. 基于查询结果建表，CREATE TABLE table_name as
create table stu3 as select * from stu2;

-- 2. 基于已存在的表结构建表，CREATE TABLE table_name like
create table stu4 like stu2;

-- 查看表类型和详情
DESC FORMATTED stu2;

删除内部表：

DROP TABLE table_name：删除表

删除内部表，表信息以及表数据全部都被删除

3.3 创建外部表

外部表，创建表被EXTERNAL关键字修饰，从概念是被认为并非Hive拥有的表，只是临时关联数据去使用。创建外部表也很简单，基于外部表的特性，可以总结出：外部表和数据是相互独立的。

可以先有表，然后把数据移动到表指定的LOCATION中
也可以先有数据，然后创建表通过LOCATION指向数据

先创建外部表，然后移动数据到location目录：

-- 1. 首先创建文件 test_external.txt，并添加如下内容
1	hadoop
2	spark
3	hive

-- 2. 创建外部表：
create external table test_ext1(id int, name string) row format delimited fields terminated by ‘\t’ location ‘/tmp/test_ext1’;

-- 3. 可以看到，目录/tmp/test_ext1被创建
select * from test_ext1，空结果，无数据

-- 4. 上传数据： 
hadoop fs -put test_external.txt /tmp/test_ext1/ 

-- 5. 查看数据
select * from test_ext1

先存在数据，后创建外部表：

-- 1. hdfs上创建目录
hadoop fs -mkdir /tmp/test_ext2

-- 2. 上传文件到hdfs指定目录下
hadoop fs -put test_external.txt /tmp/test_ext2/

-- 3. 创建外部表，指定数据地址
create external table test_ext2(id int, name string) row format delimited fields terminated by ‘\t’ location ‘/tmp/test_ext2’;

-- 4. 查询数据
select * from test_ext2;

删除外部表：

drop table test_ext1;
drop table test_ext2;

外部表删除后，表的元数据信息不存在了，但是hdfs上的数据文件依旧存在

3.4 内外部表转换

-- 内部表转外部表
alter table stu set tblproperties('EXTERNAL'='TRUE');

-- 外部表转内部表
alter table stu set tblproperties('EXTERNAL'='FALSE');

可以通过desc formatted stu;语句查看表类型

4. 数据加载和导出

4.1 数据加载

4.1.1 `LOAD关键字`加载数据

使用load语法将外部数据加载到hive内

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename;

LOAD：加载数据关键字
[LOCAL]：数据是否在本地，如果使用了local关键字，数据不在HDFS，需要使用file://协议指定路径；不使用local关键字，数据在HDFS，可以使用hdfs://协议指定路径
[OVERWRITE]：是否覆盖已经存在的数据，使用overwrite进行覆盖，不使用``overwrite则不覆盖

-- 加载本地数据到hive表中
load data local inpath '/home/hadoop/search_log.txt' into table myhive.test_load;

-- 加载hdfs中的数据到表中
load data inpath '/tmp/search_log.txt' overwrite into table myhive.test_load;

注意：基于HDFS进行load加载数据，源数据文件会消失（本质是被移动到表所在的目录中）

4.1.2 `INSERT SELECT` 加载数据

通过SQL语句查询的方式，将查询语句的结果插入到其他表中，被SELECT查询的表可以是内部表或者外部表

INSERT [OVERWRITE | INTO] TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;

INSERT INTO TABLE tbl1 SELECT * FROM tbl2;

-- 覆盖加载
INSERT OVERWRITE TABLE tbl1 SELECT * FROM tbl2;

4.1.3 数加载的选择

数据在本地：推荐使用 load data local
数据在HDFS：如果不保留原始文件，推荐使用LOAD方式加载；如果保留原始文件，推荐使用外部表先关联数据，然后通过INSERT SELECT 外部表的形式加载数据
数据已经在表中：只可以使用INSERT SELECT

4.2 数据导出

4.2.1 `insert overwrite`

将hive表中的数据导出到其他任意目录，例如linux本地磁盘，例如hdfs，例如mysql等

insert overwrite [local] directory ‘path’ select_statement1 FROM from_statement;

-- 将查询的结果导出到本地 - 使用默认列分隔符
insert overwrite local directory '/home/hadoop/export1' select * from test_load ;

-- 将查询的结果导出到本地 - 指定列分隔符
insert overwrite local directory '/home/hadoop/export2' row format delimited fields terminated by '\t' select * from test_load;

-- 将查询的结果导出到HDFS上(不带local关键字)
insert overwrite directory '/tmp/export' row format delimited fields terminated by '\t' select * from test_load;

4.2.2 `hive shell`

-- 执行SQL语句的方式导出
bin/hive -e "select * from myhive.test_load;" > /home/hadoop/export3/export4.txt

-- 执行SQL脚本的方式导出
bin/hive -f export.sql > /home/hadoop/export4/export4.txt

5. 复杂类型数据使用

5.1 array类型

建表语句

create table myhive.test_array(name string, work_locations array<string>)
row format delimited fields terminated by '\t'
COLLECTION ITEMS TERMINATED BY ',';

row format delimited fields terminated by '\t'：表示列分隔符是\t
COLLECTION ITEMS TERMINATED BY ','：表示集合（array）元素的分隔符是逗号

查询相关

-- 1. 查询所有数据
select * from myhive.test_array;

-- 2. 查询loction数组中第一个元素
select name, work_locations[0] location from myhive.test_array;

-- 3. 查询location数组中元素的个数
select name, size(work_locations) location from myhive.test_array;

-- 4. 查询location数组中包含tianjin的信息
select * from myhive.test_array where array_contains(work_locations,'tianjin');

5.2 map类型

map类型其实就是简单的指代：Key-Value型数据格式。有如下数据文件，其中members字段是key-value型数据
字段与字段分隔符: “,”；需要map字段之间的分隔符："#"；map内部k-v分隔符：":"

id,name,members,age
1,zhangsan,father:xiaoming#mother:xiaohuang#brother:xiaoxu,28
2,lisi,father:mayun#mother:huangyi#brother:guanyu,22
3,wangwu,father:wangjianlin#mother:ruhua#sister:jingtian,29
4,mayun,father:mayongzhen#mother:angelababy,26

建表语句

-- MAP KEYS TERMINATED BY ':' 表示key-value之间用:分隔；COLLECTION ITEMS TERMINATED BY '#'表示map类型数据之间的数据用#分割
create table myhive.test_map(
id int, name string, members map<string,string>, age int
)
row format delimited
fields terminated by ','
COLLECTION ITEMS TERMINATED BY '#' 
MAP KEYS TERMINATED BY ':';

常用查询

# 1. 查询全部
select * from myhive.test_map;

# 2. 查询father、mother这两个map的key
select id, name, members['father'] father, members['mother'] mother, age from myhive.test_map;
# 3. 查询全部map的key，使用map_keys函数，结果是array类型
select id, name, map_keys(members) as relation from myhive.test_map;
# 4. 查询全部map的value，使用map_values函数，结果是array类型
select id, name, map_values(members) as relation from myhive.test_map;
# 5. 查询map类型的KV对数量
select id,name,size(members) num from myhive.test_map;
# 6. 查询map的key中有brother的数据
select * from myhive.test_map where array_contains(map_keys(members), 'brother');

5.3 struct类型

struct类型是一个复合类型，可以在一个列中存入多个子列，每个子列允许设置类型和名称

-- 字段之间用#分割，struct之间冒号分割
1#周杰轮:11
2#林均杰:16
3#刘德滑:21
4#张学油:26
5#蔡依临:23

建表语句

create table myhive.test_struct(
id string, info struct<name:string, age:int>
)
row format delimited
fields terminated by '#'
COLLECTION ITEMS TERMINATED BY ':';

常用查询

-- 直接使用列名.子列名 即可从struct中取出子列查询
select ip, info.name from hive_struct;

6. 分区表

6.1 分区表概述

在Hive中，我们可以把大的数据，按照每天，或者每小时进行切分成一个个的小文件，这样操作小文件速度就会快很多而且更加容易

如下图student表，按照月份进行分区（单分区表），每个分区就是一个文件夹

同时Hive也支持多个字段分区，多分区带有层级关系，如下图：

6.2 分区表创建相关语法

语法如下：

create table tablename(...) partitioned by (分区列 列类型, ......) 
row format delimited fields terminated by '';

7. 分桶表

7.1 分桶表概述

分桶和分区一样，也是一种通过改变表的存储模式，从而完成对表优化的一种调优方式。但和分区不同，分区是将表拆分到不同的子文件夹中进行存储，而分桶是将表拆分到固定数量的不同文件中进行存储

7.2 分桶表的创建

-- 1. 开启分桶的自动优化（自动匹配reduce task数量和桶数量一致）
set hive.enforce.bucketing=true;

-- 2. 通过 clustered by指定分桶字段，into num buckets指定分桶数量
create table course (c_id string,c_name string,t_id string) clustered by(c_id) into 3 buckets row format delimited fields terminated by '\t';

7.3 分桶表数据的加载

分桶表的数据加载通过load data无法执行，只能通过insert select

创建一个临时表（外部表或内部表），可以通过load data 加载数据进入表
然后通过insert select从临时表向分桶表中插入数据

-- 1. 创建临时表
create table course(id string, name string) row format delimited fields terminated by '\t';

-- 2. 向普通表中加载数据
load data local inpath 'course.txt' into table course;

-- 3. 通过 insert overwrite select给分桶表加载数据
insert overwrite table course select * from course cluster by(id);

为什么分桶表加载数据不可以使用load data，只能使用insert select插入数据？

一旦有了分桶设置，比如分桶数量为3，那么，表内文件或分区内数据文件的数量就限定为3，当数据插入的时候，需要一分为3，进入三个桶文件内。那么如何将数据分成三份，划分的规则是什么？数据的三份划分基于分桶列的值进行hash取模来决定。由于load data不会触发MapReduce，也就是没有计算过程（无法执行Hash算法），只是简单的移动数据而已，所以无法用于分桶表数据插入。因此必须使用insert select的语法，因为会触发MapReduce，进行hash取模计算。

分桶表的性能提升：

分区表的性能提升：在指定分区列的前提下，减少被操作的数据量，从而提升性能
分桶表的性能提升：基于分桶列的特定操作，如：过滤、JOIN、分组，均可带来性能提升。

同样的数据被Hash加密后的结果是一致的，如hadoop hash取模结果是1，无论计算多少次，字符串hadoop的取模结果都是1。因此同样key（分桶列的值）的数据，会在同一个桶中。

8. 修改表

8.1 修改表相关语句

表的重命名

语法：alter table old_table_name rename to new_table_name;

alter table score rename to score5;

修改表属性值

语法：ALTER TABLE table_name SET TBLPROPERTIES table_properties;

-- 修改内外部表属性
ALTER TABLE table_name SET TBLPROPERTIES("EXTERNAL"="TRUE");  

-- 修改表注释
如：ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment);

更多属性修改：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-listTableProperties

添加分区

ALTER TABLE tablename  ADD PARTITION (month='201101');

新分区是空的没数据，需要手动添加或上传数据文件

修改分区值

ALTER TABLE tablename PARTITION (month='202304') RENAME TO PARTITION (month='202305');

删除分区

ALTER TABLE tablename DROP PARTITION (month='202304');

添加列

ALTER TABLE table_name ADD COLUMNS (v1 int, v2 string);

修改列名

ALTER TABLE test_change CHANGE v1 v1new INT;

删除表

DROP TABLE tablename;

清空表

-- 只能清空内部表
TRUNCATE TABLE tablename;

你可能感兴趣的:(hive,分布式,大数据,hive)

Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
探秘阿里云消息队列：解锁分布式系统的异步通信奥秘云资源服务商阿里云云计算中间件
阿里云消息队列：分布式架构的基石在当今数字化快速发展的时代，分布式系统已成为企业构建高可用、高性能应用的关键架构。而消息队列，作为分布式系统中的重要组件，犹如基石一般，支撑着整个架构的稳定运行。它能够有效地解决分布式系统中的异步通信、解耦、削峰填谷等问题，为系统的可靠性和扩展性提供了强大的保障。阿里云作为云计算领域的领军者，其推出的阿里云消息队列凭借着卓越的性能、高可靠性以及丰富的功能，成为了众多
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
Hive适用语法 `whyYa hive hadoop 数据仓库
一、日期处理函数总结1.trunc()–取日期中当月第一天trunc(‘2022-12-05’,‘MM’)--取当月第一天2022-12-01trunc(‘2022-12-05’,‘Q’)--季度中的第一天2022-10-01trunc(‘2022-12-03’,‘YEAR’)–取当年第一天20222.last_day()–取当月最后一天last_day(‘2022-12-03’)3.month(
1-Kafka介绍及常见应用场景 sql2008help kafka 分布式
Kafka介绍ApacheKafka是一个开源的分布式流处理平台，最初由LinkedIn开发，后捐赠给Apache软件基金会。它被设计用于高吞吐量、低延迟、可水平扩展地处理实时数据流。官网地址是：https://kafka.apache.org/以下是Kafka的核心介绍：核心概念消息系统(MessagingSystem)Kafka充当生产者和消费者之间的消息中间件，解耦系统，确保可靠的数据传递。
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
基于 Java 的电商业务秒杀商品高并发、数据一致性、系统性能等多个方面设计方案一杯冰美式_丶 java 开发语言
1.需求分析高并发：大量用户同时抢购，系统需要支持高并发请求。库存一致性：避免超卖（库存减为负数）或数据不一致。高性能：响应时间要短，用户体验要好。公平性：先到先得，避免作弊。2.技术选型缓存：使用Redis缓存商品库存和秒杀结果，减少数据库压力。消息队列：使用RabbitMQ或Kafka异步处理订单，削峰填谷。数据库：MySQL存储订单和商品信息，使用事务保证数据一致性。分布式锁：使用Redis
告别重复订单！分布式ID生成核心方案全揭秘山海上的风分布式 java
《告别重复订单！分布式ID生成核心方案全揭秘》你可能用过UUID，却饱受索引性能折磨；你尝试过数据库自增ID，却在分库分表时束手无策；你研究过雪花算法，却被时钟回拨问题困扰……分布式订单ID生成究竟有没有完美方案？本文将为你一一拆解，并给出企业级最优解！一、为什么订单ID如此关键？（示意图：分布式订单系统）需求维度技术指标灾难案例全局唯一零冲突概率重复订单导致财务对账崩溃高性能10万+TPS秒杀活
Java微服务框架技术选型全景报告 chanalbert 技术选型 java java 微服务框架技术选型
一、核心框架深度解析1.1Spring生态体系组件关键特性适用场景SpringBoot-约定优于配置+自动装配（Starter）-内嵌Tomcat/Jetty容器-Actuator监控端点企业级单体应用/传统系统迁移SpringCloud-微服务全家桶（Eureka/Zuul/Config）-强事务管理（SpringTX）-生态兼容性最佳复杂分布式系统WebFlux-响应式编程模型（Reactor
debian安装docker Sahas1019 debian docker eureka
debian安装docker/dev/null对于Debian11(bullseye)或更新版本：echo\"deb[arch=$(dpkg--print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg]https://download.docker.com/linux/debian\$(lsb_relea
Zookeeper的典型应用场景?
大家好，我是锋哥。今天分享关于【Zookeeper的典型应用场景?】面试题。希望对大家有帮助；Zookeeper的典型应用场景?超硬核AI学习资料，现在永久免费了！Zookeeper是一个开源的分布式协调服务，它被广泛应用于需要分布式系统协调的场景。以下是Zookeeper的一些典型应用场景：1.分布式锁在分布式系统中，多个节点可能需要对共享资源进行访问，这时就需要确保访问的排他性。Zookeep
Ubuntu22.04安装cudnn详细步骤大鹏的NLP博客深度学习 cudnn
下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb根据上步提示：sudocp/var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn
NCCL 核心集体通信操作深度解析：从原理到优化实践清风 001 AI大模型底层建设 gpu算力 ai
目录引言：NCCL——分布式训练的通信引擎一、NCCL基础：GPU通信的“加速器”1.1NCCL与MPI的协同1.2集体通信的价值二、NCCL核心操作深度解析2.1AllGather：全局数据聚合2.1.1定义与目标2.1.2算法原理2.1.3性能影响因素2.1.4测试方法（nccl-tests）2.2AllReduce：梯度聚合的核心2.2.1定义与目标2.2.2算法原理2.2.3性能影响因素2
Scrapy与分布式开发(2.3)：lxml+xpath基本指令和提取方法详解九月镇灵将打造高效爬虫系统 scrapy 分布式 xpath lxml
lxml+xpath基本指令和提取方法详解一、XPath简介XPath，全称为XMLPathLanguage，是一种在XML文档中查找信息的语言。它允许用户通过简单的路径表达式在XML文档中进行导航。XPath不仅适用于XML，还常用于处理HTML文档。二、基本指令和提取方法选择节点使用XPath，你可以轻松地选择XML文档中的节点。*选择根节点：/*选择子节点：/parent/child*选择所
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
HBase总结
HBase1.HBase核心概念HBase的作用HBase主要用于存储和管理超大规模的结构化或半结构化数据（如PB级），特点包括：高扩展性：通过分布式架构横向扩展，支持数千台服务器高吞吐量：适合实时随机读写（如用户行为日志、实时分析）强一致性：保证同一行数据的原子性操作灵活的数据模型：支持动态列和稀疏存储典型应用场景：互联网公司的用户行为日志存储（如点击流数据）社交媒体的实时消息存储物联网设备时序
assembly : maven assembly打包报错：maven to create assembly : unable to obtain archiver for extension 九师兄工具-maven
原因是没有添加org.apache.maven.plugins<artifactId
GlusterFS 分布式文件系统详解 Sally璐璐运维运维
一、核心特性高扩展性GlusterFS采用无共享架构，支持横向扩展，只需添加服务器节点即可提升存储容量和性能，理论上可达PB甚至EB级规模，且扩展过程对上层应用完全透明。例如，一个初始4节点、20TB的集群可无缝扩展至100节点、500TB规模，仅需执行简单扩容命令，无需中断服务或数据迁移。详细扩容步骤：准备新服务器并安装GlusterFS软件确保操作系统版本兼容安装glusterfs-serve
KaiwuDB X 济南大数据局：构建城市级重点车辆智慧监管中枢数据库
项目背景2022年2月14日，交通运输部联合多部门对《道路运输车辆动态监督管理办法》进行重要修订。新规突出"科技强监"理念，明确要求各级管理机构依托智能监管平台构建常态化监管机制：一方面强化对重点营运车辆的动态监测，另一方面建立事故预防预警体系。这一政策不仅为城市重点车辆监管提供了权威的政策指引，更在全国范围内掀起了监管平台智能化升级的热潮。作为城市治理的中枢部门，济南市大数据局肩负着重点车辆监管
什么是 Web3？
Web3是用来描述互联网下一代迭代的术语，它建立在区块链技术之上，由用户共同控制。第三次会成功吗？互联网一直在发展和变化。但不仅仅是网站和平台会时好时坏；构建互联网的代码本身也在不断变化。在过去的几年中，一些技术未来学家开始将计算机科学家GavinWood创造的术语Web3视为未来事物的标志。Web3是一种建立在区块链上的新型去中心化互联网，区块链是由参与者共同控制的分布式账本。由于区块链的集体性
区块链技术如何促进算力生态的发展？ VV- Wxiaoxwen 软件工程开源软件软件构建
区块链技术可通过优化共识机制、推动分布式算力发展、促进算力资源共享等方式，从提升效率、拓展应用场景、优化资源配置等方面促进算力生态的发展，具体如下：-优化共识机制提升算力效率：传统的工作量证明（PoW）共识机制依赖大量计算资源，能耗高且效率低。而权益证明（PoS）、委任权益证明（DPoS）等新型共识机制的出现，减少了对挖矿算力的依赖，能在保证安全性的前提下，大幅降低算力需求，提高能源利用效率，使区
分布式系统与RPC框架介绍 jjkkzzzz 分布式系统 rpc
分布式系统是什么？分布式系统是由多台独立的计算节点通过网络协同组成的系统，多个节点对外表现为一个整体，共同完成一个业务目标。这些节点可以是不同物理机、虚拟机、容器，也可以位于不同地理位置。分布式系统特点：多节点协作：系统中的多个服务进程分布在不同机器上。网络通信：节点间通过网络（通常通过RPC）通信。透明性：用户感知不到后端有多少节点。容错能力：节点故障不会影响整体系统的可用性。为什么需要分布式系
Rust之从零开始构建分布式事务数据库莲华君 rust 分布式数据库
目录第一部分：Rust基础与数据库基础Rust语言基础Rust的特点与优势Rust的内存安全与并发模型Rust工具链与开发环境搭建数据库基本原理关系型数据库与非关系型数据库数据库的事务管理原理ACID与BASE理论分布式系统与数据库的挑战第二部分：分布式数据库核心架构分布式数据库的设计原则CAP理论与BASE理论数据分片与复制数据一致性与可用性的权衡数据持久化与恢复策略分布式事务的基础事务的ACI
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

Hive 数据表操作

文章目录

1. 数据类型

2. 表操作

2.1 表的创建

2.2 删除表

3. 内部表和外部表

3.1 内部表和外部表的区别

3.1.1 内部表

3.1.2 外部表

3.2 创建内部表

3.3 创建外部表

3.4 内外部表转换

4. 数据加载和导出

4.1 数据加载

4.1.1 LOAD关键字加载数据

4.1.2 INSERT SELECT 加载数据

4.1.3 数加载的选择

4.2 数据导出

4.2.1 insert overwrite

4.2.2 hive shell

5. 复杂类型数据使用

5.1 array类型

5.2 map类型

5.3 struct类型

6. 分区表

6.1 分区表概述

6.2 分区表创建相关语法

7. 分桶表

7.1 分桶表概述

7.2 分桶表的创建

7.3 分桶表数据的加载

8. 修改表

8.1 修改表相关语句

你可能感兴趣的:(hive,分布式,大数据,hive)

4.1.1 `LOAD关键字`加载数据

4.1.2 `INSERT SELECT` 加载数据

4.2.1 `insert overwrite`

4.2.2 `hive shell`