缘友一世

探索Apache Hive：融合专业性、趣味性和吸引力的数据库操作奇幻之旅

文章目录

版权声明
一数据库操作
二 Hive数据表操作
- 2.1 表操作语法和数据类型
- 2.2 Hive表分类
- 2.3 内部表Vs外部表
- 2.4 内部表操作
- - 2.4.1 创建内部表
  - 2.4.2 其他创建内部表的形式
  - 2.4.3 数据分隔符
  - 2.4.4 自定义分隔符
  - 2.4.5 删除内部表
- 2.5 外部表操作
- - 2.5.1 创建外部表
  - 2.5.2 操作演示
  - 2.5.3 演示先建表后移动数据
  - 2.5.4 演示先存在数据后建表
  - 2.5.5 删除外部表
- 2.6 Hive内外表转化
- 2.7 Hive数据加载和导出
- - 2.7.1 数据加载-LOAD语法
  - 2.7.2 数据加载-insert select语法
  - 2.7.3 数据加载-两种语法的选择
  - 2.7.4 hive表数据导出-insert overwrite方式
  - 2.7.5 hive表数据导出-hive shell
- 2.8 分区表
- - 2.8.1 创建分区
  - 2.8.2 加载数据
  - 2.8.3 查看分区
  - 2.8.4 添加分区
  - 2.8.5 修改分区位置
  - 2.8.6 修改分区值
  - 2.8.7 删除分区
- 2.9 分桶表
- - 2.9.1 创建分桶表
  - 2.9.2 分桶表数据加载
  - 2.9.3 原因解释
  - 2.9.4 分桶表的性能提升
- 2.10 修改表
- 2.11 复杂类型
- - 2.11.1 array类型
  - 2.11.2 map类型
  - 2.11.3 struct类型
  - 2.11.4 三种结构总结

版权声明

本博客的内容基于我个人学习黑马程序员课程的学习笔记整理而成。我特此声明，所有版权属于黑马程序员或相关权利人所有。本博客的目的仅为个人学习和交流之用，并非商业用途。
我在整理学习笔记的过程中尽力确保准确性，但无法保证内容的完整性和时效性。本博客的内容可能会随着时间的推移而过时或需要更新。
若您是黑马程序员或相关权利人，如有任何侵犯版权的地方，请您及时联系我，我将立即予以删除或进行必要的修改。
对于其他读者，请在阅读本博客内容时保持遵守相关法律法规和道德准则，谨慎参考，并自行承担因此产生的风险和责任。

一数据库操作

创建数据库

create database if not exists myhive;
use myhive;

查看数据库详细信息
```
desc database myhive;
```
数据库本质上就是HDFS上的文件夹。默认数据库的存放路径位于HDFS的/user/hive/warehouse内
创建数据库并指定hdfs存储位置

# 使用location关键字，指定数据库在HDFS的存储路径
create database myhive2 location '/myhive2 ';

删除一个空数据库，如果数据库下面有数据表，那么就会报错

drop database myhive;

强制删除数据库，包含数据库下面的表一起删除

drop database myhive2cascade;

二 Hive数据表操作

2.1 表操作语法和数据类型

CREATE [EXTERNAL] TABLE[IF NOT EXISTS] tabLe_name
	[(col_namedata_type [COMMENT col_comment], ...)]
	[COMMENT table_comment]
	[PARTITIONED BY (col_name data_type [CoMMENTcol_comment], ...)]
	[CLUSTERED BY (col_name,col_name,...)
	[SORTED BY (col_name[ASC|DESC],...)] INTO num_buckets BUCKETS]
	[ROW FORMAT row_format]
	[STORED AS file_format]
	[LOCATION hdfs_path]

EXTERNAL：创建外部表
PARTITIONED BY：分区表
CLUSTERED BY：分桶表
STORED AS：存储格式
LOCATION：存储位置

2.2 Hive表分类

在Apache Hive中，可以创建不同类型的表，包括内部表（Managed Table）、外部表（External Table）、分区表（Partitioned Table）和分桶表（Bucketed Table）。

内部表（Managed Table）：
- 内部表也称为托管表，是Hive的默认表类型。
- 数据和元数据都由Hive管理，存储在Hive的默认文件系统（通常是Hadoop分布式文件系统）中。当删除内部表时，Hive也会删除相关的数据和元数据。
- 内部表适合于数据集完全由Hive管理和控制的情况。
外部表（External Table）：
- 外部表是指数据和元数据都存储在外部存储系统中，例如Hadoop分布式文件系统（HDFS）或云存储服务（如Amazon S3）。
- 与内部表不同，当删除外部表时，Hive只删除元数据而不会删除实际的数据。这种特性使得外部表适合于与其他系统共享数据或将已有数据引入Hive的场景。
分区表（Partitioned Table）：
- 分区表将数据按照一或多个分区键（如日期、地区等）切分成不同的分区存储，这样可以更高效地管理和查询数据。
- 分区表允许用户在查询时只加载特定分区的数据，而不必加载整个表。
- 分区表适用于按照某种规则对数据进行组织和查询的场景。
分桶表（Bucketed Table）：
- 分桶表是在分区表的基础上进一步细分数据的方法。
- 分桶表将每个分区划分为固定数量的桶（buckets），其中数据根据特定的列哈希算法进行分桶。
- 分桶表可以改善查询性能，特别是当你经常需要基于某个列进行连接操作时。分桶表通常与分区表结合使用。

总结
- 内部表适合完全由Hive管理的数据集，外部表适合与其他系统共享或引入数据，分区表适合按照特定规则组织和查询数据，而分桶表则是进一步细分数据以改善查询性能的一种方式。

2.3 内部表Vs外部表

	内部表（Managed Table）	外部表（External Table）
创建语法	CREATE TABLE table_name …	CREATE EXTERNAL TABLE table_name … LOCATION …
存储位置	由Hive管理，存储在Hive默认文件系统中	可在任何位置，通过LOCATION关键字指定
元数据和数据	Hive管理和控制元数据和数据	仅Hive管理元数据，不控制实际数据
删除表时的行为	删除表会同时删除元数据和存储的数据	仅删除表的元数据，不删除实际数据
适用场景	数据集完全由Hive管理和控制的情况	与其他系统共享数据，引入已有数据的场景
与其他工具的共享性	不适合与其他工具共享数据	可以随意临时连接到外部数据上

内部表（Managed Table）是由Hive管理和控制的表，数据和元数据由Hive存储和管理。删除内部表时会删除相关的数据和元数据。适合数据完全由Hive管理和控制的场景。
外部表（External Table）是关联到外部数据的表，数据存储位置可以在任何地方，通过LOCATION关键字指定。删除外部表时仅删除元数据，不会删除实际数据。适合与其他系统共享数据或引入已有数据的场景。

2.4 内部表操作

2.4.1 创建内部表

内部表创建语法
```
CREATE TABLE table_name ...
```

演示

创建一个基础的表

create database if not exists myhive;
use myhive;
create table if not exists stu(id int, name string);
insert into stu values ( 1,"zhangsan")，(2， "wangwu");
select *from stu;

查看表的数据存储

hadoop fs -ls /user/hive/warehouse/myhive.db/stu
hadoop fs -cat /user/hive/warehouse/myhive.db/stu/*

2.4.2 其他创建内部表的形式

基于查询结果建表

CREATE TABLE table_name as
-- 示例
create table stu3 as select * from stu2;

基于已存在的表结构建表

CREATE TABLE table_namelike
-- 示例
create table stu4 like stu2;

使用DESCFORMATTEDtable_name，查看表类型和详情

DESC FORMATTED Stu2;

2.4.3 数据分隔符

数据在HDFS上也是以明文文件存在的。奇怪的是，列ID和列NAME，好像没有分隔符，而是挤在一起的。
默认的数据分隔符是:"\001"是一种特殊字符，是ASCII值，键盘是打不出来
在某些文本编辑器中是显示为SOH的。

2.4.4 自定义分隔符

create table if not exists stu2(id int ,name string) row format delimited fields terminated by '\t' ;

row format delimited fields terminated by '\t' ;表示使用\t分隔

2.4.5 删除内部表

删除内部表时会删除相关的数据和元数据

drop table table_name;

2.5 外部表操作

2.5.1 创建外部表

创建外部表语法

CREATE EXTERNAL TABLE table_name ... LOCATION ...

外部表，创建表被EXTERNAL关键字修饰，从概念是被认为并非Hive拥有的表，只是临时关联数据去使用。
外部表和数据是相互独立的，即: 可以先有表，然后把数据移动到表指定的LOCATION中。也可以先有数据，然后创建表通过LOCATION指向数据

2.5.2 操作演示

在Linux上创建新文件，test_external.txt，并填入如下内容，数据列使用\t分隔:

1	hello
2	world
3	hadoop

2.5.3 演示先建表后移动数据

演示先创建外部表，然后移动数据到LOCATION目录
- 首先检查: hadoop fs -ls /tmp，确认不存在/tmp/test_ext1目录
- 创建外部表:
```
create external table test_ext1(id int，name string) row format delimited fields terminated by '\t' location ' /tmp/test_ext1';
```
- 创建成功后，查看表数据内容为空
```
select * from test_ext1
```
- 上传数据，即可看到数据结果

hadoop fs -put test_external.txt /tmp/test_ext1. select * from test_ext1

2.5.4 演示先存在数据后建表

hadoop fs -mkdir /tmp/test_ext2
hadoop fs -put test_external.txt /tmp/test_ext2/
create external table test_ext2(id int,name string) row format delimited fieldsterminated by '\t' location '/tmp/test_ext2';
select * from test_ext2;

2.5.5 删除外部表

删除外部表语句

DROP TABLE table_name;

注意：DROP TABLE语句仅会删除表的元数据，不会删除外部表所关联的实际数据。 执行这个语句后，Hive会删除指定的外部表的元数据信息，包括表结构、分区信息和位置等，但并不会删除外部表所关联的实际数据。如果你想要同时删除外部表的数据，可以手动删除存储在外部位置的数据文件或目录。

2.6 Hive内外表转化

查看表类型: desc formatted table_name;
Hive可以很简单的通过SQL语句转换内外部表。

内部表转外部表

alter table table_name set tblproperties('EXTERNAL'='TRUE');

外部表转内部表

alter table table_name set tblproperties('EXTERNAL'='FALSE');

要注意:(‘EXTERNAL’=‘FALSE’)或(‘EXTERNAL’=‘TRUE’)为固定写法，区分大小写! ! !

2.7 Hive数据加载和导出

2.7.1 数据加载-LOAD语法

语法
注意，基于HDFS进行load加载数据，源数据文件会消失(本质是被移动到表所在的目录中)

示例

load data local inpath '/home/hadoop/search_log.txt' into table myhive.test_load;
load data inpath '/tmp/search_log.txt' overwrite into table myhive.test_load;

2.7.2 数据加载-insert select语法

语法

INSERT [OVERWRITE | INTO] TABLE tablename1 [PARTITION (partcol=vall, partcol2=val2 ...) [TF NOTEXISTS]] select_statement1 FROM from_statement;

将SELECT查询语句的结果插入到其它表中，被SELECT查询的表可以是内部表或外部表。

2.7.3 数据加载-两种语法的选择

2.7.4 hive表数据导出-insert overwrite方式

语法:

insert overwrite [local] directory 'path' select_statement1 FROM from_statement;

将hive表中的数据导出到其他任意目录，例如linux本地磁盘，例如hdfs，例如mysq|等等
将查询的结果导出到本地－使用默认列分隔符

insert overwrite local directory '/home/hadoop/export1' select * from test_load ;

将查询的结果导出到本地－指定列分隔符

insert overwrite local directory '/home/hadoop/export2' row format delimited fields terminated by '\t' select * from test_load;

将查询的结果导出到HDFS上(不带local关键字)

insert overwrite directory '/tmp/export' row format delimited fields terminated by '\t' select * from test_load;

2.7.5 hive表数据导出-hive shell

基本语法：(hive -f/-e 执行语句或者脚本> file)

bin/hive -e "select * from myhive.test_load;" > /home/hadoop/export3/export4.txt
bin/hive -f export.sql > /home/hadoop/export4/export4.txt

2.8 分区表

在Hive中，分区表（Partitioned Table）是一种将数据按照特定列的值进行逻辑分区的表。分区表可以加速查询和提高数据的管理效率。
同时Hive也支持多个字段作为分区，多分区带有层级关系

2.8.1 创建分区

创建分区表语法

CREATE TABLE table_name (
   column1 data_type,
   column2 data_type,
   ...
)
PARTITIONED BY (partition_column1 data_type, partition_column2 data_type, ...);

演示

create tables core(
		sid string,
		cid string,
		sscore int
	) 
partitioned by(month string)
row format delimited fields terminated by't';

创建一个表带多个分区

create table score2 (sid string,c_id string,sscore int) 
partitioned by(year string,month string,day string)
row format delimited fields terminated by'\t';

2.8.2 加载数据

加载数据到分区表中

load data local inpath '/export/server/hivedatas/score.txt' into table score 
partition (month='202006');

加载数据到一个多分区的表中去

load data local inpath '/export/server/hivedatas/score.txt' into table score2
partition(year='2020',month='06',day='01');

插入数据到分区表

INSERT INTO TABLE table_name PARTITION (partition_column1 = value1, partition_column2 = value2, ...)
VALUES (value1, value2, ...);

INSERT INTO TABLE sales PARTITION (year = 2023, month = 9)
VALUES (1, 'Product A', '2023-09-08', 100.0);

2.8.3 查看分区

查看分区
```
show partitions score;
```

2.8.4 添加分区

添加一个分区

alter table score add partition(month='202005')

同时添加多个分区

alter table score add partition(month='202004') partition(month='202003');

注意：添加分区之后就可以在hdfs文件系统当中看到表下面多了一个文件夹

2.8.5 修改分区位置

ALTER TABLE table_name PARTITION (partition_column1 = value1, partition_column2 = value2, ...)
SET LOCATION '/new/partition/location';

2.8.6 修改分区值

alter table table_name partition(month='2002005') rename to partition(month='201105')

2.8.7 删除分区

alter table table_name drop partition(month='202006');

对分区的修改和删除操作，实际是修改源数据表，并不会修改hdfs中的数据内容！【不建议修改分区】

2.9 分桶表

分桶和分区一样，也是一种通过改变表的存储模式，从而完成对表优化的一种调优方式。
但和分区不同，分区是将表拆分到不同的子文件夹中进行存储，而分桶是将表拆分到固定数量的不同文件中进行存储。

2.9.1 创建分桶表

开启分桶的自动优化（自动匹配reducetask数量和桶数量一致）

set hive.enforce.bucketing=true;

创建分桶表

create table course (
	c_id string,
	c_name string,
	t_id string
) clustered by(c_id) into 3 buckets 
row format delimited fields terminated by '\t';

2.9.2 分桶表数据加载

桶表的数据加载通过load data无法执行，只能通过insert select.

创建一个临时表（外部表或内部表均可)，通过load data加载数据进入表
然后通过insert select 从临时表向桶表插入数据

创建普通表：

create table course_common (
	c_id string,
	c_name string,
	t_id string
) rowformat delimited fields terminated by 't';

普通表中加载数据

load data local inpath '/export/server/hivedatas/course.txt' into table course_common;

通过insert overwrite给桶表中加载数据

insert overwrite table course select * from course_common cluster by(cid);

2.9.3 原因解释

桶表的数据加载通过load data无法执行，只能通过insert select.

如果没有分桶设置，插入（加载）数据只是简单的将数据放入到：

表的数据存储文件夹中（没有分区）
表指定分区的文件夹中（带有分区）
一旦有了分桶设置，比如分桶数量为3，那么，表内文件或分区内数据文件的数量就限定为3当数据插入的时候，需要一分为3，进入三个桶文件内。
问题：如何将数据分成三份，划分的规则是什么？
数据的三份划分基于分桶列的值进行hash取模来决定。由于load data不会触发MapReduce，也就是没有计算过程（无法执行Hash算法），只是简单的移动数据而已，所以无法用于分桶表数据插入。

2.9.4 分桶表的性能提升

分区表的性能提升是：在指定分区列的前提下，减少被操作的数据量，从而提升性能。
分桶表的性能提升是：基于分桶列的特定操作，如:过滤、JOIN、分组，均可带来性能提升。

2.10 修改表

表重命名

alter table old_table_namerename to new_table_name;

修改表属性

ALTER TABLE table_name SET TBLPROPERTIES table_properties;
table_properties:(property_name=property_value,property_name=property_value,...)

如：ALTER TABLE table_name SETTBLPROPERTIES（"EXTERNAL"="TRUE")修改内外部表属性
如：ALTER TABLE table_name SETTBLPROPERTIES（'comment'=new_comment修改表注释
添加列

alter table table_name add columns(v1 int,v2 string);

修改列名

alter table table_name change v1 v1new int;

删除表

drop table table_name;

清空表

-- 只能清空内部表
truncate table table_name;

2.11 复杂类型

2.11.1 array类型

Hive支持的数据类型很多，除了基本的: int、string、varchar、timestamp等还有一些复杂的数据类型：array（数组类型）、map(映射类型)、struct(结构类型)
data_for_array_type.txt文件内容如下
```
zhangsan	beijing,shanghai,tianjin,hangzhou
wangwu	changchun,chengdu,wuhan,beijin
```
- 说明:name与locations之间制表符分隔，locations中元素之间逗号分隔

建表语句

create table myhive.test_array(name string，work_locations array<string>)
row format delimited fields terminated by ' \t'
COLLECTION ITEMS TERMINATED BY ',';

row format delimited fields terminated by '\t′表示列分隔符是\t.
COLLECTION ITEMS TERMINATED BY ',’表示集合(array)元素的分隔符是逗号

导入数据

load data local inpath '/home/ hadoop/data_for_array_type.txt' overwrite into table myhive.test_array;

常用array类型查询:

-- 查询所有数据
select * from myhive.test_array;
-- 查询loction数组中第一个元素
select name, work_locations[0] location from myhive.test_array;
-- 查询location数组中元素的个数
select name, size(work_locations) location from myhive.test_array;
-- 查询location数组中包含tianjin的信息
select * from myhive.test_array where array_contains(work_locations,'tianjin');

2.11.2 map类型

map类型是: Key-Value型数据格式。
有如下数据文件，其中members字段是key-value型数据字段与字段分隔符: “,”;需要map字段之间的分隔符:“#” ; map内部k-v分隔符:“:”

1,林杰均,father:林大明#mother:小甜甜#brother:小甜,28
2,周杰伦,father:马小云#mother:黄大奕#brother:小天,22
3,王葱,father:王林#mother:如花#sister:潇潇,29
4,马大云,father:周街轮#mother:美美,26

建表语句

create table myhive.test_map(id int, name string, members map, age int)
row format delimited fields terminated by ','
COLLECTION ITEMS TERMINATED BY '#'
MAP KEYS TERMINATED BY ';';

MAP KEYS TERMINATED BY表示key-value之间用:分隔

导入数据

load data local inpath '/home / hadoop/data_for_map_type.txt' overwrite into table myhive.test_map;

常用查询

#查询全部
select * from myhive.test_map;
#查询father、mother这两个map的key
select id, name, members['father'] father, members['mother'] mother, age from myhive.test_map;
#查询全部map的key，使用map_keys函数，结果是array类型
select id, name, map_keys(members) as relation from myhive.test_map;
#查询全部map的value，使用mapvalues函数，结果是array类型
select id, name, map_values(members) as relation from myhive.test_map;
#查询map类型的KV对数量
select id,name,size(members) num from myhive.test_map;
#查询map的key中有brother的数据
select * from myhive.test_map where array_contains(map_keys(members), 'brother');

2.11.3 struct类型

struct类型是一个复合类型，可以在一个列中存入多个子列，每个子列允许设置类型和名称。
有如下数据文件，说明:字段之间#分割,struct之间冒号分割

1#周杰轮:11
2#林均杰:16
3#刘德滑:21
4#张学油:26
5#蔡依临:23

建表语句

create table myhive.test struct(id string, info struct)
row format delimited fields terminated by '#' 
COLLECTION ITEMS TERMINATED BY ':';

导入数据

load data local inpath ' /home /hadoop/data_for_struct_type.txt' into table

常用查询

select * from hive struct;
#直接使用列名。子列名即可从struct中取出子列查询
select ip,info.name from hive struct;

2.11.4 三种结构总结

你可能感兴趣的:(大数据修炼之旅,apache,hive,数据库,hadoop)

小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
【勾心原创】《去年夏天》不勾心的豆角
（原创作者：不勾心的豆角）本期【勾心原创】，继续本人不勾心的豆角的现代诗创作之旅。《去年夏天》原创作者：不勾心的豆角那里芳草茵茵绿柳成行澄净蓝天下屋顶们相亲相爱闪着橙色紫色的馨香溪流温柔偎依着村庄牛儿羊儿信步徜徉还有成群的白鸽在尖顶的教堂盘旋歌唱孩子们是自由的蒲公英奔跑在希望的田野上任由天真的笑声肆无忌惮烂漫这人间天堂夜幕小心翼翼呵护着甜美的梦乡只剩尽职的晚风陪伴顽皮的星子们游荡快告诉我心爱的姑娘
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
《 C++ 修炼全景指南：四》揭秘 C++ List 容器背后的实现原理，带你构建自己的双向链表 Lenyiin 技术指南 C++修炼全景指南 c++list 链表 stl
本篇博客，我们将详细讲解如何从头实现一个功能齐全且强大的C++List容器，并深入到各个细节。这篇博客将包括每一步的代码实现、解释以及扩展功能的探讨，目标是让初学者也能轻松理解。一、简介1.1、背景介绍在C++中，std::list是一个基于双向链表的容器，允许高效的插入和删除操作，适用于频繁插入和删除操作的场景。与动态数组不同，list允许常数时间内的插入和删除操作，支持双向遍历。这篇文章将详细
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

探索Apache Hive：融合专业性、趣味性和吸引力的数据库操作奇幻之旅

文章目录

版权声明

一 数据库操作

二 Hive数据表操作

2.1 表操作语法和数据类型

2.2 Hive表分类

2.3 内部表Vs外部表

2.4 内部表操作

2.4.1 创建内部表

2.4.2 其他创建内部表的形式

2.4.3 数据分隔符

2.4.4 自定义分隔符

2.4.5 删除内部表

2.5 外部表操作

2.5.1 创建外部表

2.5.2 操作演示

2.5.3 演示先建表后移动数据

2.5.4 演示先存在数据后建表

2.5.5 删除外部表

2.6 Hive内外表转化

2.7 Hive数据加载和导出

2.7.1 数据加载-LOAD语法

2.7.2 数据加载-insert select语法

2.7.3 数据加载-两种语法的选择

2.7.4 hive表数据导出-insert overwrite方式

2.7.5 hive表数据导出-hive shell

2.8 分区表

2.8.1 创建分区

2.8.2 加载数据

2.8.3 查看分区

2.8.4 添加分区

2.8.5 修改分区位置

2.8.6 修改分区值

2.8.7 删除分区

2.9 分桶表

2.9.1 创建分桶表

2.9.2 分桶表数据加载

2.9.3 原因解释

2.9.4 分桶表的性能提升

2.10 修改表

2.11 复杂类型

2.11.1 array类型

2.11.2 map类型

2.11.3 struct类型

2.11.4 三种结构总结

你可能感兴趣的:(大数据修炼之旅,apache,hive,数据库,hadoop)

一数据库操作