让线程再跑一会

Hive【Hive（一）DDL】

前置准备

需要启动 Hadoop 集群，因为我们 Hive 是在 Hadoop 集群之上运行的。

从DataGrip 或者其他外部终端连接 Hive 需要先打开 Hive 的 metastore 进程和 hiveserver2 进程。

Hive DDL 数据定义语言

1、数据库（database）

创建数据库

create database [if not exists] 数据库名
[comment 注释:给开发人员看的]
[location 数据库保存路径]
[with dbproperties (配置名1=配置值1,配置名2=配置值2,)]

案例

-- 创建数据库 默认保存为 hdfs:///user/hive/warehouse.数据库名.db
create database db_hive;
-- 创建数据库并指定保存路径为 hdfs下的/db_hive2
create database db_hive2 location '/db_hive2';
-- 创建数据库名并指定数据库属性信息
create database db_hive3 with dbproperties ('create_date'='2023-9-15')

运行结果

默认保存路径：

指定保存路径：

查询数据库

show databases [like 正则表达式]

案例

-- 查看所有以 db_hive 开头的数据
show databases like 'db_hive*';

运行结果

hive (default)> show databases like 'db_hive*';
OK
database_name
db_hive
db_hive2
db_hive3
Time taken: 0.071 seconds, Fetched: 3 row(s)

查看数据库详细信息

案例

-- 查看数据库信息(详细信息)
describe database extended db_hive3;

运行结果

hive (default)> describe database extended db_hive3;
OK
db_name	comment	location	owner_name	owner_type	parameters
db_hive3		hdfs://hadoop102:8020/user/hive/warehouse/db_hive3.db	lyh	USER {create_date=2023-9-15}
Time taken: 0.043 seconds, Fetched: 1 row(s

这里可以看到我们创建数据库时设置的 with dbproperties 属性。

修改数据库

语法

-- 修改db properties
alter database db_hive set dbproperties ('create_time'='2023-9-15');

-- 修改 location 不会移动当前数据库下表的位置,影响的是后续创建的表的父目录
alter database db_hive2 set location 'hdfs:///hello/';  //一定要带前缀 hdfs://
use db_hive2;
create table student(name string);  //新创建的表被存储在 /hello下

注意：再修改数据库的存储位置后，从该数据库的下一张表的存储路径才会开始生效，而且 set location 的值必须有前缀 "hdfs://"代表是存储在 HDFS文件系统下。

删除数据库

默认为 restrict 模式，即要求数据库必须为空，可以在删除语句后指定级别。

非空数据库需要删除所有表后再删除或者指定为 cascade 模式。

删除空数据库

-- 删除空数据库
drop database db_hive;

删除非空数据库

-- 删除非空数据库
drop database db_hive3 cascade ;

2、表（table）

创建表

1）普通建表

语法：

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] 表名 
[(字段名 字段类型 [COMMENT 字段注释], ...)] 
[COMMENT 表注释] 
[PARTITIONED BY (列名 数据类型 [COMMENT col_comment], ...)] 
[CLUSTERED BY (列名, 列名, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT 指定的SERDE,Hive使用SERDE序列化和反序列化每行数据] 
[STORED AS 读取文件的格式INPUTFORMAT,OUTPUTFORAMT]
[LOCATION 存储在HDFS的路径,默认是hdfs:///user/hive/warehouse/表名]
[TBLPROPERTIES (属性名=属性值, ...)]

关键字说明：

TEMPRORARY：

临时表，只在本次会话有效，客户端会话结束，表会自动删除。

EXTERNAL（重点）：

外部表，与之相对的是内部表（管理表）。管理表意味着 Hive 会完全接管该表，包括元数据和 HDFS 中的数据。而外部表则意味着 Hive 只接管元数据，而不接管 HDFS 中的数据。

也就是说，删除数据的时候，如果删除的是内部表，那么元数据和HDFS中的数据都会被删除，如果是外部表，那么只有元数据会被删除，HDFS中的数据仍然保留。

查看当前表是管理表还是外部表：

-- 查看表 stu 是内部表还是外部表
desc formatted stu;
-- 内部表: MANAGED_TABLE,外部表: EXTERNAL_TABLE

ROW FORMAT（重点）：

指定 SerDe，SerDe 是 Serializer and Deserializer 的简写。Hive 使用 SERDE 序列化和反序列化每行数据。

查看完整建表语句：

-- 查看表 stu 的 完整建表语句
show create table stu;

默认语法：

ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

ROW FORMAT 和 STORED AS 这两个关键字在建表语句中非常重要，显然如果我们建一张表就写这么长的语句太麻烦了，所以 Hive 帮我们简化了以下语法：

语法1：DELIMITED 关键字

表示对文件中的每个字段按照特定分割符进行分割，会使用默认的 SERDE 对每行数据进行序列化和反序列化。

ROW FORMAT DELIMITED
 -- 列分割符
[FIELDS TERMINATED BY char]   
-- map、struct 和 array 之间的分隔符
[COLLECTION ITEMS TERMINATED BY char]
-- map 中 key 和 value 的分隔符,至于struct结构体,它在Delimited存储时,只会存储它的属性值,不会存储它的属性名    
[MAP KEYS  TERMINATED BY char]
-- 行分割符 默认 \n
[LINES TERMINATED BY char]
-- NULL 值的存储格式,默认值 \N
[NULL DEFINED AS char]

语法2 SERDE 关键字：

SERDE 关键字可以用于指定其他内置的 SERDE 或者用户自定义的 SERDE。

例如 JSON SERDE，可用于处理 JSON 字符串。

ROW FORMAT SERDE SERDE名 [with serdeproperties
(属性名1=属性值1,属性名2=属性值2)]

STORED AS（重点）：

        指定存储文件类型
        常用的存储文件类型：sequence file（二进制序列文件）、text file（文本）、rc file（列式存储格式文件）
        如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE（我们在学习 Hadoop 的时候讲过，合并多个小文件就是合并成一个 sequence文件）。

语法1：

STORED AS INPUTFORMAT
 'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

直接跟上指定的 INPUTFORMAT 和 OUTPUTFORMAT，这种太麻烦了，建议。

语法2：

直接在 SERDE AS 后面跟一个文件格式小写，比如 textfile（默认）、sequence file、orc file、parquet file。orc 和 parquet 都是列式存储文件。

-- 也就是默认的  'org.apache.hadoop.mapred.TextInputFormat' 
SERDE AS textfile

PARTITIONED BY（重点）

创建分区表。将 Hive 中一张表的数据，按照指定的分区字段，分不到不同的路径。一个路径对应一个分区。

分区规则：指定的分区字段的值相同的放到一个分区。我们开发时通常按照日期分区。

CLUSTERED BY ... SORTED BY ... INTO ... BUCKETS（重点）

创建分桶表。会将 Hive 中一张表的数据分散存储到多个文件里面。

分散的规则：指定一个字段或者多个字段（clustered by），指定桶的个数（buckets），可以对每个桶里设置排序规则。分桶时，对字段进行 hashCode 取模运算，就像我们 Hadoop 分区的时候一样，根据计算结果放到对应第 0、1... 个桶中。

2）Create Table As Select （CTAS）建表

允许用户使用 select 语句返回的结果创建一张表，表的结构和查询结果一致。也就是说，这样创建的表自带数据（我们查询出来的数据）。

CREATE [TEMPORARY] TABLE [IF NOT EXISTS] 表名 
[COMMENT 表的描述] 
[ROW FORMAT 指定的SERDE,Hive使用SERDE序列化和反序列化每行数据] 
[STORED AS 读取文件的格式INPUTFORMAT,OUTPUTFORAMT]
[LOCATION 存储在HDFS的路径,默认是hdfs:///user/hive/warehouse/表名]
[TBLPROPERTIES (属性名=属性值, ...)]
[AS 查询语句]

注意：通过 CTAS 创建表的时候，不允许创建外部表（也就是EXTERNAL_TABLE），只允许是内部表（不需要设置，默认就是 MANAGED_TABLE）。

3）Create Table Like

允许用户复刻一张已经存在的表结构。也就是说，可以复制另一张表的结构，但是是一张新表，初始是没有数据的。

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] 
[数据库名.]表名
LIKE 已经存在的表名
[ROW FORMAT 指定的SERDE,Hive使用SERDE序列化和反序列化每行数据] 
[STORED AS 读取文件的格式INPUTFORMAT,OUTPUTFORAMT]
[LOCATION 存储在HDFS的路径,默认是hdfs:///user/hive/warehouse/表名]
[TBLPROPERTIES (属性名=属性值, ...)]

这种表可以是外部表。

案例

（一）内部表和外部表

1）内部表

默认创建的表都是所谓的管理表（内部表）。因为这种表 Hive 会（或多或少地）控制着数据的生命周期。Hive默认情况下会将这些表的数据存储在由配置项 hive.metastore.warehouse.dir(例如，/user/hive/warehouse) 所定义的目录的子目录下。

当我们删除一个管理表（内部表）时，Hive也会删除这个表中数据。管理表不适合和其他工具共享数据。

创建内部表

create table if not exists student(
    id int,
    name string
)
row format delimited
    fields terminated by '\t'
location 'hdfs:///user/hive/warehouse/student';

数据准备

保存至 /opt/module/hive-3.1.2/test_datas/students.txt

1001	ss1
1002	ss2
1003	ss3
1004	ss4
1005	ss5
1006	ss6
1007	ss7
1008	ss8
1009	ss9
1010	ss10
1011	ss11
1012	ss12
1013	ss13
1014	ss14
1015	ss15
1016	ss16

上传文件到 HDFS 下Hive下student表的目录

上传到该表的Hive目录下后，Hive会自动将它解析成表：

hadoop fs -put student.txt /user/hive/warehouse/student

删除内部表

drop table student;

发现内部表和HDFS中的数据一同被删除。

2）外部表

修改上面的建表代码：

create external table if not exists student(
    id int,
    name string
)
row format delimited
    fields terminated by '\t'
location 'hdfs:///user/hive/warehouse/student';

执行和上面相同的操作，最后删除：

发现表删除后，数据仍然存在于HDFS中。

（二）SERDE 和复杂数据类型

对 JSON 文件通过 Hive 进行分析处理。

数据来源

下面的内容其实是一个完整的JSON字符串，在 Hive 读取后其实只有一行。

{
	"name": "lyh",
	"friends": [
		"my",
		"zht"
	],
	"students": {
		"drj": 48,
		"lyf": 30
	},
	"address": {
		"street": "chang an jie",
		"city":	"beijing",
		"postal_code": 10010
	}
}

设计表

我们考虑使用 JSON Serde，设计表的字段时，表的字段与 JSON 字符串的一级字段保持一致，对具有嵌套结构的 JSON 字符串，考虑使用复杂类型保存其内容。

我们可以发现，上面的JSON字符串中共有四个一级字段，其中 name 字段保存的是字符串，friends 字段保存的是一个数组，students 字段保存的是一个JSON对象，address 字段保存的也是一个JSON对象。

我们设计表的时候，其实考虑的就是字段、row format 、 store as 这些关键字。这里虽然是 JSON 文件但我们读取还是按照默认文本文件的读取方式来读取（TextInputFormat）。

create table teacher (
    name string,
    friends array,
    students map,
    address struct
)
row format serde 'org.apache.hadoop.hive.serde2.JsonSerDe';
-- 默认保存在 /user/hive/warehouse/db_hive1.db/teacher
-- json 文件直接用默认的读取方式即可 不需要设置 stored as 关键字

注意：json sered不能解析格式化的json文件，需要保障每一行json字符串数据处于一行中。row format也是每次序列化一行数据。

上传数据到HDFS时，需要将我们的JSON文件放到一行：

{"name": "lyh",	"friends": ["my","zht"],"students": {"drj": 48,"lyf": 30},"address": {"street": "chang an jie","city":	"beijing","postal_code": 10010}}

查询

select * from teacher;
select friends from teacher;
select friends[0] from teacher;
select students from teacher;
select students['drj'] from teacher;
-- hive 中可以 但是DataGrip 不支持通过 . 来取值
select address.postal from teacher;

（三）create table as select 和 create table like

麒麟系统下载依赖到本地乙龙 linux kylin
在麒麟系统中下载依赖到本地，主要有以下几种方法：使用apt命令只下载不安装：在连接互联网的电脑上，使用sudoapt-get-dinstall命令，可以只下载软件包及其依赖到/var/cache/apt/archives目录下，而不进行安装。例如，要下载minicom及其依赖，可分别执行sudoapt-get-dinstallminicom*和sudoapt-get-dinstalllibtinf
Kylin入门教程 -龙川- 介绍学习笔记 kylin
引言ApacheKylin是一个开源的分布式分析引擎，提供Hadoop上的多维分析（OLAP）能力，使得超大规模数据集的实时查询和分析成为可能。它通过预计算数据立方体来加速查询，使得复杂查询可以在亚秒级响应。本文将详细介绍Kylin的基本概念、安装与配置、基本操作及高级功能，帮助你全面掌握这款强大的数据分析工具。第一部分：Kylin简介1.1什么是Kylin？Kylin是由eBay开发并捐赠给Ap
flume系列之：flume落cos 快乐骑行^_^ 日常分享专栏 flume系列
flume系列之：flume落cos一、参考文章二、安装cosjar包三、添加hadoop-cos的相关配置四、flume环境添加hadoop类路径五、使用cos路径六、启动/重启flume一、参考文章Kafka数据通过Flume存储到HDFS或COSflumetocos使用指南二、安装cosjar包将对应hadoop版本的hadoop-cos的jar包(hadoop-cos-{hadoop.ve
Apache Hive _从头再来_ 大数据
一、ApacheHive简介官方网址：https://hive.apache.org/TheApacheHive™datawarehousesoftwarefacilitatesreading,writing,andmanaginglargedatasetsresidingindistributedstorageusingSQL.Structurecanbeprojectedontodataalr
tar命令详解：解压与压缩的技巧 wx_tangjinjinwx tar linux
tar命令详解：解压与压缩的技巧大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在日常的系统管理和文件处理过程中，tar命令是一个非常重要的工具。它不仅用于压缩文件，还可以用于解压缩。本文将详细介绍tar命令的用法，包括压缩和解压缩的技巧。一、tar命令概述tar（tapearchive）是一个用于打包和压缩文件的命令行工具。它可以将多个文件和目录打包成一个文件，也可
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
SS00023.PBpositions——|Hadoop&PB级离线数仓.v02|——|Griffin.v02|Griffin部署| yanqi_vip 数据库 hadoop hive 大数据 hdfs
一、Griffin编译准备###---软件解压缩[root@hadoop02~]#ls/opt/yanqi/software/griffin-griffin-0.5.0.zip/opt/yanqi/software/griffin-griffin-0.5.0.zip[root@hadoop02~]#cd/opt/yanqi/software/[root@hadoop02software]#unzi
在线格式化XML weixin_34250709
有时候要格式化一下XML，有没有好的小工具，这里有一个在线版本，好使！http://xmlindent.com/转载于:https://www.cnblogs.com/DotNetNuke/archive/2010/07/14/1777096.html
面试经验分享-回忆版某小公司兔子宇航员0301 数据开发面经分享面试经验分享职场和发展
说说你项目中数据仓库是怎么分层的，为什么要分层？首先是ODS层，连接数据源和数据仓库，数据会进行简单的ETL操作，数据来源通常是业务数据库，用户日志文件或者来自消息队列的数据等中间是核心的数据仓库层，可以细分为DWD，DIM，DWS层。首先是DWD层主要负责对数据进行进一步测清洗规范化的操作，但是应该尽可能保持和ODS层相同的数据粒度，可以通过维度退化等方式，将维度表退化为事实表例如下单表，减少关
一文读懂数据仓库构建流程（超详细）嗨皮一会吧数仓构建数据仓库
相信大家都知道数仓分层架构（ods、dwd、dim、dws等）。但是面对一个从0开始的数仓，我们难免会有一个疑问，应该如何去构建各层，以及数仓规划中要有哪些事实表和维度表，这个理论依据从何而来呢，相信大家看完本篇文章，可以在搭建数仓的时候有一个理论依据。1、数仓构建整体流程数仓构建核心图：我们可以发现其实数据开发占比整个数仓构建流程只是很小的部分，只要我们将前期的数据调研，各种数仓模型设计好，剩下
【学习总结|DAY026】MySQL基础 123yhy传奇学习 mysql 数据库
在Web后端开发中，数据库扮演着至关重要的角色，它是存储和管理数据的核心组件。近期学习了数据库相关知识，在此分享学习过程中的重点内容，涵盖数据库基础概念、MySQL操作以及SQL语句的详细使用等方面。一、数据库基础概念数据库（DataBase-DB）：形象地说，它就像是一个大型的数据仓库，专门用于高效地存储和管理海量数据。例如，在金融领域，同花顺的数据中心需要存储海量的股票、基金等金融数据，包括股
解决 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...警告克里斯蒂亚诺罗纳尔多阿维罗 hadoop
这个警告意味着Hadoop在加载本地本机库时遇到了问题。通常情况下，Hadoop会尝试加载本地的本机库以提高性能，但是如果找不到适合你的操作系统和架构的本地库，它会退而使用内置的Java类来模拟所需的功能。虽然这个警告会影响Hadoop的性能，但它并不会导致Hadoop无法正常工作。你仍然可以使用Hadoop，但可能会遇到性能上的损失。解决方法：在Hadoop中，配置'java.library.p
全面解读 Databricks：从架构、引擎到优化策略克里斯蒂亚诺罗纳尔多阿维罗架构 spark 大数据
导语：Databricks是一家由ApacheSpark创始团队成员创立的公司，同时也是一个统一分析平台，帮助企业构建数据湖与数据仓库一体化（Lakehouse）的架构。在Databricks平台上，数据工程、数据科学与数据分析团队能够协作使用Spark、DeltaLake、MLflow等工具高效处理数据与构建机器学习应用。本文将深入介绍Databricks的平台概念、架构特点、优化机制、功能特性
Hive小文件合并云掣YUNCHE hive hadoop 数据仓库
作者：振鹭一、参数配置：在Map输入的时候,把小文件合并。--每个Map最大输入大小，决定合并后的文件数setmapred.max.split.size=256000000;--一个节点上split的至少的大小，决定了多个datanode上的文件是否需要合并setmapred.min.split.size.per.node=100000000;--一个交换机下split的至少的大小，决定了多个交换
hive小文件合并机制_hive小文件的问题弊端以及合并做生活的创作者 hive小文件合并机制
小文件的弊端1、HDFS中每个文件的元数据信息，包括位置大小分块信息等，都保存在NN内存中，在小文件数较多的情况下，会造成占用大量内存空间，导致NN性能下降；2、在读取小文件多的目录时，MR会产生更多map数，造成GC频繁，浪费集群资源；3、现在大数据平台文件总数超过30亿，单个NS文件数超过4亿的时候，读写性能会急剧下降，影响到所有读写该NS的任务性能；4、如果队列限制最大map数是20000，
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
Hive--HiveServer2 命令行代码连接、Hive常用命令、自定义UDF函数、排序 XK&RM Hive hive hiveserver2 udf java
目录1Hive--HiveServer2命令行代码连接1.1配置HiveServer2WEB参数1.2开启HiveServer21.3使用Beeline连接HiveServer21.4使用代码查询HiveServer21.5使用DBeaver连接Hive2Hive--Hive常用命令2.1Hive命令2.2HiveShell命令3Hive--自定义UDF函数(User-DefinedFunctio
Hive 数据类型全解析：大数据开发者的实用指南大鳥 sql hive 数据仓库
在大数据处理领域，Hive作为一款基于Hadoop的数据仓库工具，被广泛应用于数据的存储、查询和分析。而理解Hive的数据类型是有效使用Hive的基础，本文将深入探讨Hive的数据类型，帮助大家更好地掌握Hive的使用。Hive数据类型概述Hive支持多种数据类型，主要可分为数值类型、日期/时间类型、字符类型、Misc类型以及复杂类型。这些数据类型为存储和处理各种不同格式的数据提供了有力的支持。以
Apache Hive--排序函数解析大鳥 apache hive hadoop
在大数据处理与分析中，ApacheHive是一个至关重要的数据仓库工具。其丰富的函数库为数据处理提供了诸多便利，排序函数便是其中一类非常实用的工具。通过排序函数，我们能够在查询结果集中为每一行数据分配一个排名值，这对于数据分析、报表生成等工作具有重要意义。本文将深入探讨ApacheHive中的排序函数，通过具体的HQL代码和数据实例进行说明，并阐述它们之间的区别。0.排序函数：ORDER、SORT
Java 大视界 -- 解锁 Java 与 Hadoop HDFS 交互的高效编程之道（二）青云交大数据新视界 Java 大视界 HDFS Java 流代码示例性能优化读写操作大数据 Hadoop java
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- Hive 数据仓库设计的优化原则（2 - 16 - 4）青云交大数据新视界 #Hive 之道 Hive 数据仓库优化原则数据分区存储格式查询优化 B 树索引查询性能大数据
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
Yarn工作机制？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
YARN工作机制YARN（YetAnotherResourceNegotiator）是Hadoop生态系统中的资源管理和调度框架，它负责管理集群中的所有资源，并为应用程序提供调度服务。以下是关于YARN工作机制的详细介绍：YARN架构组件ResourceManager(RM)：管理整个集群的资源分配。负责启动和监控ApplicationMaster。NodeManager(NM)：每个节点上的代理
使用 Hadoop 实现大数据的高效存储与查询王子良. 经验分享大数据 hadoop 分布式
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
【MySQL】深入解析“Data too long”错误：原因、解决方案与优化策略 master_chenchengg sql数据库 mysql 数据库
【MySQL】深入解析“Datatoolong”错误：原因、解决方案与优化策略一、引言二、技术概述错误定义核心特性与优势三、技术细节原理分析难点四、实战应用应用场景问题与解决方案五、优化与改进潜在问题改进建议六、常见问题问题列举解决方案七、总结与展望一、引言MySQL作为世界上最受欢迎的开源关系型数据库管理系统之一，其稳定性和灵活性使其在Web应用、数据仓库和其他需要高性能数据存储的场景中占据主导
ORACLE与SQL SERVER的区别 nanzhuhe 文章笔记数据库 Oracle
ORACLE与SQLSERVER的区别转载自：https://www.cnblogs.com/chuncn/archive/2009/01/28/1381262.html体系结构ORACLE的文件体系结构为：数据文件.DBF（真实数据）日志文件.RDO控制文件.CTL参数文件.ORASQLSERVER的文件体系结构为：.MDF（数据字典）.NDF（数据文件）.LDF（日志文件）ORACLE存储结构
hdfs和hive对于小文件的处理方案二进制_博客大数据
一、hdfs如何处理小文件小文件问题的危害小文件问题对HDFS的性能和稳定性产生显著影响，主要包括：占用过多的存储空间：每个小文件都会占用一个独立的Block，导致存储资源的浪费。降低数据处理效率：HDFS是为处理大文件而设计的，小文件会导致大量的Map任务启动，增加处理时间和资源消耗。NameNode内存压力增大：NameNode需要维护所有文件和目录的元数据信息，小文件过多会导致NameNod
hive 创建访问用户_Hive权限控制和超级管理员的实现 weixin_39826089 hive 创建访问用户
Hive权限控制Hive权限机制：Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。先决条件：为了使用Hive的授权机制，有两个参数必须在hive-site.xml中设置：hive.security.authorization.enabledtrueenableordisablethehiveclientauth
hive表级权限控制_Hive权限管理 weixin_39769091 hive表级权限控制
最近遇到一个hive权限的问题，先简单记录一下，目前自己的理解不一定对，后续根据自己的理解程度更新一、hive用户的概念hive本身没有创建用户的命令，hive的用户就是Linux用户，若当前是用mr用户输入hive，进入hive的shell，则当前hive的用户为mr。hive本身不提供用户和用户的管理，只做权限控制。所以在实际的生产中，容易造成创表和使用表的用户不统一的情况，针对该情况可以使用
HIVE的权限控制和超级管理员的实现 weixin_34364071 大数据数据库 java
Hive用户权限管理从remote部署hive和mysql元数据表字典看，已经明确hive是通过存储在元数据中的信息来管理用户权限。现在重点是Hive怎么管理用户权限。首先要回答的是用户是怎么来的，发现hive有创建角色的命令，但没有创建用户的命令，显然Hive的用户不是在mysql中创建的。在回答这个问题之前，先初步了解下Hive的权限管理机制。Hive用户组和用户即Linux用户组和用户，和h
hive批量修复分区青云游子 Hive hive 数据库 hadoop
#!/bin/bashset-x#定义Hive数据库的名称database_name="edu"#定义要排除的表名exclude_table="tab_name"#使用Hive的shell命令获取所有的表名tables=$(hive-e"USE$database_name;SHOWTABLES;")#初始化一个字符串，用于存储所有的MSCKREPAIRTABLE命令commands="USE$da
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

Hive【Hive（一）DDL】

前置准备

Hive DDL 数据定义语言

1、数据库（database）

创建数据库

案例

运行结果

指定保存路径：

查询数据库

案例

运行结果

查看数据库详细信息

案例

运行结果

修改数据库

语法

删除数据库

删除空数据库

删除非空数据库

2、表（table）

创建表

1）普通建表

语法：

关键字说明：

TEMPRORARY：

EXTERNAL（重点）：

查看当前表是管理表还是外部表：

ROW FORMAT（重点）：

查看完整建表语句：

默认语法：

语法1：DELIMITED 关键字

语法2 SERDE 关键字：

STORED AS（重点）：

语法1：

语法2：

PARTITIONED BY（重点）

CLUSTERED BY ... SORTED BY ... INTO ... BUCKETS（重点）

2）Create Table As Select （CTAS）建表

3）Create Table Like

案例

（一）内部表和外部表

1）内部表

创建内部表

数据准备

上传文件到 HDFS 下Hive下student表的目录

删除内部表

2）外部表

（二）SERDE 和复杂数据类型

数据来源

设计表

查询

（三）create table as select 和 create table like

你可能感兴趣的:(Hive,hive,hadoop,数据仓库)