shixiaomingye

Apache Hive 基本语法

- 前言
- 一、数据库
- - 1、创建数据库
  - 2、查看数据库
  - 3、使用数据库
  - 4、删除数据库
- 二、数据库表
- - 1、创建表
  - - A、创建内部表
    - B、创建外部表
    - C、创建分区表
    - D、创建分桶表
  - 2、修改表
  - - A、修改普通表
    - B、修改分区表
    - 3、删除表
- 三、其他操作
- - 1、load
  - 2、insert
  - - A、多重插入
    - B、动态分区插入
  - 3、select
  - 4、Hive join
  - 5、UDF（user-defined function）
  - 6、hive的分隔符

前言

这篇文档是我两年前刚学习Hive的时候写的相当于笔记一样的东西，无意中被我翻出来了。。。

一、数据库

1、创建数据库

create database|schema [if not exists] xiaoming;

中括号中的if not exists表示如果数据库已经存在就不创建，不存在则创建。

2、查看数据库

show databases|schemas;

3、使用数据库

use xiaoming;

4、删除数据库

drop database [if exists] xiaoming [restrict|cascade];

删除数据库，默认情况下，hive不允许删除含有表的数据库，要先将数据库中的表清空才能drop，否则会报错，可以在语句后面cascade关键字，强制删除一个数据库，默认是restrict，表示有限制的

二、数据库表

1、创建表

A、创建内部表

create table [if not exists] xiaoming01(id int,name string);

此时创建的表没有手动指定分隔符，所以采用hive默认的分隔符/001。

加载数据:

load data [local] inpath 'path' [overwrite] into table xiaoming01;

B、创建外部表

create external table [if not exists] xiaoming01(id int,name string1) location 'path';

外部表和内部表的区别：Hive在创建内部表的时候，会将映射为表的数据移动到数据仓库指定的路径下，而创建外部表不会，创建外部表hive只会记录数据所在的路径，不会对数据的位置做任何改变。再删除表的时候，内部表会将元数据和数据一起删除，外部表只会删除元数据，不会删除数据。

装载数据：(此处的path需和创建表的时候的location指点的路径一致)

load data [local] inpath 'path' into table xiaoming01;

C、创建分区表

分区建表分为2种，一种是单分区，也就是说在表文件夹目录下只有一级文件夹目录。另外一种是多分区，表文件夹下出现多文件夹嵌套模式。

create table xiaoming01(id int,name string) partitioned by(country string);

以上是创建单分区表，以国家为分区字段，注意分区字段一定不能是表中已经存在的字段。

create table xiaoming01(id int,name string) partitioned by(country string,province string);

以上是创建双分区表，以国家为第一分区字段，省份为第二分区字段。

装载数据：

-- 单分区表：
load data [local] inpath 'path' [overwrite] into table xioaming01 partition(country='CN');
-- 双分区表：
load data [local] inpath 'paht' [overwrite] into table xioaming02 partition(country='CN',province='ShangHai');

查看分区表的分区：

show partitions xiaoming01;

基于分区的查询：

select * from xiaoming01 where country = 'CN'; -- 查询CN分区下的数据

desc xiaoming01; -- 查询表结构

注意：

分区表是一个虚拟的字段，不存放任何数据。
分区字段的数据是在装载分区表数据是时候指定的
分区表的目的是为了减少查询查询数据时进行全表扫描的成本，提高查询效率。

D、创建分桶表

首先，hive在默认情况下是不支持分桶操作的，需要我们手动开启。

set hive.enforce.bucketing = true; -- 开启分桶表

set mapreduce.job.reduces = 4; -- 设置reduce的个数为4，也是最大分桶的个数

create table xiaoming01(id int,name string) clustered by(id) into 4 buckets; -- 创建一个分桶表分桶字段为id，指定4个分桶。

装载数据：(分桶表装载数据不能使用load的方式)

insert overwrite table xiaoming01 select * from student cluster by(id);

分桶表装载数据需要使用insert+select，需要使用一个中间临时表，进行分桶查询，再将查询到的结果插入到分桶表中。（分桶需要经过reduce这一过程，普通的load本质就是hive替我们做了put操作，没有经过MR程序）。

需求： 对某列进行分桶的同时，根据另一列进行排序

insert table xiaoming01 select * from student distribute by(id) sort by(name asc|desc);

在排序的时候不能使用cluster by 和 sort by 进行组合，因为cluster by默认是分桶且排序的，如果再进行排序就会冲突。

cluster by（分桶且排序，同一字段） == distribute by（分桶） + sort by（排序，字段可以不同）

注意：

分桶表（分簇表）创建的时候分桶字段必须是表中已经存储（存在）的字段。

分桶表数据采用insert+select装载数据的时候进行了mr程序，插入的分桶数据来自对应的mr程序的partition中。所以默认是采用哈希分桶。

分桶表也是把表所映射的结构化数据文件分成更细致的数据，但是更多的是用在join查询上提高效率。

2、修改表

A、修改普通表

查询重命名表为xiaoming01；

alter table xiaoming01 rename to xiaoming02;

在xiaoming01表中增加了一列dept，字段类型为string；后面的comment是注释，可有可无。

alter table xiaoming01 add columns(dept string comment '部门');

删除xiaoming01中的dept列；

alter table xiaoming01 drop[column] dept;

查询更改xiaoming01中的name字段，更改为newName，并将字段类型改为string，可以更改字段的顺序；

alter table xiaoming01 change name newName string[first|after column_name];

替换xiaoming01中的newName字段为name字段；

alter table xiaoming01 replace columns (newName string name string);

B、修改分区表

增加分区

alter table xiaoming01 add partition (country='USA') location 'path';

在执行添加分区时，path文件夹下的数据不会被移动。并且没有分区目录country=USA

增加多个个分区

alter table xiaoming01 add partition(country='USA',province='NewYork') location 'path' partition(country='CN',province='ShangHai') location 'path';

删除分区

alter table xiaoming01 drop if exists partition(country='USA');

修改分区

alter table xiaoming01 partition(country='USA') rename to partition(country='CN');

3、删除表

truncate table xiaoming01; -- 删除xiaoming01表的所有数据。

drop table xiaoming01; -- 删除xiaoming01这张表。

三、其他操作

1、load

使用load装载数据时，Hive不会进行任何转换，加载操作是将数据文件移动到与 Hive 表对应的位置的纯复制/移动操作。

load data [local] inpath 'path' [overwrite] into table tablename [partition (partcol1=val1, partcol2=val2 ...)] ;

2、insert

Hive 可以使用 insert 子句将查询结果插入到表中

-- overwrite 关键字会将原本的数据进行覆盖
INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;

-- into 关键字则是直接导入
INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement;

需要保证查询结果列的数目和需要插入数据表格的列数目一致。

如果查询出来的数据类型和插入表格对应的列数据类型不一致，将会进行转换，但是不能保证转换一定成功，转换失败的数据将会为 NULL。

可以将一个表查询出来的数据插入到原表中, 结果就是相当于复制了一份 cite 表格中的数据。

A、多重插入

首先创建三张表，第一张表中的第一个字段和第二张表的字段想同，第二个字段和第三张表的字段相同

create table source_table (id int, name string) row format delimited fields terminated by ',';

create table test_insert1 (id int) row format delimited fields terminated by ',';

create table test_insert2 (name string) row format delimited fields terminated by ',';

下面这条的语句的也是就是从source_table中查询出来id插入到test_insert1表中，将name查询出来插入到test_insert2表中，这样既完成了多重插入，将一个表中的字段分别插入到若干个表中。

from source_table -- 查询 source_table 表

insert overwrite table test_insert1

select id -- 将id字段插入 test_insert1 表中

insert overwrite table test_insert2

select name; -- 将name字段插入 test_insert2 表中

B、动态分区插入

动态分区功能和分桶功能一样都是默认关闭的，我们需要手动开启。

set hive.exec.dynamic.partition=true; -- 是否开启动态分区功能，默认false关闭。

set hive.exec.dynamic.partition.mode=nonstrict; -- 动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。

需求： 将dynamic_partition_table中的数据按照时间(day)，插入到目标表d_p_t的相应分区中。

-- 创建源数据表
create table dynamic_partition_table(day string,ip string)row format delimited fields terminated by ","; 

load data local inpath 'path' into table dynamic_partition_table;
2015-05-10,ip1
2015-05-10,ip2
2015-06-14,ip3
2015-06-14,ip4
2015-06-15,ip1
2015-06-15,ip2
 
-- 创建导入目标表：
create table d_p_t(ip string) partitioned by (month string,day string);

-- 进行动态插入操作：
insert overwrite table d_p_t partition (month,day) 
select ip,substr(day,1,7) as month,day 
from dynamic_partition_table;

需求： 查询结果导出到文件系统

-- 将查询结果保存到指定的文件目录（可以是本地，也可以是hdfs）


-- 将t_p表的数据全部查出导入到本地文件中
insert overwrite local directory '/home/hadoop/test'
select * from t_p;

-- 将t_p表的数据全部查出导入到HDFS中
insert overwrite directory '/aaa/test'
select * from t_p;

注意：

多态插入的字段是按位置一一映射的，所以即使是字段名字不一样但是如果位置对应就会插入成功。

3、select

基本的 Select 语法结构

select [ all | distinct ] select_expr,select_expr,...from table_name join table_other on expr

[where where_condition]

[group by col_list [hiving condition] ]

[cluster by col_list | [distribute by col_list ]-[sort by | order by col_list] ]

[limit number]

以上语法的顺序不可变!

说明:

1、order by：会对输入做全局排序，因此只会有一个reduce task，当输入的数据量大时，会导致计算需要较长的时间。

2、sort by：不是全局排序，会在数据进入reduce task前排序完成，所以sort by只保证每个reduce的输出排序，不保证全局排序。

3、distribute by：是根据指定字段的数据将数据分到不同的reduce，分发算法是hash散列。

4、cluster by：除了具有distribute by的功能外，还会对数据指定的字段进行排序。如果分桶和 sort 字段是同一个时，此时，cluster by = distribute by + sort by。

5、distinct：表示从一个字段中获取不同的值。

4、Hive join

内连接：将符合两边连接条件的数据查询出来

select * from t_a a inner join t_b b on a.id=b.id;

左外连接：以左表数据为匹配标准，右边若匹配不上则数据显示null

select * from t_a a left join t_b b on a.id=b.id;

右外连接：与左外连接相反

select * from t_a a right join t_b b on a.id=b.id;

左半连接：左半连接会返回左边表的记录，前提是其记录对于右边表满足on语句中的判定条件。

select * from t_a a left semi join t_b b on a.id=b.id;

全连接(full outer join)：返回左右两边所有的数据，匹配不到的先生为null。

select * from t_a a full join t_b b on a.id=b.id;

in/exists关键字(1.2.1之后新特性)：效果等同于left semi join

select * from t_a a where a.id in (select id from t_b);
select * from t_a a where exists (select * from t_b b where a.id=b.id);

cross join（##慎用）返回两个表的笛卡尔积结果，不需要指定关联键。

select a.*,b.* from a cross join b;

注意：

reduce在join时会缓存除了最后一个表的所有表的数据，因此，在开发中，我们应该把最大的表放在最后面，减小内存的缓存。

hive支持等值join查询，不支持非等值查询，另外，hive支持2张表以上的join。

join应该在在where语句前面。

join是不能交换位置的，无论是left还是right join都是左连接的。

5、UDF（user-defined function）

当hive内置的函数无发满足我们的实际需求时，我们就可以考虑编写一个自定义函数了。

自定义函数类别：

UDF：作用于单个数据行，产生一个数据行作为输出。（数学函数，字符串函数）
UDAF（用户定义聚集函数）：接收多个输入数据行，并产生一个输出数据行。（count， max）

如何编写一个UDF程序：

编写java程序，继承UDF类，并重载evaluate方法。

import org.apache.hadoop.hive.ql.exec.UDF;
public class AddUdf extends UDF {
 public Integer evaluate(Integer a, Integer b) {
     if (null == a || null == b) {
     	return null;
     } 
     return a + b;
 }
 public Double evaluate(Double a, Double b) {
     if (a == null || b == null)
     	return null;
     return a + b;
     }
 }

打成jar包上传到服务器
将jar包添加到hive add jar /path/AddUdf.jar;

创建临时函数与开发好的class关联起来

create temporary function add_example as 'xxx.AddUdf';

使用自定义函数 SELECT add_example(scores.math, scores.art) FROM scores;
```
--销毁临时函数
drop temporary function add_example
```

6、hive的分隔符

A、hive的读文件机制：首先调用inputformat（默认为TextInputFormat）去读取数据，一行一行的读入，然后使用SerDe（默认LazySimpleSerDe）的 Deserializer，将一条记录切分为各个字段（默认分隔符\001）

所以，hive的默认分隔符是\001，所以如果我们没有指定分隔符的时候，我们load的文件中的分隔符也需要是\001，否则程序虽然不会报错，但会识别不出数据，返回null，null，null。。。

B、Hive 对文件中字段的分隔符默认情况下只支持单字节分隔符，如果数据文件中的分隔符是多字符的，如下所示： 01||zhangsan 02||lisi 可用使用 RegexSerDe 通过正则表达式来抽取字段。

create table t_bi_reg(id string,name string) 
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' 
with serdeproperties( 
'input.regex'='(.*)\\|\\|(.*)', 
'output.format.string'='%1$s %2$s' 
) 
stored as textfile;

其中： input.regex：输入的正则表达式表示 || 左右两边任意字符被抽取为一个字段 output.format.string：输出的正则表达式%1 $s$ s 则分别表示表中的第一个字段、第二个地段

注意事项：

a、使用 RegexSerDe 类时，所有的字段必须为 string

b、input.regex 里面，以一个匹配组，表示一个字段

你可能感兴趣的:(BigData,Hive)

Hive基本操作小肥柴呀 Apache Hive hive 数据库
Hive基本操作1.Hive常用命令1.1Hive启动1.2Hive退出1.3Hive查看历史命令1.4Hive常用交互命令2.数据库基本操作2.1创建数据库2.2创建数据库并指定hdfs存储位置2.3删除空数据库2.4强制删除非空数据库2.5查看所有数据库2.6查看数据相关信息2.7数据库切换2.8修改数据库3.数据表基本操作3.1创建表3.1.1创建表的方式3.1.2创建内部表3.1.3创建外
hive迁移补数脚本细粒度表名-分区唯一键我要用代码向我喜欢的女孩表白 hive hadoop 数据仓库
假设我通过对数脚本发现，这些表对不上。假设检测出来是这样的（这些表存在于源端，但不存在目标端）我们需要从源端迁移过去。diff.txtads_xx1dt=20250219ads_xx2dt=20250217ads_xx2dt=20250218ads_xx2dt=20250219ads_xx3dt=20250217ads_xx4dt=20250217bak_xx1dt=20250109bak_xx1
国产唯一开源湖仓框架LakeSoul 2.0 重磅升级：支持快照回滚、Flink和Hive对接元灵数智大数据数据库 spark
首先，附上Github链接LakeSoul：https://github.com/meta-soul/LakeSoul，可搜索公众号元灵数智，在底部菜单了解我们-用户交流获取官方技术交流群二维码，进群与业内大佬进行技术交流。DMetaSoul团队于7月初发布了LakeSoul2.0版本，对1.0版本进行了多方面升级优化，提高了自身架构设计的灵活性，也更好地适应客户未来业务高速发展的需要。2.0版本
shell字典数组吃不到的烤鱼 shell脚本
转自:http://www.firefoxbug.com/index.php/archives/2369/#shell字典数组#!/bin/bashecho"shell定义字典"#必须先声明declare-Adicdic=([key1]="value1"[key2]="value2"[key3]="value3")#打印指定key的valueecho${dic["key1"]}#打印所有key值e
HTTP 协议星竹服务器 http 网络协议服务器
项目：csdn:https://blog.csdn.net/2303_76953932/article/details/142704176?spm=1001.2014.3001.5501halo:https://xingzhu.top/archives/webfu-wu-qi-xiao-xiang-mu-linux-c-epoll说明：参考学习:https://www.bilibili.com/v
Flink连接kerberos认证的hive 并使用table API lisacumt flink hive 大数据
有个问题flink的kerveros通过配置设置。但是HiveCatalog还需要再次使用UserGroupInformation再次认证。直接上代码：importcom.amihaiemil.eoyaml.*;importlombok.AllArgsConstructor;importlombok.Data;importlombok.NoArgsConstructor;importorg.apa
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
Big Data (H/M) Assessed Exercise 后端
BigData(H/M)AssessedExerciseTaskSheet2024/25–Individual–v107/02/25SummaryThegoalofthisexerciseistofamiliarizeyourselveswiththedesign,implementationandperformancetestingofBigDataanalysistasksusingApach
linux 打包解压命令 luoluosheng07 linux linux 服务器运维
1.Linux打包和解压命令打包命令tar命令是最常用的打包工具，可以用来创建归档文件。创建一个名为archive.tar的tar包：tar-cvfarchive.tar/path/to/directory/这里：c表示创建新的归档文件。v表示在打包过程中显示文件。f指定归档文件的名称。zip命令用于创建zip格式的压缩文件。zip-rarchive.zip/path/to/directory/这
Hadoop 基础原理 disgare 数据库 hadoop 大数据分布式
Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce底层原理示例Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和计算问题，广义上Hadoop指的是Hadoop生态圈，包含HDFS、Hive、MapRe
nodejs npm run build 打包压缩zip文件 xiaoxiao_0721 vue
步骤1:安装npminstallarchiver-D步骤2:根目录下新建zip.js，内容如下constfs=require('fs')constarchiver=require('archiver')//创建文件输出流letoutput=fs.createWriteStream(__dirname+'/dist.zip')letarchive=archiver(
本地Oracle数据库复制数据到Apache Hive的Linux服务器集群的分步流程 weixin_30777913 数据库大数据 hive
我们已经有安装ApacheHive的Linux服务器集群，它可以连接到一个OracleRDS数据库，需要在该Linux服务器上安装配置sqoop，然后将OracleRDS数据库中所有的表数据复制到Hive。为了将本地Oracle数据库中的所有表数据复制到ApacheHiveLinux服务器集群中，您可以遵循以下详细步骤：第一步：安装和配置Sqoop1.下载并安装Sqoop您可以从ApacheSqo
preview_220624,Day08_DM层建设实战, 啊六六六 Python 大数据数据挖掘数据仓库
DM名称：数据集市层DataMarket功能：基于DWS层日统计宽表，上卷出周、月、年等统计宽表，即粗粒度汇总。解释从理论层面来说，数据集市是一个小型的部门或工作组级别的数据仓库。一些公司早期的数据集市后期可能会演变成为数仓系统。本项目中在数据集市层面主要进行粗粒度汇总，也可以将这些功能下放至DWS层完成。抛弃DM.使用DataGrip在Hive中创建dm层注意，对于建库建表操作，需直接使用Hiv
MySQL 8 公用表表达式（CTE）—— WITH关键字深入用法 gmHappy 大数据学习 java web Java mysql 数据库 with递归
一、前言公用表表达式（CTE）是一个命名的临时结果集，它存在于单个语句的范围内，可以在该语句中引用，可能多次。对于逻辑复杂的SQL，可以大大减少临时表的数量，提升代码的可读性、可维护性。更多介绍请查看官网：https://dev.mysql.com/blog-archive/mysql-8-0-labs-recursive-common-table-expressions-in-mysql-cte
jar、war、pom JIU_WW jar java
1.jar定义与用途用途：默认打包类型，生成JAR文件（JavaArchive），适用于普通Java应用或库。场景：开发工具类库（如commons-lang.jar）。构建可执行应用（通过java-jar运行）。关键行为构建流程：执行mvnpackage后，生成target/.jar。包含编译后的.class文件、资源文件（如.properties）和META-INF/MANIFEST.MF。依赖
2025年计算机工程与大数据应用国际会议（CEBDA 2025） Yangxshy EI 会议大数据
2025年计算机工程与大数据应用国际会议2025InternationalConferenceonComputerEngineeringandBigDataApplications大会信息会议名称：2025年计算机工程与大数据应用国际会议会议简称：CEBDA2025收录检索：提交EiCompendex,CPCI,CNKI,GoogleScholar等大会地点：中国·北京审稿通知：投稿后2-3日内通
MAC电脑初始化开发环境（Java + Node） Kevin_K2 macos java 开发语言
1.后端1.1Java下载地址https://www.oracle.com/cn/java/technologies/javase/javase8-archive-downloads.html1.2Maven安装https://archive.apache.org/dist/maven/maven-3/1.3maven环境变量exportMAVEN_HOME=/Users/kevin/Soft/a
centOS 7.9 安装JDK MYSQL he25819 centos java mysql
jdk:JavaArchiveDownloads-JavaSE17.0.12andearlierCentOS安装JDK17教程（完整版）-秦胜飞-博客园sudoyumupdatewgethttps://download.oracle.com/java/17/archive/jdk-17.0.3.1_linux-x64_bin.rpmyuminstall./jdk-17.0.3.1_linux-x6
显卡3050ti等安培架构的GPU安装paddlepaddle 社会闲散人员中的代码爱好者 python 环境搭建 python 人工智能深度学习
3050ti等安培架构的GPU安装paddlepaddle官网原话如果您使用的是安培架构的GPU，推荐使用CUDA11.2如果您使用的是非安培架构的GPU，推荐使用CUDA10.2，性能更优其他配套确定软件版本后，到官网下载对应版本的软件CUDA：CUDAToolkitArchive|NVIDIADevelopercuDNN：cuDNNArchive|NVIDIADeveloper这里需要下载CU
Oracle 19C DataGuard GAP 修复过程（RECOVER STANDBY DATABASE FROM SERVICE）莳花微语 Oracle oracle 数据库 ADG
1.介绍DGGAP顾名思义就是：DG不同步，当备库不能接受到一个或多个主库的归档日志文件时候，就发生了GAP。那么，如果遇到GAP如何修复呢？DGGAP主要分为以下两类情况：主库归档日志存在，可以通过配置FetchArchiveLog(FAL)参数，自动解决归档GAP；主库归档日志丢失，需要人工干预来修复；不同Oracle版本的GAP修复方式也不尽相同，下面分别介绍不同版本的方式！11G的处理步骤
利用Python imaplib和email模块读取邮件文本内容及附件内容 aobian2884 python
python使用imap接收邮件的过程探索https://www.cnblogs.com/yhlx/archive/2013/03/22/2975817.html#!encoding:utf8'''环境：Win1064位Python2.7.5参考：http://www.pythonclub.org/python-network-application/email-formathttp://blog
hive运维花泽啸 Hive hive
hive锁相关showlocks;查看锁unlocktable表名;释放锁发现释放不了锁，执行下面sethive.support.concurrency=false;sethive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager;然后在unlock还是不行的的话：select*fromHIVE_LOCKS;关闭hivese
【003hive基础】hive的数据类型 roman_日积跬步-终至千里 #hive hive 大数据 hadoop
文章目录一.数据类型1.基础数据类型2.复杂数据类型二.显式转换与隐式转换三.hive的读时模式一.数据类型1.基础数据类型2.复杂数据类型array:有序相同数据类型的集合。arrays(1,2)map:key必须是基本数据类型，value不限。map(‘a’,1,‘b’,2)struct:不同类型字段的集合。类似于C语言的结构体。通过”点”得到所需要的元素，比如user是一个STRUCT类型，
【Hive】学习路线：架构、运维、Hsql实战、源码分析 roman_日积跬步-终至千里 #hive hive 学习架构
文章目录一.Hive基础学习1.基础知识2.安装与配置3.数据存储与表结构二.hive运维三.Hive实战1.HiveSQL基础2.高级查询与数据分析3.数据存储优化4.性能调优四.Hive源码分析一.Hive基础学习1.基础知识hive简介架构说明【hive-design】hive架构详解：描述了hive架构，hive主要组件的作用、hsql在hive执行过程中的底层细节、hive各组件作用2.
大数据安全项目是小酒大数据 python pycharm sql mysql
1.项目详情用python写一个大数据安全项目（使用tk，页面布局使用盒子模型，页面中各个按钮，主题要美观，按扭间的距离不要太进），需要连接数据库连接名是root（数据库名为bigdata_security,数据库密码是123456。查询数据库中的student表（包括id，name,sex,school,height,weight这些字段））。包括管理员和学生两个功能。2.代码详
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
pg使用 archive_cleanup_command 自动清理归档日志 eaglesstone postgresql数据库数据库 postgresql
在PostgreSQL主从复制设置中，主服务器生成的归档日志（WAL日志）对于复制非常重要，然而过多的归档日志会占用大量磁盘空间。因此，设置自动清理主服务器的归档日志非常重要，以防止磁盘空间被占满。清理归档日志的方式1.使用archive_cleanup_command自动清理归档日志PostgreSQL提供了archive_cleanup_command参数，用于自动清理归档日志。此参数指定了一
LINUX 安装mysql5.6.50 RPM a21768541 数据库 mysql
今天要做一个MySql数据库的主从备份，由于现有的数据库，是使用宝塔安装的5.6.50版本，因此需要在新购买的服务器上安装MySql5.6.50版本，记录一下安装过程的碰见的各种问题1.下载安装包抖店云上的系统是CentOS7.964位，因此下载Redhat7系统下面的安装包下载地址：https://downloads.mysql.com/archives/community/只需要下载这两个安装
Hive排序函数源码解密：字节跳动面试官的底层三连问数据大包哥 #Hive #大厂SQL面试指南 hive hadoop 数据仓库
Hive排序函数源码解密：字节跳动面试官的底层三连问作为数据工程师，理解Hive排序函数的源码就像掌握汽车的发动机原理。本文通过字节跳动内部技术文档，为你揭示三大排序函数的源码级实现差异。一、分布式执行框架Hive中ROW_NUMBER、RANK和DENSE_RANK的底层实现差异主要体现在相同排序键值的处理逻辑上，其核心流程可分为两个阶段：数据分区（Shuffle阶段）根据PARTITIONBY
笔记-Ubuntu本地镜像源配置丶花落谁家笔记 ubuntu apt
背景需要内网部署JitsiMeet，不用docker，用离线包进行安装，由于安装包需要的依赖比较多，因此需要在本地进行镜像源配置，保证依赖的正确安装。操作1、先在外网拿到安装包cd/var/cache/apt/archives2、复制至内网将所有deb复制至内网根目录下mkdir/ak/downloadchmod777-R/ak/download/3、依赖打包dpkg-scanpackages/a
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include