Andya_net

HIVE——常用sql命令总结

文章目录

hive常用交互命令
- `-e`执行sql
- `-f`执行脚本中sql语句
- hive cli命令行窗口操作hdfs
- 查看hive中输入的所有历史命令
库
- 创建库
- 查看库
- 使用库
- 修改库
- 删除库
表
- 查看表
- 创建表
- - 语法
  - 管理表和外部表
  - 示例
- 修改表
- 删除表
- 分区表
- - 概念
  - 操作
  - 分区表和数据产生关联
  - - 方式一：上传数据后修复
    - 方式二：上传数据后添加分区
    - 方式三：创建文件夹后load数据到分区
DML数据操作
- 数据导入
- - 向表中导入数据(load data)
  - - 语法
  - 查询插入数据(insert... select)
  - 查询创建表并加载数据（as select）
  - 创建表时location指定加载数据路径(location)
  - import数据到指定hive表中
- 数据导出
- - insert导出
  - hadoop -get命令导出本地
  - hive -e命令导出到本地
  - hive export导出到hdfs
- 查询
- - 列别名
  - 运算符
  - 常用函数
  - where语句
  - - 示例
    - 比较运算符
    - like和rlike
    - 逻辑运算符
  - 分组
  - - group by语句
    - having语句
    - join语句
  - 排序
  - - 全局排序（order by）
    - 按照别名排序
    - 多列排序
    - 区内排序（sort by ）
    - 分区排序（distribute by）
    - cluster by

hive常用交互命令

`-e`执行sql

[linux01@test hive$] bin/hive -e "select * from tab_01;"

`-f`执行脚本中sql语句

编写sql脚本

[linux01@test hive$] touch /data/test/hive-f-test.sql

在脚本中编写sql。
2. 执行sql脚本

[linux01@test hive$] bin/hive -f /data/test/hive-f-test.sql

执行sql脚本并将结果写入另一个文件

[linux01@test hive$] bin/hive -f /data/test/hive-f-test.sql > /data/test/data/hive-f-test-result.txt

hive cli命令行窗口操作hdfs

hive> dfs -ls /user/hive/warehouse/;

查看hive中输入的所有历史命令

[linux01@test $] cat ~/.hivehistory

库

创建库

hive> create database if not exists db01;

查看库

查看所有库

hive> show databases;

查看数据库信息

hive> desc database db01;

查看数据库详细信息

hive> desc database extended db01;

使用库

hive> use db01;

修改库

可以使用alter database命令为某个数据库的DBPROPERTIES设置键-值对属性值，用于描述数据库的属性信息。数据库的其他元数据信息无法更改，包括数据库名和数据库所在目录位置location。

hive> alter database hive set dbproperties('createtime'='20220101');

删除库

删除空数据库

hive> drop database db01;

删除不存在数据库

hive> drop database if exists db01;

删除不为空的数据库

hive> drop database db01 cascade;

表

查看表

查看所有表

hive> show tables;

查看表结构

hive> show create table tab_01;

查看表类型

hive> desc formatted tab_01;

创建表

语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]

常用简化：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[ROW FORMAT row_format]
[LOCATION hdfs_path]

字段说明：

CREATE TABLE：创建一个指定名称的表，若相同名字的表已经存在，则抛出异常，用户可使用IF NOT EXISTS选项忽略这个异常。
EXTERNAL：关键字创建一个外部表，在建表的同时指定一个指向实际数据的路径LOCATION，hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不会对数据的位置做任何改变。在删除表时，内部表的元数据和数据会被一起删除；而外部表只删除元数据，不删除数据。
COMMENT：为表和列添加注释。
PARTITIONED BY：创建分区表。
CLUSTERED BY：创建分桶表。
SORTED BY：桶内排序。
ROW FORMAT：DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEROPERTIES (property_name=property_value, property_name=property_value, ...] 用户在建表的时候可以自定义SerDe（Serialize/Deserialize，序列化和反序列化）或者使用自带的SerDe，若没有指定ROW FORMAT 或者ROW FORMAT DELIMITED，将会使用自带的SerDe，在建表的时候，用户还需要为表指定列，用户在指定表的列同时也会指定自定义的SerDe。hive通过SERDE确定表的具体的列的数据。
STORED AS：指定存储文件的类型，常见类型有：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）.若文本数据是纯文本，可以使用STORED AS TEXTFILE，若需要压缩存储，可以使用STORED AS SEQUENCEFILE。
LOCATION：指定表在HDFS上的存储位置。
10.LIKE：允许用户复制现有的表结构，但是不复制数据。

管理表和外部表

默认创建的表都是管理表，也称为内部表，hive会控制数据的声明周期，不适合和其他工具共享数据。默认情况下会将这些表的数据存储在hive.metastore.warehouse.dir配置项定义的目录的子目录下，如/user/hive/warehouse，当删除一个管理表时，hive也会删除这个表中的数据，即hdfs location的数据也会一并删除。
外部表使用EXTERNAL关键字进行创建。若创建外部表，仅记录数据所在的路径，不会对数据的位置做任何改变。在删除表时，内部表的元数据和数据会被一起删除；而外部表只删除元数据，不删除数据。

示例

创建分区表

hive> create table if not exists tab_01 (colume01 string)
partitioned by (colume02 string)
row format delimited
fields terminated by '\t';

创建外部表

hive> create external table if not exists db01.tab_01(
id int, name string
)
row format delimited fields terminated by '\t';

装载数据进表中

hive> load data local inpath '/xxx/xxx/xxx.txt' into table db01.tab_01;

删除数据表

hive> drop table db01.tab_01;

此时location中的数据还是存在，即删除外部表后，元数据删除，但数据不删除。

修改表

修改内部表为外部表

hive> alter table tab_01 set tblpropertites('EXTERNAL'='TRUE');

修改外部表为内部表

hive> alter table tab_01 set tblpropertites('EXTERNAL'='FALSE');

重命名表

hive> alter table tab_01 rename to tab_01_new;

增加列信息

hive> alter table tab_01 add columns(column02 string);

更新列

hive> alter table tab_01 change column column02 column02_new string;
hive> alter table tab_01 change column column02_new column02_new_new int;

替换列
不会修改存储在hdfs中的数据，只是改元数据的列而已。若hdfs中存储的是string类型，若列replace列为int后，则查不了对应的数据。

hive> alter table tab_01 replace columns (column03 int);

删除表

删除表

hive> drop table tab_01;

清空表
只能清空管理表，不清楚外部表。

hive> truncate table tab_01;

分区表

概念

分区表实际上是对应一个HDFS文件系统上的独立文件夹，该文件夹是该分区所有的数据文件。hive中的分区就是分目录，把一个大的数据集切割成多个小的数据集，在查询时可以通过WHERE选定指定的分区查询对应的数据。

操作

创建分区表

hive> create table if not exists tab_01 (column01 string)
partitioned by (partition_column01 string)
row format delimited fields terminated by '\t';

查看分区信息

hive> show partitions tab_01;

查看分区表结构

hive> desc formatted tab_01;

插入分区数据

hive> insert into table tab_01 partition(partition_column01='xxxx') values ('yyyy');

load数据到分区

hive> load data local inpath '/data/xxx/xx/yy.txt' into table tab_01 partition(column02='xxxxxx');

查看分区数据

hive> select * from tab_01 where partition_column01='xxxx';

增加单个分区

hive> alter table tab_01 add partition(partition_column01='yyyy');

增加多个分区

hive> alter table tab_01 add partition(partition_column01='xxx') partition(partition_column01='yyy');

删除单个分区

hive> alter table tab_01 drop partition(partition_column01='yyyy');

删除多个分区

hive> alter table tab_01 drop partition(partition_column01='xxx'), partition(partition_column01='yyy');

创建二级分区

hive> create table tab_01(column01 string, column02 int
)
partitioned by (partition_column01 string, partition_column02 string)
row format delimited fields terminated by '\t';

加载数据到二级分区表

hive> load data local inpath '/data/xxx/yy.txt' into table tab_01 partition(partition_column01='xxxx', partition_column02='yyyy');

查询二级分区表数据

hive> select * from tab_01 where partition_column01='xxxx' and partition_column02='yyyy';

分区表和数据产生关联

方式一：上传数据后修复

上传数据

[linux01@test $] hdfs dfs -mkdir -p /user/hive/warehouse/tab_01/month=202205/day=7;
[linux01@test $] hdfs dfs -put /data/t.txt /user/hive/warehouse/tab_01/month=202205/day=7;

查询数据

hive> select * from tab_01 where month='202205' and day='7';

查询不到数据，因为该表只是有实际数据，但是无元数据。
3. 执行修复命令

hive> msck repair table tab_01;

再次查询数据

hive> select * from tab_01 where month='202205' and day='7';

查询到数据。

方式二：上传数据后添加分区

上传数据

[linux01@test $] hdfs dfs -mkdir -p /user/hive/warehouse/tab_01/month=202205/day=8;
[linux01@test $] hdfs dfs -put /data/t.txt /user/hive/warehouse/tab_01/month=202205/day=8;

增加分区

hive> alter table tab_01 add partition(month=202205,day=8);

查询数据

hive> select * from tab_01 where month='202205' and day='8';

方式三：创建文件夹后load数据到分区

[linux01@test $] hdfs dfs -mkdir -p /user/hive/warehouse/tab_01/month=202205/day=9;

上传数据

hive> load data local inpath '/data/t.txt' into table tab_01 partition(month='202205',day='9');

查询数据

hive> select * from tab_01 where month='202205' and day='9';

DML数据操作

数据导入

向表中导入数据(load data)

语法

load data [local] inpath '/xxx/xxx/xx.txt' [overwrite] into table tab_01 [partition(part_col1=val1,...)];

其中:

load data: 表示加载数据。
local：表示从本地加载数据到hive表，否则从hdfs加载数据到hive表中。
inpath：表示加载数据的路径。
overwrite：表示覆盖原表中的数据，若不加该关键字，则表示追加数据。
into table：表示加载到目标表。
tab_01：表示加载到的目标表。
partition：表示加载到表中的哪个分区。

查询插入数据(insert… select)

创建分区表

hive> create table tab_01(id int, name string)
    > partitioned by (month string)
    > row format delimited fields terminated by '\t';

基本插入数据

hive> insert into table tab_01 partition (month='202205') values (1, 'xiaoming');

基本插入模式（单张表查询插入）

hive> insert overwrite table tab_01 partition(month='202206')
    > select id, name from tab_01 where month='202205';

多插入模式（多张表查询插入）

hive> from tab_01
    > insert overwrite table tab_01 partition(month='202207')
    > select id, name from tab_01 where month='202205'
    > insert overwrite table tab_01 partition(month='202208')
    > select id, name from tab_01 where month='202205';

查询创建表并加载数据（as select）

hive> create table if not exists tab_02
    > as select id from tab_01;

创建表时location指定加载数据路径(location)

创建表并指定hdfs路径

hive> create table if not exists tab_02(
    > id int, name string
    > )
    > row format delimited fields terminated by '\t'
    > location '/user/hive/warehouse/tab_02';

上传数据到hdfs路径中

[linux01@test $] hdfs dfs -put /xxx/xxx/xx.txt /user/hive/warehouse/tab_02

查询数据

hive> select * from tab_02;

import数据到指定hive表中

需要先将数据export后才能import进hive表中。

hive> import table tab_01 partition(month='202205')
    > from
    > '/user/hive/warehouse/export/tab_01';

数据导出

insert导出

将查询结果导出到本地

hive> insert overwrite local directory 
    > '/data/hive/export/tab_01'
    > select * from tab_01;

将查询的结果格式化导出到本地

hive> insert overwrite local directory
    > '/data/hive/export/tab_01'
    > row format delimited fields terminated by '\t'
    > select * from tab_01;

将查询的结果导出到hdfs上

hive> insert overwrite directory
    > '/user/user01/export/tab_01'
    > row format delimited fields terminated by '\t'
    > select * from tab_01;

hadoop -get命令导出本地

[linux01@test $] hdfs dfs -get /user/hive/warehouse/tab_01/month=202205/day=8 /data/test/export/t.txt

hive -e命令导出到本地

[linux01@test hive$] bin/hive -e 'select * from db01.tab_01;' > /data/test/export/t.txt

hive export导出到hdfs

hive> export table tab_01 to '/data/test/export/tab_01'

查询

列别名

hive> select name cn_name from tab_01;
hive> select name as cn_name from tab_01;

运算符

运算符	说明
A+B	A加B
A-B	A减B
A*B	A乘以B
A/B	A除以B
A%B	A对B取余
A&B	A和B按位取与
A\|B	A和B按位取或
A^B	A和B按位取异或，相同即为0，不同即为1
~A	A按位取反

hive> select num + 100 from tab_01;

常用函数

计数（count）

hive> select count(*) cnt from tab_01;

最大值（max）

hive> select max(num) max_num from tab_01;

最小值（min）

hive> select min(num) min_num from tab_01;

总和（sum）

hive> select sum(num) sum_num from tab_01;

平均值（avg）

hive> select avg(num) avg_num from tab_01;

limit语句

hive> select * from tab_01 limit 10;

where语句

示例

hive> select * from tab_01 where id < 10;

比较运算符

between/in/is null

运算符	支持的数据类型	说明
A=B	基本数据类型	若A等于B，返回TRUE，否则返回FALSE
A<=>B	基本数据类型	若A和B都为NULL，返回TRUE; 其他的比较等同于“=”的结果；若任一方位NULL，则结果为NULL
A<>B, A!=B	基本数据类型	A或B为NULL，返回NULL; 若A不等于B，返回TRUE，否则返回FALSE
A	基本数据类型	A或B为NULL，返回NULL; 若A小于B，则返回TRUE，否则返回FALSE
A<=B	基本数据类型	A或B为NULL，返回NULL; 若A小于等于B，则返回TRUE，否则返回FALSE
A>B	基本数据类型	或B为NULL，返回NULL; 若A大于B，则返回TRUE，否则返回FALSE
A>=B	基本数据类型	A或B为NULL，返回NULL; 若A大于等于B，则返回TRUE，否则返回FALSE
A [NOT] BETWEEN B AND C	基本数据类型	若A,B或C任一个为NULL，则结果为NULL; 若A的值大于等于B且小于等于C，则结果为TRUE，否则为FALSE;若使用NOT关键字，则上述结果为相反的。
A IS NULL	所有数据类型	若A为NULL，则返回TRUE，否则返回FALSE
A IS NOT NULL	所有数据类型	若A不为NULL，则返回TRUE，否则返回FALSE
IN(num1, num2)	所有数据类型	使用IN判断是否在显示的列表中num1和num2这两个值
A [NOT] LIKE B	STRING类型	B是一个sql正则表达式，若A匹配，则返回TRUE，否则返回FALSE。 'x%‘表示A必须以’x’开头； ‘%x’表示A必须以’x’结尾。 ’%x%‘表示A包含字母’x’，可以任何位置。若加入关键字NOT，则上述结果都为相反的。
A RLIKE B, A REGEXP B	STRING类型	B的一个正则表达式，若A匹配，则返回TRUE，否则返回FALSE;

like和rlike

使用like运算选择类似的值；

hive> select * from tab_01 where col_01 like '%y';

选择条件可以包含字符或数字：%代表0个或多个字符（任意个字符）；_代表一个字符。

hive> select * from tab_01 where col_01 like '_y%';

rlike子句是hive扩展功能，通过java正则表达式指定匹配条件。

hive> select * from tab_01 where col_01 rlike '[y]';
-- 等价于
hive> select * from tab_01 where col_01 like '%y%';

逻辑运算符

and/or/not

运算符	说明
AND	逻辑并
OR	逻辑或
NOT	逻辑否

逻辑并and

-- 查出名字为xiaoming且年龄小于10岁的记录
hive> select * from tab_01 where name = 'xiaoming' and age < 10;

逻辑或or

-- 查出名字为小明或者年龄小于10岁的记录
hive> select * from tab_01 where name = 'xiaoming' or age < 10;

逻辑否

-- 查出年龄不是6岁和10岁的记录
hive> select * from tab_01 where age not in(10, 6);

分组

group by语句

group by通常和聚合函数一起使用，按照一个或者多个列结果进行分组，然后对每个组进行聚合。

计算student表中每个班级classno的平均年龄

hive> select s.classno, avg(s.age) avg_age 
    > from student s 
    > group by s.classno;

计算student表中每个班级每个学生的考试的最高分

hive> select s.classno, s.person, max(s.score) max_score 
    > from student s
    > group by s.classno, s.person;

having语句

having和where语句不同：

where针对表中的列进行查询数据；having针对查询结果中的列筛序数据。
where后面不能写分组函数；having后面可以使用分组函数。
having只用于group by分组统计语句。

-- 求每个班级的平均年龄大于12岁的班级
--1）求每个班级的平均年龄
hive> select classno, avg(age) avg_age from student
    > group by classno;
--2)求平均年龄大于12岁的班级
hive> select classno, avg(age) avg_age from student
    > group by classno
    > having avg_age > 12;

join语句

hive只支持等值连接，不支持非等值连接。支持内连接、左连接、右连接、满连接、多表连接和笛卡尔积。大多数情况下，hive会对每个join连接对象启动一个mapreduce任务。

-- 内连接：查询学生student表中和班级class表中班级编号classno相等，查询学生编号sno、学生姓名name和班级名称name
hive> select s.sno, s.name, c.name 
    > from student s 
    > join class c on s.classno = c.classno;
-- 笛卡尔积
hive> select s.name, c.name from student s, class c;

排序

全局排序（order by）

使用order by子句排序

关键字	说明
ASC	ascend，升序（默认）
DESC	descend，降序

order by子句一般都在select语句的结尾。

-- age年龄升序
hive> select * from student order by age;
-- age年龄降序
hive> select * from student order by age desc;

按照别名排序

-- 按照学生3倍的分数排序
hive> select name, score*3 threescore 
    > from student 
    > order by threescore;

多列排序

-- 按照id和age排序
hive> select * from student order by id, age;

区内排序（sort by ）

设置reduce个数

hive> set mapreduce.job.reduces=3;

查看reduce个数

hive> set mapreduce.job.reduces;

根据班级编号降序查看学生信息

hive> select * from student sort by classno desc;

将查询结果导入文件

hive> insert overwrite local directory
	> '/data/test/student-sortby-result'
	> select * from student sort by classno desc;

若是全局排序，reduce只会有1个。

分区排序（distribute by）

若需要进行分区排序，则使用distribute by结合sort by使用。

-- 根据学生编号sno进行分区排序，班级编号进行mapreduce排序
hive> insert overwrite local directory
	> '/data/test/student-distributeby-result'
	> select * from student distribute by sno sort by classno desc;

cluster by

只有当distribute by和sort by的字段相同时，才可以使用cluster by。只能是升序，不能指定排序规则为ASC或者DESC。

-- 根据班级编号进行分区排序，同样以班级编号进行mapreduce排序
hive> select * from student distribute by classno sort by classno;
-- 等价于
hive> select * from student cluster by classno;

你可能感兴趣的:(Hadoop大数据专栏,hive,hadoop)

C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
HTB academy -- Linux Privilege Escalation --Service-based Privilege Escalation 网络安全小吗喽 linux 服务器网络安全测试工具
VulnerableServices#!/bin/bash#screenroot.sh#setuidscreenv4.5.0localrootexploit#abusesld.so.preloadoverwritingtogetroot.#bug:https://lists.gnu.org/archive/html/screen-devel/2017-01/msg00025.html#HACKTH
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
android nodejs cike110120
本文参照了http://www.blogjava.net/jelver/articles/143082.html，http://www.blogjava.net/athrunwang/archive/2011/09/28/359680.html，《androidSDK开发范例大全(第2版)》上次做了一个demo，试验如何用node.js响应getpost请求，http请求使用的浏览器。我现在正在学
CYW43: 无线网络开发套件指南阮曦薇Joe
CYW43:无线网络开发套件指南cyw43ARCHIVED--movedintothemainEmbassyrepoathttps://github.com/embassy-rs/embassy项目地址:https://gitcode.com/gh_mirrors/cy/cyw43项目介绍CYW43是一个基于Rust的开源项目，专门用于驱动CypressCYW43xx系列WiFi和蓝牙芯片。它提供
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Hive适用语法 `whyYa hive hadoop 数据仓库
一、日期处理函数总结1.trunc()–取日期中当月第一天trunc(‘2022-12-05’,‘MM’)--取当月第一天2022-12-01trunc(‘2022-12-05’,‘Q’)--季度中的第一天2022-10-01trunc(‘2022-12-03’,‘YEAR’)–取当年第一天20222.last_day()–取当月最后一天last_day(‘2022-12-03’)3.month(
debian安装docker Sahas1019 debian docker eureka
debian安装docker/dev/null对于Debian11(bullseye)或更新版本：echo\"deb[arch=$(dpkg--print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg]https://download.docker.com/linux/debian\$(lsb_relea
Ubuntu22.04安装cudnn详细步骤大鹏的NLP博客深度学习 cudnn
下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb根据上步提示：sudocp/var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
assembly : maven assembly打包报错：maven to create assembly : unable to obtain archiver for extension 九师兄工具-maven
原因是没有添加org.apache.maven.plugins<artifactId
使用Java实现MP3音乐播放器
原文链接：http://www.cnblogs.com/haoxia/archive/2009/06/03/1495419.html使用Java实现MP3音乐播放器JavaSound是一个小巧的低层API，支持数字音频和MIDI数据的记录/回放。在JDK1.3.0之前，JavaSound是一个标准的Java扩展API，但从Java2的1.3.0版开始，JavaSound就被包含到JDK之中。由于J
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc