大数据下的画像人

13-Hive的基本操作和查询语法以及案例

7.2.5 Hive分区表

理解
- 在大数据中，最常见的思想就是分而治之，我们可以把大的文件切割划分成一个个小的文件，这样每次操作一个个小的文件就会很容易了，同样的道理，在hive当中也是支持这种思想的，就是我们可以把大的数据，按照每天或者每个小时切分成一个个的小的文件，这样去操作小的文件就会容易很多
- 假如现在我们公司一天产生3亿的数据量，那么为了方便管理和查询
  - 建立分区（可以按日期部门等具体业务分区）
  - 分门别类的管理

1. 静态分区（SP）

创建静态分区语法

CREATE TABLE IF NOT EXISTS t_student (
sno int,
sname string
) partitioned by(grade int)
row format delimited fields terminated by ',';

数据信息

1,zhangsanfeng01,1
2,zhangsanfeng02,1
3,zhangsanfeng03,1
4,zhangsanfeng04,1
5,zhangsanfeng05,1
6,zhangsanfeng06,1
7,zhangsanfeng07,2
8,zhangsanfeng08,2
9,zhangsanfeng09,2
10,zhangsanfeng10,2
11,zhangsanfeng11,2
12,zhangsanfeng12,2
13,zhangsanfeng13,3
14,zhangsanfeng14,3
15,zhangsanfeng15,3
16,zhangsanfeng16,3
17,zhangsanfeng17,3
18,zhangsanfeng18,3
19,zhangsanfeng19,4
20,zhangsanfeng20,4
21,zhangsanfeng21,4

载入数据

load data inpath '/yjx/student.txt' into table t_student partition(grade=1);

创建多分区表语法

CREATE TABLE IF NOT EXISTS t_teacher (
tno int,
tname string
) partitioned by(grade int,clazz int)
row format delimited fields terminated by ',';

注意：前后两个分区的关系为父子关系，也就是grade文件夹下面有多个clazz子文件夹。

数据信息

1,jueyuan01,1,1
2,jueyuan02,1,1
3,jueyuan03,1,2
4,jueyuan04,1,2
5,jueyuan05,1,3
6,jueyuan06,1,3
7,jueyuan07,2,1
8,jueyuan08,2,1
9,jueyuan09,2,2

载入数据

load data inpath '/yjx/teacher11.txt' into table t_teacher partition(grade=1,clazz=1);

查询数据

分区表查询语句

select * from t_student where grade = 1 ;

通过建立分区表，可以更加高效的查询出结果（因为已经分区过，相当于直接查找分区里的内容，而不是查询操作）

查看分区

show partitions t_student;

添加分区

alter table t_student add partition (day='99990102');
alter table t_student add partition (day='99990103') location '99990103';

删除分区

alter table salgrade2 drop partition (day='99990102');

2. 动态分区（DP）

定义理解
- 动态分区（dynamic partition）和静态分区的主要区别是静态分区是手动指定分区，而动态分区是通过数据来进行判断
- 具体来说，静态分区的列就是在编译时期通过用户传递来决定的；动态分区只有在SQL执行时才能决定

开启动态分区的首先要在Hive会话中设置如下参数

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;

其余的参数详细配置如下

设置为true表示开启动态分区的功能（默认为false）
--hive.exec.dynamic.partition=true;
设置为nonstrict，表示允许所有分区都是动态的（默认为strict）
-- hive.exec.dynamic.partition.mode=nonstrict;
每个mapper或reducer可以创建的最大动态分区个数(默认为100)
比如：源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，如果使用默认
值100，则会报错
--hive.exec.max.dynamic.partition.pernode=100;
一个动态分区创建可以创建的最大动态分区个数（默认值1000）
--hive.exec.max.dynamic.partitions=1000;
全局可以创建的最大文件个数（默认值100000）
--hive.exec.max.created.files=100000;
当有空分区产生时，是否抛出异常（默认false）
-- hive.error.on.empty.partition=false;

案例1：动态插入学生年级班级信息

创建分区表

CREATE TABLE IF NOT EXISTS t_student_d (
sno int,
sname string
) partitioned by (grade int,clazz int)
row format delimited fields terminated by ',';

创建外部表

CREATE EXTERNAL TABLE IF NOT EXISTS t_student_e (
sno int,
sname string,
grade int,
clazz int
)
row format delimited fields terminated by ','
location "/yjx/student";

注意：如果静态分区的话，我们插入数据必须指定分区的值。如果想要插入多个班级的数据，我们要写很多的SQL并且执行很多次很麻烦，而且静态分区有可能会产生数据错误

静态分区导入数据

insert overwrite table t_student partition (grade=1) select * from t_student_e
where grade=1;

动态分区导入数据，动态分区会根据select的结果自动判断数据应该load到哪个分区
```
insert overwrite table t_student_d partition (grade,clazz) select * from
t_student_e ;
```

7.2.6 Hive载入数据和导出数据

1.Hive载入数据

基本语法
```
load data [local] inpath 'datapath' [overwrite] into table student [partition (partcol1=val1,…)];
```
- load data
  加载数据
- [local]
  本地，不加Local就是从HDFS,如果是HDFS，将会删除掉原来的数据
- inpath
  数据的路径
- ‘datapath’
  具体的路径，要参考本地还是HDFS
- [overwrite]
  覆盖
- into table
  加入到表
- student
  表的名字
- [partition (partcol1=val1,…)]
  分区
加载linux本地数据
- 切记必须和hiveserver2在同一个节点才可以上传否则会出现如下错误
  
  SemanticException Line 1:23 Invalid path ‘’/root/d3.txt’': No files matching path file
- load data local inpath ‘/root/user.txt’ into table t_user;
加载HDFS数据
- load data inpath ‘/yjx/user.txt’ into table t_user;
加载并覆盖已有数据
- load data inpath ‘/yjx/user.txt’ overwrite into table t_user;

通过查询插入数据

创建表

create table t_user1(
id int,
uname string
)
row format delimited fields terminated by ','
lines terminated by '\n';
create table t_user2(
id int,
pwd string
)
row format delimited fields terminated by ','
lines terminated by '\n';

插入查询结果

-将查询结果插入一张表
insert overwrite table t_user1 select id,uname from t_user;
insert overwrite table t_user2 select id,pwd from t_user;
--将查询结果一次性存放到多张表
from t_user
insert overwrite table t_user1 select id,uname
insert overwrite table t_user2 select id,pwd;

2. Hive导出数据

将表中的数据备份

将查询结果存放到本地
- 现在本地创建一个存放目录
  - mkdir -p /root/yjx
- 再将查询结果的数据导出到node01节点上
  - insert overwrite local directory ‘/root/person_data’ select * from t_person;

按照指定的方式将数据输出到本地

先创建一个存放数据的目录
- mkdir -p /root/yjx

再导出查询结果的数据

insert overwrite local directory '/root/yjx/person'
ROW FORMAT DELIMITED fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
lines terminated by '\n'
select * from t_person;

将查询到的结果输出到HDFS

//创建存放数据的目录
hdfs dfs -mkdir -p /yjx/copy
//导出查询结果的数据
insert overwrite directory '/yjx/copy/user'
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
select * from t_user;

或者直接用HDFS命令保存表到对应的文件夹中

//创建存放数据的目录
hdfs dfs -mkdir -p /yjx/person
//使用HDFS命令拷贝文件到其他目录
hdfs dfs -cp /hive/warehouse/t_person/* /yjx/person

将表结构和数据同时备份

将数据导出到HDFS

//创建存放数据的目录
hdfs dfs -mkdir -p /yjx/copy
//导出查询结果的数据
export table t_person to '/yjx/copy';

删除表结构
```
drop table t_person;
```
恢复表结构和数据
```
import from '/yjx/copy';
```
需要注意的是：时间不同步，会导致导入导出失败

7.2.7 分桶表

概念理解
- 我们可以将Hive中的分桶原理理解成MapReduce中的HashPartitioner的原理。都是基于hash值对数据进行分桶。
  - MR：按照key的hash值除以reduceTask个数进行取余(reduce_id = key.hashcode % reduce.num)
  - Hive:按照分桶字段(列)的hash值除以分桶的个数进行取余(bucket_id = column.hashcode % bucket.num)
分桶表出现的原因
- 分区提供了一个隔离数据和优化查询的便利方式，不过并非所有的数据都可以形成合理的分区，尤其是需要确定合适大小的分区划分方式
- 不合理的数据分区划分方式可能导致有的分区数据过多，而某些分区没有什么数据的尴尬情况，而分桶的出现就是解决这种数据分布不均匀的情况
数据分桶的原理
- 分桶就是将数据分解为更容易管理的若干部分的一种技术
  - 具体就是将数据按照字段进行划分，可以将数据按照字段划分到多个文件中
- Hive采用对列值哈希，然后除以桶的个数再求余来确定该条记录存放在哪个桶中
  - bucket num = hashcode（列值bucketing_column) mod num_buckets
  - 列的值做哈希取余，决定数据应该存储到哪个桶
- 例如对用户ID进行hash之后对100取余，然后得到的不同的结果分到不同的桶里
  - 原理：两个数据相同，hashcode就相同，那么余数也相同，就会在一个桶里
数据分桶的原理
- 方便抽样
  - 是取样（sampling）更高校，在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便
- 提高join查询效率
  - 获得更高的查询处理效率。桶为表加上了额外的结构，Hive在处理有些查询时能够利用这个结构。
  - 具体而言，连接在两个（包含连接列）相同列上划分了桶的表，可以使用Map端连接（Map-side join）高效的实现
    - 比如老师上课举的例子，对于join操作，两个表有一个相同的列，如果对这两个表都进行了桶操作，那么将保存相同列值的桶进行join操作就可以大大减少join的数据量
    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uZxv4hij-1656257995434)(https://s2.loli.net/2022/06/26/PZ9H5YjfoSUtiNh.png)]

数据分桶实战

开启分桶功能

set hive.enforce.bucketing=true;
设置Reduce个数

我们需要确保reduce 的数量与表中的bucket 数量一致bucket个数会决定在该表或者该表的分区对应的hdfs目录下生成对应个数的文件,而mapreduce的个数是根据文件块的个数据确定的map个数。

set mapreduce.job.reduce=3;

创建表

CREATE TABLE t_citizen_bucket(
idcard int,
pname string,
province int
)clustered by(idcard) sorted by (pname desc) into 16 buckets
row format delimited fields terminated by ','
lines terminated by '\n';
create EXTERNAL table t_citizen(
idcard int,
pname string,
province int
)row format delimited fields terminated by ','
lines terminated by '\n'
location '/yjx/citizen';

数据导入（用idea得出来的数据）

for (int i = 1000; i < 10000; i++) {
System.out.println(i + "," + "admin" + (new Random().nextInt(89999) +
10000) + "," + i % 34);
}

将外部表的数据导入到分桶表

insert overwrite table t_citizen_bucket select * from t_citizen ;

7.2.8 数据抽样算法

1. 数据块抽样

定义与语法规范：
- 该方式允许Hive随机抽取N行数据，数据总量的百分比（n百分比）或N字节的数据。
SELECT * FROM TABLESAMPLE(N PERCENT|ByteLengthLiteral|N ROWS) s;
具体语法理解：
- tablesample(n percent) 根据hive表数据的大小按比例抽取数据，并保存到新的hive表中。如：
  抽取原hive表中10%的数据
  - 注意：测试过程中发现，select语句不能带where条件且不支持子查询，可通过新建中间表或使用随机抽样解决
  - create table xxx_new as select * from xxx tablesample(10 percent)
- tablesample(n M) 指定抽样数据的大小，单位为M
- tablesample(n rows) 指定抽样数据的行数，其中n代表每个map任务均取n行数据

2.桶表抽样

定义语法理解：
- tablesample是抽样语句，分桶语句中的分母表示的是数据将会被散列的桶的个数，分子表示将会选择的桶的个数
- 语法：TABLESAMPLE(BUCKET x OUT OF y)
X和Y的理解
- x表示从哪个bucket开始抽取。
  - 例如，table总bucket数为32，tablesample(bucket 3 out of 16)
  - 表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第第（3+16=）19个bucket的数据
- y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。
  - 例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据
示例：
- select * from t_citizen_bucket tablesample(bucket 1 out of 16 on idcard);
- select * from t_citizen_bucket tablesample(bucket 2 out of 4 on idcard);

3. 随机抽样

定义语法理解：
- 使用RAND()函数和LIMIT关键字来获取样例数据，使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的
- ORDER BY RAND()语句可以获得同样的效果，但是性能没这么高。
语法：
- SELECT * FROM DISTRIBUTE BY RAND() SORT BY RAND() LIMIT
  
  < N rows tosample>;
示例：
- select * from t_citizen_bucket DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 10;

Day13-Hive的操作与优化

重点掌握

1、掌握Hive中开窗函数和自定义函数的应用
2、掌握Hive的行式存储和列式存储的区别

理解内容

1、Hive的同比与环比练习 -40
2、Hive的优化 -41~42
3、Hive的配置参数 -44
4、Hive的数据倾斜 -45

7.3 Hive查询语法

7.3.1 Hive独占的排序

1.全局排序

理解：

order by会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间

排序语法

使用order by排序
ASC升序（默认）
DESC降序

select * from t_student_d order by sno;

按照字段别名排序

select grade,count(sno) cs from t_student_d group by grade order by cs;

多个列排序

select grade,count(sno) cs from t_student_d group by grade order by cs,grade;

2. 局部排序

理解：
- sort by 不是全局排序，其在数据进入reducer前完成排序
- 如果用 sort by 进行排序，并且设置 mapred.reduce.tasks>1 ，则sort by 只保证每个reducer的输出有序，不保证全局有序
设置reduce的个数
```
set mapreduce.job.reduce=3;
```
查看reduce的个数
```
set mapreduce.job.reduce;
```

排序

select * from t_student_d sort by sname;

将查询结果导入到文件中

insert overwrite local directory '/root/student' select * from t_student_d sort by clazz asc, grade desc;

3. 分区排序

理解
- distribute by （字段）根据指定的字段将数据分到不同的reducer，且分发算法是hash散列
- 类似MR中partition,进行分区，结合sort by使用。（注意：distribute by 要在sort by前）
- 对于distrbute by 进行测试，一定要多分配reduce进行处理，否则无法看到distribute by的效果。
设置reduce个数
```
set mapreduce.job.reduce=7;
```

排序

insert overwrite local directory '/data/student' select * from t_student_d distribute by sname;

4. 分区并排序

理解
- cluster by（字段）除了具有Distribute by的功能外，还会对该字段进行排序
- cluster by = distribute by + sort by 只能默认升序，不能使用倒序
```
select * from t_student_d sort cluster by sname;
select * from t_student_d distribute by sname sort by sname;
```

7.3.2 Hive内置函数

内置函数
- https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
- 查看系统自带函数
  - show functions;
- 显示自带函数的用法
  - desc function upper;
- 详细显示自带函数用法
  - desc function extended upper;
内置函数分类

UDTF函数

创建数据库表

create table t_movie1(
id int,
name string,
types string
)
row format delimited fields terminated by ','
lines terminated by '\n';

电影数据信息

1,这个杀手不太冷,剧情-动作-犯罪
2,七武士,动作-冒险-剧情
3,勇敢的心,动作-传记-剧情-历史-战争
4,东邪西毒,剧情-动作-爱情-武侠-古装
5,霍比特人,动作-奇幻-冒险

加载数据

load data inpath '/yjx/movie1.txt' into table t_movie1;

explode 可以将一组数组的数据变成一列表

select explode(split(types,"-")) from t_movie1;

lateral view 表生成函数，可以将explode的数据生成一个列表

select id,name,type from t_movie1,lateral view explode(split(types,"-"))typetable as type;

创建数据库表

create table t_movie2(
id int,
name string,
type string
)
row format delimited fields terminated by ','
lines terminated by '\n';

电影数据信息

1,这个杀手不太冷,剧情
1,这个杀手不太冷,动作
1,这个杀手不太冷,犯罪
2,七武士,动作
2,七武士,冒险
2,七武士,剧情
3,勇敢的心,动作
3,勇敢的心,传记
3,勇敢的心,剧情
3,勇敢的心,历史
3,勇敢的心,战争
4,东邪西毒,剧情
4,东邪西毒,动作
4,东邪西毒,爱情
4,东邪西毒,武侠
4,东邪西毒,古装
5,霍比特人,动作
5,霍比特人,奇幻
5,霍比特人,冒险

加载数据

load data inpath '/yjx/movie2.txt' into table t_movie2;

collect_set()和collect_list()都是对列转成行，区别就是list里面可重复而set里面是去
重的
concat_ws(‘:’,collect_set(type)) ‘:’ 表示你合并后用什么分隔，
collect_set(stage)表示要合并表中的那一列数据

select id,concat_ws(':',collect_set(type)) as types from t_movie2 group by id;

7.3.3 Hive窗口函数

窗口函数理解
- 普通的聚合函数每组（group by）只返回一个值，某列多行的值合并为一行，如sum,count等。而开窗函数则可以为窗口中的每一行都返回一个值
- 简单理解，窗口函数的就是对查询的结果多出一列，这一列可以是是聚合值，也可以是排序值
语法：
窗口函数的分类
- 聚合开窗函数
- 排序开窗函数

测试数据

-- 创建表
create table t_fraction(
name string,
subject string,
score int)
row format delimited fields terminated by ","
lines terminated by '\n';
-- 测试数据 fraction.txt
孙悟空,语文,10
孙悟空,数学,73
孙悟空,英语,15
猪八戒,语文,10
猪八戒,数学,73
猪八戒,英语,11
沙悟净,语文,22
沙悟净,数学,70
沙悟净,英语,31
唐玄奘,语文,21
唐玄奘,数学,81
唐玄奘,英语,23
-- 上传数据
load data inpath '/yjx/fraction.txt' into table t_fraction;

1. 聚合开窗函数

sum(求和)min(最小)max(最大)avg(平均值)count(计数)

select name,subject,score,sum(score) over() as sumover from t_fraction;
- 从表中查询姓名，学科和分数的同时求出所有的分数的和作为新的一列sumover添加到表中
- 输出结果如下

+-------+----------+--------+----------+
| name | subject | score | sumover |
+-------+----------+--------+----------+
| 唐玄奘 | 英语 | 23 | 321 |
| 唐玄奘 | 数学 | 81 | 321 |
| 唐玄奘 | 语文 | 21 | 321 |
| 沙悟净 | 英语 | 31 | 321 |
| 沙悟净 | 数学 | 12 | 321 |
| 沙悟净 | 语文 | 22 | 321 |
| 猪八戒 | 英语 | 11 | 321 |
| 猪八戒 | 数学 | 73 | 321 |
| 猪八戒 | 语文 | 10 | 321 |
| 孙悟空 | 英语 | 15 | 321 |
| 孙悟空 | 数学 | 12 | 321 |
| 孙悟空 | 语文 | 10 | 321 |
+-------+----------+--------+----------+

select name,subject,score,avg(score) over(partition by subject) as sumover from t_fraction;
- 从表中查询姓名，学科和分数的同时按照学科分组，求出每组分数的和作为新的一列sumover添加到表中
- 输出结果如下

+-------+----------+--------+----------+
| name | subject | score | sumover |
+-------+----------+--------+----------+
| 唐玄奘 | 数学 | 81 | 185 |
| 沙悟净 | 数学 | 19 | 185 |
| 猪八戒 | 数学 | 73 | 185 |
| 孙悟空 | 数学 | 12 | 185 |
| 唐玄奘 | 英语 | 23 | 80 |
| 沙悟净 | 英语 | 31 | 80 |
| 猪八戒 | 英语 | 11 | 80 |
| 孙悟空 | 英语 | 15 | 80 |
| 唐玄奘 | 语文 | 21 | 94 |
| 沙悟净 | 语文 | 22 | 94 |
| 猪八戒 | 语文 | 41 | 94 |
| 孙悟空 | 语文 | 10 | 94 |
+-------+----------+--------+----------+

语法顺序

rows必须跟在order by字句之后，对排序的结果进行排序，使用固定的行数来限制分区中的数据行数量

2.排序开窗函数

常见排序窗口函数及区别
- RANK（）排序相同时会重复，总数不会减少
- DENSE_RANK()排序相同时会重复，总数会减少
- ROW_NUMBER() 会根据顺序计算（正常排序）

测试排序

select name,subject,score,rank() over(partition by subject order by score desc) rp,
dense_rank() over(partition by subject order by score desc) drp,
row_number() over(partition by subject order by score desc) rnp
from t_fraction;

测试结果

+-------+----------+--------+-----+------+------+
| name  | subject  | score  | rp  | drp  | rnp  |
+-------+----------+--------+-----+------+------+
| 唐玄奘   | 数学       | 81     | 1   | 1    | 1    |
| 猪八戒   | 数学       | 73     | 2   | 2    | 2    |
| 孙悟空   | 数学       | 73     | 2   | 2    | 3    |
| 沙悟净   | 数学       | 70     | 4   | 3    | 4    |
| 沙悟净   | 英语       | 31     | 1   | 1    | 1    |
| 唐玄奘   | 英语       | 23     | 2   | 2    | 2    |
| 孙悟空   | 英语       | 15     | 3   | 3    | 3    |
| 猪八戒   | 英语       | 11     | 4   | 4    | 4    |
| 沙悟净   | 语文       | 22     | 1   | 1    | 1    |
| 唐玄奘   | 语文       | 21     | 2   | 2    | 2    |
| 猪八戒   | 语文       | 10     | 3   | 3    | 3    |
| 孙悟空   | 语文       | 10     | 3   | 3    | 4    |
+-------+----------+--------+-----+------+------+

percent_rank() 计算给定行的百分比排名，可以用来计算超过了百分之多少的人

(当前行的rank值-1)/(分组内的总行数-1)

select name,subject,score,
row_number() over(partition by subject order by score) as row_number,
percent_rank() over(partition by subject order by score) as percent_rank
from t_fraction;

测试结果

+-------+----------+--------+-------------+---------------------+
| name  | subject  | score  | row_number  |    percent_rank     |
+-------+----------+--------+-------------+---------------------+
| 沙悟净   | 数学       | 70     | 1           | 0.0                 |
| 猪八戒   | 数学       | 73     | 2           | 0.3333333333333333  |
| 孙悟空   | 数学       | 73     | 3           | 0.3333333333333333  |
| 唐玄奘   | 数学       | 81     | 4           | 1.0                 |
| 猪八戒   | 英语       | 11     | 1           | 0.0                 |
| 孙悟空   | 英语       | 15     | 2           | 0.3333333333333333  |
| 唐玄奘   | 英语       | 23     | 3           | 0.6666666666666666  |
| 沙悟净   | 英语       | 31     | 4           | 1.0                 |
| 猪八戒   | 语文       | 10     | 1           | 0.0                 |
| 孙悟空   | 语文       | 10     | 2           | 0.0                 |
| 唐玄奘   | 语文       | 21     | 3           | 0.6666666666666666  |
| 沙悟净   | 语文       | 22     | 4           | 1.0                 |
+-------+----------+--------+-------------+---------------------+

7.3.4 自定义函数

官网： https://cwiki.apache.org/confluence/display/Hive/HivePlugins
Hive自带的函数
- max/min等，但是数量有限，自己可以通过自定义的UDF来方便的扩展
自定义函数
- 当Hive提供的内置函数无法满足你的业务处理需要的时候，此时可以考虑使用用户自定义函数
- UDF(User-Defined-Function) 单行函数，一进一出
  - size/sqrt
- UDAF(User- Defined Aggregation Funcation) 聚集函数，多进一出。
  - count/max/min/sum/avg
- UDTF(User-Defined Table-Generating Functions) 一进多出
  - lateral view explode()

7.4 经典案例

7.4.1 WordCount

7.4.2 天气系统

7.4.3 好友推荐

7.4.4 基站掉话率

7.5 Hive参数和数据倾斜

7.5.1 Hive参数

1. 设置参数的三种方式

Hive当中的参数、变量都是以命名空间开头的

命名空间	读写权限	含义
hiveconf	可读写	hive_site当中的各配置变量
system	可读写	系统变量，包含JVM运行参数等，例如：system:user.name=root
env	只读	环境变量，例如：env:JAVA_HOME
hivevar	可读写	sql中直接使用的变量，例如：hive -d val=key

通过 $ {}方式进行引用，其中system、env下的变量必须以前缀开头

配置文件方式
默认配置文件：hive-default.xml
用户自定义配置文件： ${HIVE_HOME}/conf/hive-site.xml
注意：用户自定义配置会覆盖默认配置。另外，Hive也会读入Hadoop的配置，因为Hive是作为
Hadoop的客户端启动的，Hive的配置会覆盖Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。
命令行参数方式
启动Hive时，可以在命令行添加-hiveconf param=value来设定参数。
例如：
```
beeline -u jdbc:hive2://yjx103:10000 -n root -hiveconf mapred.reduce.tasks=10;
```

2. 常用的Hive设置

hive.fetch.task.conversion=more;将hive拉取的模式设置为more模式
1-hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小，在本地运行（在
GateWay运行） ;
hive.auto.convert.join ：是否根据输入小表的大小，自动将 Reduce 端的 Common Join 转化为
Map Join，从而加快大表关联小表的 Join 速度。默认：false。
mapred.reduce.tasks ：所提交 Job 的 reduer 的个数，使用 Hadoop Client 的配置。默认
是-1，表示Job执行的个数交由Hive来分配；
mapred.map.tasks:设置提交Job的map端个数；
hive.map.aggr=true 开启map端聚合；
hive.groupby.skewindata=true ：决定 group by 操作是否支持倾斜的数据。
原理是，在Group by中，对一些比较小的分区进行合并，默认是false；
hive.merge.mapredfiles ：是否开启合并 Map/Reduce 小文件，对于 Hadoop 0.20 以前的版
本，起一首新的 Map/Reduce Job，对于 0.20 以后的版本，则是起使用 CombineInputFormat 的
MapOnly Job。默认是：false；
hive.mapred.mode ：Map/Redure 模式，如果设置为 strict，将不允许笛卡尔积。默认
是：‘nonstrict’；
hive.exec.parallel ：是否开启 map/reduce job的并发提交。
默认Map/Reduce job是顺序执行的，默认并发数量是8，可以配置。默认是：false；
hive.exec.dynamic.partition =true：是否打开动态分区。需要打开，默认：false；
set hive.exec.dynamic.partition.mode=nonstirct

7.5.2 数据倾斜

1. 定义

数据倾斜，即单个节点任务所处理的数据量远远大于同类型任务所处理的数据量，导致该节点成为整个作业的瓶颈，这是分布式系统不可能避免的问题

2. 原因

从本质来说，导致数据倾斜有两种原因：

任务读取大文件，最常见的就是读取压缩的不可分割的大文件
- 当集群的数据量增长到一定规模，有些数据需要归档或者转储，这时候往往会对数据进行压缩;
- 当对文件使用GZIP压缩等不支持文件分割操作的压缩方式，在日后有作业涉及读取压缩后的文件时，该压缩文件只会被一个任务所读取。
- 如果该压缩文件很大，则处理该文件的Map需要花费的时间会远多于读取普通文件的Map时间，该Map任务会成为作业运行的瓶颈。
- 这种情况也就是Map读取文件的数据倾斜
- 为免因不可拆分大文件而引发数据读取的倾斜，在数据压缩的时候可以采用bzip2和Zip支持文件分割的压缩算法,或者使用像orc、SequenceFile等列式存储
任务需要处理大量相同键的数据
- 数据含有大量无意义的数据，例如空值，字符串等
- 含有倾斜数据在进行聚合计算时无法聚合中间结果，大量数据都需要经过Shuffle阶段的处理，引起数据倾斜
- 数据在计算时做多维数据集合，导致维度膨胀引起的数据倾斜
- 两个表进行join时，都含有大量相同的倾斜数据键

7.6 Hive企业级优化

7.6.1 Fetch

7.6.2 本地模式

7.6.3 并行执行

7.6.4 严格模式

7.6.5 JVM重用

7.6.6 表的优化（小表与大表）

7.6.7 表的优化（大表与大表）

7.6.8 mapside聚合

7.6.9 Count（Distinct）

7.6.10 防止笛卡尔积

7.7 Hive的文件存储格式

7.7.1文件存储方式

行式存储
- 把一整行存在一起，包含所有的列，数据读取的时候以行为单位读取
  - 优点：存储格式简单、方便写入数据
  - 缺点：不支持压缩、并且不支持列裁剪、数据分析开销较大
    - 基于多个列做压缩时，由于不同列数据类型和取值范围不同，压缩比不会太高
    - 当一行中有很多列，而我们只需要其中的很少的一部分列，采用行存储的方式就不得不读取把一行中所有的列读进来，然后从中取出一些列，这样就大大降低了查询执行的效率
  - 常见行式存储文件格式： TextFile、SequenceFile
列式存储
- 将不同的列存放在不同的块中，每列单独存储或者某几个列作为列组存在一起，列存储在执行查询时可以避免读取不必要的列
- 优点：支持列裁剪、减少数据查询范围、数据支持压缩，节省空间
  - 一般同列的数据类型一致，取值范围相对多列混合更小，在这种情况下压缩数据能达到较高的压缩比
- 缺点：写入数据相对困难、并且查询整行数据时开销相对较大
  - 一行中的不同的列可能存储在不同的HDFS块上，拼接查询整个数据时开销较大
- 常见的列式存储文件格式：ORC、PARQUET、RCFILE
图解：

insert into t_stored_orc select * from t_stored_text;

7.7.2 文件存储格式

TextFile
- Hive默认的存储格式，数据不做压缩
- 可结合Gzip、Bzip2、Snappy等使用（系统自动检查，执行查询时自动解压）
- 缺点：
  - 使用TextFile格式，Hive不会对数据进行切分，从而无法对数据进行并行操作
SequenceFile
- 定义理解
  - SequenceFile是Hadoop API 提供的一种二进制文件，它将数据以的形式序列化到文件中，具有方便、可分割、可压缩的特点
- 缺点：
  - 需要一个合并文件的过程，且合并后的文件不方便查看
- 优点：
  - 支持基于记录（Record）或块（Block）的数据压缩
  - 支持splitable，能够作为MapReduce的输入分片
  - 修改简单：主要负责修改相应的业务逻辑，而不用考虑具体的存储格式
RCFile
- 定义理解：
  - RCFile 文件格式是 FaceBook 开源的一种 Hive 的文件存储格式，首先将表分为几个行组，对每个行组内的数据进行按列存储，每一列的数据都是分开存储，正是先水平划分，再垂直划分的理念
- 特点
  - RCFile 是行划分，列存储，采用游程编码，相同的数据不会重复存储，很大程度上节约了存储空间，尤其是字段中包含大量重复数据的时候。
  - 懒加载
    - 数据存储到表中都是压缩的数据，Hive 读取数据的时候会对其进行解压缩，但是会针对特定的查询跳过不需要的列，这样也就省去了无用的列解压缩。
ORCFile
- 定义理解：
  - ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个单纯的列式存储格式，仍然是首先根据行组分割整个表，在每一个行组内进行按列存储
- 相比RCFile的优点
  - 在一定程度上扩展了RCFile，是对RCFile的优化
  - ORC 扩展了 RCFile 的压缩，除了 Run-length（游程编码），引入了字典编码和 Bit 编码。
  - 每个 task 只输出单个文件，这样可以减少 NameNode 的负载；
  - 支持各种复杂的数据类型，比如：datetime，decimal，以及一些复杂类型(struct, list, map,等)；
  - 文件是可切分（Split）的。在 Hive 中使用 ORC 作为表的文件存储格式，不仅节省 HDFS 存储资源，查询任务的输入数据量减少，使用的 MapTask 也就减少了
Block-Compressed SequenceFile格式

参考资料：Hive 文件存储格式 - hyunbar - 博客园 (cnblogs.com)

Hive数据存储格式详细讲解（好文点赞收藏！）_KG大数据的博客-CSDN博客_数据存储格式

7.7.3 文件压缩练习

TextFile

建表

create table t_stored_text (
c1 string,
c2 string,
c3 string,
c4 string,
c5 string,
c6 string,
c7 string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE ;

导入数据
加载数据

load data  inpath '/yjx/test.data' into table t_stored_text ;

查看数据大小

ORCFile

建表

create table t_stored_orc (
c1 string,
c2 string,
c3 string,
c4 string,
c5 string,
c6 string,
c7 string
)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS ORC ;

导入数据
加载数据

insert into t_stored_orc select * from t_stored_text;

查看数据大小

7.8 HQL练习题

你可能感兴趣的:(大数据,hive,数据仓库,数据库)

Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
【PG】常见数据库、表属性设置江无羡数据库
PG的常见属性配置方法数据库复制、备份相关表的复制标识单表操作批量表操作链接数据库复制、备份相关表的复制标识单表操作通过ALTER语句单独更改一张表的复制标识。ALTERTABLE[tablename]REPLICAIDENTITYFULL;批量表操作通过代码块的方式，对某个schema中的所有表一起更新其复制标识。SELECTtablename,CASErelreplidentWHEN'd'TH
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
ubuntu安装wordpress lissettecarlr
1安装nginx网上安装方式很多，这就就直接用apt-get了apt-getinstallnginx不用启动啥，然后直接在浏览器里面输入IP:80就能看到nginx的主页了。如果修改了一些配置可以使用下列命令重启一下systemctlrestartnginx.service2安装mysql输入安装前也可以更新一下软件源，在安装过程中将会让你输入数据库的密码。sudoapt-getinstallmy
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
3.增删改查--连接查询问女何所忆
关系型数据库的一个特点就是，多张表之间存在关系，以致于我们可以连接多张表进行查询操作，所以连接查询会是关系型数据库中最常见的操作。连接查询主要分为三种，交叉连接、内连接和外连接，我们一个个说。1、交叉连接交叉连接其实连接查询的第一个阶段，它简单表现为两张表的笛卡尔积形式，具体例子：如果你没学过数学中的笛卡尔积概念，你可以这样简单的理解这里的交叉连接：两张表的交叉连接就是一个连接合并的过程，T1表中
docker from指令的含义_多个FROM-含义 weixin_39722188 docker from指令的含义
小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提到的图像FROM是新图像的“基础图像”。这是否意味着如果我neo4j/neo4j在FROM指令中声明，则在运行映像时，neo数据库将自动运行并且可在端口7474的容器中使用？仅当您不覆盖CMD和时ENTRYPOINT。但是图像
Redis:缓存击穿我的程序快快跑啊缓存 redis java
缓存击穿(热点key)：部分key(被高并发访问且缓存重建业务复杂的)失效,无数请求会直接到数据库，造成巨大压力1.互斥锁：可以保证强一致性线程一：未命中之后，获取互斥锁，再查询数据库重建缓存，写入缓存，释放锁线程二：查询未命中，未获得锁(已由线程一获得)，等待一会，缓存命中互斥锁实现方式：redis中setnxkeyvalue:改变对应key的value,仅当value不存在时执行，以此来实现互
mysql学习教程，从入门到精通，TOP 和MySQL LIMIT 子句（15）知识分享小能手大数据数据库 MySQL mysql 学习 oracle 数据库开发语言 adb 大数据
1、TOP和MySQLLIMIT子句内容在SQL中，不同的数据库系统对于限制查询结果的数量有不同的实现方式。TOP关键字主要用于SQLServer和Access数据库中，而LIMIT子句则主要用于MySQL、PostgreSQL（通过LIMIT/OFFSET语法）、SQLite等数据库中。下面将分别详细介绍这两个功能的语法、语句以及案例。1.1、TOP子句（SQLServer和Access）1.1
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your †徐先森® Oracle数据库 Web相关错误集
createtablestudents(idintunsignedprimarykeyauto_increment,namevarchar(50)notnull,ageintunsigned,highdecimal(3,2),genderenum('男','女','中性','保密','妖')default'保密',cls_idintunsigned);在对数据库插入如上带有中文带有默认值的字段的时
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p