Oasen

hive数据仓库之笔记

文章目录

基本操作

hive 操作
数据库操作
表操作
hive 的临时参数设置

基本数据类型
表

内部表
外部表
内部表&外部表相互转化
内、外部表总结
分区表

DML数据操作

数据导入

load
as 查询加载
insert into 追加，插入
location加载
import

数据导出

insert 导出
hdfs dfs -get
hive shell 导出
Export

查询
排序
行转列
列转行
窗口函数

RANK() & ROW_NUMBER()& DENSE_RANK()

自定义函数 UDF
虚拟列
压缩

压缩格式与 hive 命令
压缩配置

调优

Fetch 抓取
hive 本地模式
表的优化

小表，大表 join
大表，大表 join

空 key 过滤
key 转换
mapJoin
group by
count(distinct）去重统计
笛卡尔积
行列过滤
动态分区调整

数据倾斜

设置合理 map 数
小文件合并
复杂文件增加 map 数
设置合理 reduce 数

并行执行
严格模式
jvm 重用
推测执行

基本操作

hive 操作

# 启动 hive
./bin/hive
 # 如果启动失败，可以是因为 hive service 需要启动，需要先执行该命令
./bin/hive  --service metastore & 

# 帮助
./bin/hive --help

# 指定默认连接的数据库
 hive --database dbName  
 eg：hive --database db01

// 在 linux 终端中执行 SQL 或者 HQL 语句
hive -e '命令'
eg: hive -e 'show databases'

# 在 linux shell 命令中执行一个写有 SQL 语句的文件
hive -f /opt/app/hive.sql (hive.sql是sql语句文件)

# 使当前 shell 配置临时生效
hive --hiveconf hive.cli.print.current.db=false

数据库操作

# 查看数据库
show databases;

# 使用数据库
use dbName

# 创建 db01 数据库
create database if not exists dbName; 

# 在 hdfs 上指定目录 “dblocate” 来数据库的目录
create database if not exists dbName LOCATION '/dblocate';  
如果不指定目录，那么数据库的目录为：hdfs: /user/hive/warehouse/。这也是 hive 创建数据库的默认存储路径。

# 删除数据库
drop database dbName [cascade]

# 删除表
drop table tbName；

# 查看表描述信息
desc tableName

# 查看内置函数
show functions

# 查看函数描述
desc function methodName；

表操作

# 建表之前需要指定数据库
use  databaseName；

#  与 mysql 一样，创建一个 student 的表，包括两个字段： num，name
create table if not exists student(
     num int,
     name string
)ROW FORMAT DELIMITED FIELDS TERMINATED
 BY '\t'  # 申明文件分隔符
 stored as textfile;  申明文件存储格式。
 
# 复制表结构，生成一张新的空表
create table cpTable like tbName; 

# 复制结果临时表，生成一张有数据的新表。
 create table cpTable as select name from tbName; 

# 删除表
drop table if exists tbName;

# 清空表内容, 但保留表结构
truncate table tbName;

# 查看表
show tables in dbName;

# 修改表的名称
alter table oldTableName rename to newTableName;

# 增加列
alter table tableName add columns(col type);

# 替换全部的列
alter table tableName replace columns(col1 type1, col2 type2, col3 type3);

# 修改列
alter table tableName change oldColName newColName columnType;

# 加载数据
【overwrite，覆盖重写，之前的 hive 的数据不存在被覆盖了】
【local 表示从本地路径。去掉 local，数据时从 hdfs 上加载】
load data local inpath '/opt/datas/student.txt' [overwrite] into table tb01;
load data inpath '/student.txt' into table student;
【如果 tb 是内部表，那么数据需要先被加载到 hdfs 上，然后在被移动到 hive 表中对应的位置。】

hive 的临时参数设置

【仅对本次hive启动有效】
set hive.cli.print.current.db=true;  # 显示当前数据库名 
set hive.cli.print.header=true  # 显示表头
set -v     # 显示所有设置

# 查看本地目录信息
 hive -> !ls /;  (hive 终端)

# 查看 HDFS 目录信息
 hive -> dfs -ls / ;

基本数据类型

数据类型	长度	范围	示例
Tinyint	1字节的整数	-128 ~ 127	12
SmallInt	2字节的整数	-32768 ~ 32767	255
Int	4字节的整数	-2147483648 ~ 2147483647	250000
BigInt	8字节的整数	-9223372036854775808 ~ 9223372036854775807	2500000000
Boolean	bool类型	true，false	TRUE
Float	4字节单精度浮点型		3.1211
Double	8字节双精度浮点型		3.1123123
String	字符串		“absec”
TimeStamp	时间戳，格式 yyyy-mm-dd hh:mm:ss	支持 unix timestamp	2019-02-03 02:21:39
Binary	二级制		0 or 1
Date	日期，格式 yyyy-mm-dd	可用 String 代替
Decumal	任意精度数字		10
Varchar	字符串	字符串长度只能为 1 ~ 65355	“abcdfs”
Char	字符串	长度 1 ~ 255	“bacdf”

表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

1）【CREATE TABLE】 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。
2）【EXTERNAL】 关键字可以让用户创建一个【外部表】，在建表的【同时指定一个指向实际数据的路径】（LOCATION）。Hive 创建【内部表】时，会将数据【移动】到数据仓库指向的路径；若创建【外部表】，【仅记录数据所在的路径】，不对数据的位置做任何改变。在删除表的时候，【内部表】的【元数据】和【数据】会被【一起删除】，而【外部表】只【删除元数据】，不删除数据。
3）COMMENT：为表和列添加注释。
4）PARTITIONED BY创建分区表。
5）CLUSTERED BY创建分桶表。
6）SORTED BY不常用。
7）ROW FORMAT DELIMITED [FIELDS TERMINATED BY char] 
	                    [COLLECTION ITEMS TERMINATED BY char] 
	                    [MAP KEYS TERMINATED BY char] 
	                    [LINES TERMINATED BY char] 
8）STORED AS指定存储文件类型
	常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）
	如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE。
9）LOCATION ：指定表在HDFS上的存储位置。
10）LIKE允许用户复制现有的表结构，但是不复制数据。

内部表

内部表是未被 “external” 修饰的表，其由 hive 管理。内部表由于存储了元数据以及存储数据，所以删除内部表，存储数据与元数据也会被删除。并且内部表被创建得路径在 hive 的默认仓库目录，即 “ /user/Hive/warehouse/”

create table student06(
	id int,
    name string,
    age int) row format delimited fields terminated by '\t'  
    stored as textfile 
    location 'hdfs://......'

# 查看基表信息
show create table tbName;

# 查看表格式
desc formatted tbName;

外部表

外部表是被 “external” 修饰的表，其由 HDFS 管理。删除外部表仅仅会删除元数据，但是存储数据不会被删除。用户在创建外部表时，可以自己指定表的路径：

create external table student06(
	id int,
    name string,
    age int)
    row format delimited fields terminated by '\t'
    location 'hdfs://dataPath';
  
  # 导入数据
  load data local inpath '/opt/module/datas/dept.txt' into table default.student06;

内部表&外部表相互转化

1. 内部表转化为外部表
alter table student2 set tblproperties('EXTERNAL'='TRUE');

2. 外部表转化为
alter table student2 set tblproperties('EXTERNAL'='FALSE');

内、外部表总结

内部表	外部表
目录由 hive创建在默认的目录下	目录由用户自己创建表时自己用 location 来指定
删除表时，表的元数据与表的数据目录都会被删除	删除表时，只删除表的元数据而表的数据不会被删除

一般来源的数据会在不同的平台上进行处理，所以为了方便映射，就可以采用【外部表】来进行映射，这样即使删除掉了表，也不会删除数据。也就不会影响数据在其他平台上的操作。

分区表

分区表是在系统下创建文件夹目录，把分类数据放在不同的目录里面，可以加快查询速度。

如：创建一个以 age 分区的表，

create table student08(
	num int,
    name string
    )PARTITIONED BY (age string) ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

# 导入分区数据
LOAD DATA INPATH '/stud.txt' OVERWRITE INTO TABLE student08 PARTITION (age='7');
LOAD DATA INPATH '/stud.txt' OVERWRITE INTO TABLE student08 PARTITION (age='10');

# 单分区查询
select * from stundent08 where age = 9;

# 增加表分区, 用空格分开
alter table student08 add partition(age='9') partition(age='15');

# 查看表分区详情
show partition tableName;

# 导入分区数据
insert into student08 partition(age='11') select * from student08 where age='9';

# 删除表分区  --  子目录和数据都会被删除
alter table tableName drop partition(age='11');

分区表中，表目录里面有多个子目录。如果要针对不同时间，格式等要求创建表，那么可以创建分区表。

分区表的数据是存放在不同的子目录中，在查询的时候，既可以针对子目录进行扫描，也可以针对全表进行扫描。

创建分区表后，分区目录看不到子目录，只有在导入数据才可以看到。

DML数据操作

数据导入

load

导入格式

load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)];

1）load data:表示加载数据
2）local:表示从本地加载数据到hive表（【复制】）；否则从HDFS加载数据到hive表（【移动】）
3）inpath:表示加载数据的路径
4）overwrite into:表示覆盖表中已有数据，否则表示追加
5）into table:表示加载到哪张表
6）student:表示具体的表
7）partition:表示上传到指定分区

案例

load data local inpath 'local_path' into table tb_name; 
load data inpath 'hdfs_path' into table tb_name;

as 查询加载

# 将从 oldTbName的查询结果保存到 newTbName 上
create table newTbName as select * from oldTbName;

insert into 追加，插入

# 根据查询结果插入到表中
insert into table tbName select * from tb1_name;

# 基本插入数据
insert into table  student partition(age='11') values(1,'wangwu');

# 多数据插入
from student
	insert overwrite table student partition(age='15')
	select id, name where age='10'
	insert overwrite table student partition(age='20')
	select id, name where age='23';

location加载

将指定的本地文件导入到外部表中，或者管理表中对数据的指定

create table if not exists student5(
              id int, name string
              )
              row format delimited fields terminated by '\t'
              location 'hdfs_table_name';

dfs -put local_file_path hdfs_table_name;

import

import table student2 partition(age='15') from
 '/user/hive/warehouse/export/student';

数据导出

insert 导出

# 将查询到的结果导出到指定的位置。
insert overwrite local directory '/opt/module/datas/export/student' select * from student;
insert overwrite local directory '/opt/module/datas/export/student1' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' select * from student;
insert overwrite directory '/user/atguigu/student2' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'  select * from student;

hdfs dfs -get

# hdfs dfs -get 在 Linux 控制台操作
[hdfs] dfs -get /user/hive/warehouse/student/month=201709/000000_0 /opt/module/datas/export/student3.txt

hive shell 导出

# Linux 控制台操作
 bin/hive -e 'select * from default.student;' > /opt/module/datas/export/student4.txt;

Export

# 在 hive 控制台操作
export table default.student to '/user/hive/warehouse/export/student';

查询

SELECT [ALL | DISTINCT] select_expr, select_expr, ...
  FROM table_reference
  [WHERE where_condition]
  [GROUP BY col_list]
  [ORDER BY col_list]
  [[CLUSTER BY col_list] | [DISTRIBUTE BY col_list] [SORT BY col_list]]
 [LIMIT number]

排序

order by：全局排序
order by 会对查询的全局结果进行排序。最终 map 数据的数据汇聚到【一个 reduce】中去执行。如果数据量很大，那么这个操作是相当漫长的。所以在 hive 操作中【尽量少用 order by】，除非数据量很小。
sort by : 局部排序
sort by 是局部排序操作，也就是说在【每个 reduce】都会进行排序，可以保证每个reduce 中的数据是有序的。但是对于全局而言，其又不一定是有序的。
distribute by ：根据指定字段分区
distribute by 是指定输出结果怎样划分到各自的 reduce 分区中。对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。
cluster by
cluster by 具有 sort by 与 distribute by 的两重功能，能将相同字段进行 sort by 排序和distribute by 分区，但是只能倒序排序。

select * from student08 order by age;
select * from student08 sort by age;

set mapreduce.job.reduces=3;
select * from student08 distribute by age sort by name desc；

select * from student08 cluster by age;
select * from  student08 distribute by age sort by age;

# 设置每个 reduce 处理的数据量 
hive.exec.reducers.bytes.per.reduce=

# 设置最大能够运行的 reduce 个数
hive.exec.reducer.max=

# 实际 reduce 的个数
mapreduce.job.reduces=

# 设置 reduce 开启条件
hive.fetch.task.conversion=none,more,min

行转列

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;
CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数是剩余参数间的分隔符。

select name, concat(constellation, ",", blood_type) base from person_info

列转行

用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias

udtf 包括： split，explode 等 UDTF，将一列数据拆成多行数据。
EXPLODE(col)：将hive一列中复杂的array或者map结构拆分成多行

select
    movie,
    category_name
from 
    movie_info lateral view explode(category) table_tmp as category_name;

1. from 加载 movie_info 的表文件，生成一张临时表；
2. lateral view explode 基于from 的临时表，将 category 列数据拆分成多行， 并生成一张临时表。临时表别名为 table_tmp，而新生成的临时表的当前 category 的列名的别名为 category_name;
3. 通过 select 对 lateral view 的临时表进行查询操作。

窗口函数

格式：聚合函数 + over()
OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。不加参数默认全表，和当前行没有关系。

当同一个select查询中存在多个窗口函数时,他们相互之间是没有影响的.每个窗口函数应用自己的规则.

在SQL处理中，窗口函数都是最后一步执行，而且仅位于Order by字句之前。

CURRENT ROW：当前行
n PRECEDING：往前n行数据
n FOLLOWING：往后n行数据
UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING表示到后面的终点
LAG(col,n)：往前第n行数据
LEAD(col,n)：往后第n行数据
NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回此行所属的组的编号。注意：n必须为int类型。

2．数据准备：name，orderdate，cost

jack,2017-01-01,10
tony,2017-01-02,15
jack,2017-02-03,23
tony,2017-01-04,29
jack,2017-01-05,46
jack,2017-04-06,42
tony,2017-01-07,50
jack,2017-01-08,55
mart,2017-04-08,62
mart,2017-04-09,68
neil,2017-05-10,12
mart,2017-04-11,75
neil,2017-06-12,80
mart,2017-04-13,94

3．需求
（1）查询在2017年4月份购买过的顾客及总人数（注意了，不是购买次数）
（2）查询顾客的购买明细及月购买总额
（3）上述的场景,要将cost按照日期进行累加
（4）查询顾客上次的购买时间
（5）查询前20%时间的订单信息

4．创建本地business.txt，导入数据

[atguigu@hadoop102 datas]$ vi business.txt

5．创建hive表并导入数据

create table business(
name string, 
orderdate 
string,cost int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

load data local inpath "/opt/module/datas/business.txt" into table business;

6．按需求查询数据
（1）查询在2017年4月份购买过的顾客及总人数

select name,count(*) over () 
from business 
where substring(orderdate,1,7) = '2015-04' 
group by name;

（2）查询顾客的购买明细及月购买总额

select name,orderdate,cost,sum(cost) over(partition by month(orderdate)) from
 business;
select name,orderdate,cost,sum(cost) over(distributed by month(orderdate)) from
 business;

（3）上述的场景,要将cost按照日期进行累加

select name,orderdate,cost, 
sum(cost) over() as sample1,--所有行相加 
sum(cost) over(partition by name) as sample2,--按name分组，组内数据相加 
sum(cost) over(partition by name order by orderdate) as sample3,--按name分组，组内数据累加 
sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and current row ) as sample4 ,--和sample3一样,由起点到当前行的聚合 
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and current row) as sample5, --当前行和前面一行做聚合 
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING AND 1 FOLLOWING ) as sample6,--当前行和前边一行及后面一行 
sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as sample7 --当前行及后面所有行 
from business;

（4）查看顾客上次的购买时间

select name,orderdate,cost, 
lag(orderdate,1,'1900-01-01') over(partition by name order by orderdate ) as time1, 
lag(orderdate,2) over (partition by name order by orderdate) as time2 
from business;

（5）查询前20%时间的订单信息

select * from (
    select name,orderdate,cost, ntile(5) over(order by orderdate) sorted
    from business
) t
where sorted = 1;

子查询必须写具体字段，不能用*代替。

RANK() & ROW_NUMBER()& DENSE_RANK()

ROW_NUMBER()	RANK()	DENSE_RANK()
排序，根据查询出的顺序依次标注排名，没有重复。如 1,2,3	排序，相同数据标注相同的排名，而下一个不同的数据则被跳跃标注。如，1,1,3	排序，相同数据标注相同的排名，下一条不同的数据直接依次标注。如1,1,2

select name,
subject,
score,
rank() over(partition by subject order by score desc) rp,
dense_rank() over(partition by subject order by score desc) drp,
row_number() over(partition by subject order by score desc) rmp
from score;

自定义函数 UDF

配置环境 pom / hive-site.xml
自定义类继承 org.apache.hadoop.hive.ql.exec.UDF
实现 public Object evaluate(Object args) 方法
导出 jar 包并植入本地环境 linux 的 localpath 目录下
关联 jar。进入hive， add jar localpath;
创建临时函数 create temperary function 函数名 as ‘包名.类名’;
执行

public class UserInfoParser extends UDF{
	public String evaluate(String field,int index){
	String replaceAll = field.replaceAll("\\|", " ");
	String[] split = replaceAll.split(" ");
	return split[index-1];
	}
}

// 创建临时函数 
create temporary function functionName as 'packageName.className';

虚拟列

虚拟列并不是在表中真正存在的列，其用意是为了将 hive 中的表进行分区，这对每日增长的海量数据存储而言非常有用的。

其种类有两种：

这行数据属于哪个文件 ---- INPUT__FILE__NAME
块的偏移量，类似于每行的存储地址 ---- BLOCK__OFFSET__INSIDE__FILE

select *, INPUT__FILE__NAME from student;
select *, BLOCK__OFFSET__INSIDE__FILE from student;

压缩

Hive 压缩的目的是：减少磁盘 IO 与网络 IO

压缩格式与 hive 命令

zlib       ->      org.apache.hadoop.io.compress.DefaulCodec
gzip       ->      org.apache.hadoop.io.compress.GzipCodec
Bzip2      ->      org.apache.hadoop.io.compress.BZip2Codec
Lzo        ->      com.hadoop.compression.lzo.LzoCodec
Lz4        ->      org.apache.hadoop.io.compress.Lz4Codec
Snappy     ->      org.apache.hadoop.io.compress.SnappyCodec

压缩配置

压缩方案

# MapReduce 配置 map 端压缩:
set mapreduce.map.output.compress=true
set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec

# MapReduce 配置 Reduce 端压缩:
set mapreduce.output.fileoutputformat.compress=true
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec

# Hive 配置压缩
set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
set mapred.output.compression.type=BLOCK

# 任务中间压缩
set hive.exec.compress.intermediate=true
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
set hive.intermediate.compression.type=BLOCK

调优

Fetch 抓取

Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。

可以针对查询进行不执行 MR 来进行处理，参数：hive.fetch.task.conversion = more，表示在 select，where，limit 操作时，都直接进行数据抓取操作，而不涉及 MR 计算的操作，这样执行的效率更快更高。

set hive.fetch.task.conversion= more;

hive 本地模式

对于小数据集，Hive 可以通过本地模式在单台机器上处理所有的任务，执行时间可以明显被缩短。

set hive.exec.mode.local.auto = true    =>  动启动这个优化
set hive.exec.mode.local.auto.inputbytes.max=50000000;    =>   数据大小不能超过 128 MB
set hive.exec.mode.local.auto.input.files.max=10;    =>   mr的最大输入文件个数，默认为 4。

表的优化

小表，大表 join

新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。

大表，大表 join

空 key 过滤

如果空 key 对应的数据是异常数据，我们需要在SQL语句中进行过滤。

key 转换

有时虽然某个 key 为对应的数据很多，但是相应的数据不是异常数据，必须要包含在 join 的结果中，此时我们可以表 a 中这个 key 的值赋一个随机的值，使得数据随机均匀地分不到不同的reducer上。

select n.* from nullidtable n full join ori o on 
case when n.id is null then concat('hive', rand()) else n.id end = o.id;

mapJoin

可以用MapJoin把【小表】全部加载到内存在map端进行join，避免reducer处理。

set hive.auto.convert.join = true; 默认为true
set hive.mapjoin.smalltable.filesize=25000000;

select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url
from smalltable s
join bigtable  b on s.id = b.id;

group by

并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。

hive.map.aggr = true  # 是否在Map端进行聚合，默认为True，需要更多的内存
hive.groupby.mapaggr.checkinterval = 100000  # 在Map端进行聚合操作的条目数目
hive.groupby.skewindata = true  # 有数据倾斜的时候进行负载均衡（默认是false）

当 hive.groupby.skewindata选项设定为 true，生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中（这个过程可以保证相同的Group By Key被分布到同一个Reduce中），最后完成最终的聚合操作。

count(distinct）去重统计

数据量大的情况下，由于COUNT DISTINCT操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换。

select count(distinct(id) ) from bigtable ;
select count(id) from (select id from bigtable group by id) a;

笛卡尔积

尽量避免笛卡尔积。

行列过滤

谓词下推：先执行where语句
列处理：在SELECT中，只拿需要的列，如果有，尽量使用分区过滤，少用SELECT *。
行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在Where后面，那么就会先全表关联，之后再过滤。

动态分区调整

hive.exec.dynamic.partition=true    # 开启动态分区功能
hive.exec.dynamic.partition.mode=nonstrict   # 设置为非严格模式
hive.exec.max.dynamic.partitions=1000   # 在所有执行MR的节点上，最大一共可以创建多少个动态分区
hive.exec.max.dynamic.partitions.pernode=100   # 在每个执行MR的节点上，最大可以创建多少个动态分区 
hive.exec.max.created.files=100000   # 整个MR Job中，最大可以创建多少个HDFS文件
hive.error.on.empty.partition=false  # 当有空分区生成时，是否抛出异常。一般不需要设置。

数据倾斜

数据倾斜造成的原因：当到达 reduce 端数据如果在某一个 key 上分布特别多的话，就会造成单个节点处理时间异常增多，从而导致整体任务消耗严重。

设置合理 map 数

小文件合并

在map执行前合并小文件，减少map数：CombineHiveInputFormat具有对小文件进行合并的功能（系统默认的格式）。HiveInputFormat没有对小文件合并功能。

set hive.input.format= org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

复杂文件增加 map 数

set mapreduce.input.fileinputformat.split.maxsize=100;

设置合理 reduce 数

set mapreduce.job.reduces = 15;

并行执行

通过设置参数hive.exec.parallel值为true，就可以开启并发执行。不过，在共享集群中，需要注意下，如果job中并行阶段增多，那么集群利用率就会增加。

set hive.exec.parallel=true;              //打开任务并行执行
set hive.exec.parallel.thread.number=16;  //同一个sql允许最大并行度，默认为8。

严格模式


    hive.mapred.mode
    strict

对于分区表，除非where语句中含有分区字段过滤条件来限制范围，否则不允许执行。换句话说，就是用户不允许扫描所有分区。进行这个限制的原因是，通常分区表都拥有非常大的数据集，而且数据增加迅速。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表。
对于使用了order by语句的查询，要求必须使用limit语句。因为order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理，强制要求用户增加这个LIMIT语句可以防止Reducer额外执行很长一段时间。
限制笛卡尔积的查询。对关系型数据库非常了解的用户可能期望在执行JOIN查询的时候不使用ON语句而是使用where语句，这样关系数据库的执行优化器就可以高效地将WHERE语句转化成那个ON语句。不幸的是，Hive并不会执行这种优化，因此，如果表足够大，那么这个查询就会出现不可控的情况。

jvm 重用


  mapreduce.job.jvm.numtasks
  10

推测执行

 
    hive.mapred.reduce.tasks.speculative.execution
    true

你可能感兴趣的:(Hive)

C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
HTB academy -- Linux Privilege Escalation --Service-based Privilege Escalation 网络安全小吗喽 linux 服务器网络安全测试工具
VulnerableServices#!/bin/bash#screenroot.sh#setuidscreenv4.5.0localrootexploit#abusesld.so.preloadoverwritingtogetroot.#bug:https://lists.gnu.org/archive/html/screen-devel/2017-01/msg00025.html#HACKTH
Python 强化学习算法实用指南（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第十一章：理解黑盒优化算法在前几章中，我们研究了强化学习（RL）算法，从基于价值的方法到基于策略的方法，以及从无模型方法到基于模型的方法。在本章中，我们将提供另一种解决序列任务的方法，那就是使用一类黑盒算法——进化算法（EA）。EAs由进化机制
Python 强化学习算法实用指南（二）
原文：annas-archive.org/md5/e3819a6747796b03b9288831f4e2b00c译者：飞龙协议：CCBY-NC-SA4.0第六章：学习随机优化与PG优化到目前为止，我们已经探讨并开发了基于价值的强化学习算法。这些算法通过学习一个价值函数来找到一个好的策略。尽管它们表现良好，但它们的应用受限于一些内在的限制。在本章中，我们将介绍一类新的算法——策略梯度方法，它们通过
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
android nodejs cike110120
本文参照了http://www.blogjava.net/jelver/articles/143082.html，http://www.blogjava.net/athrunwang/archive/2011/09/28/359680.html，《androidSDK开发范例大全(第2版)》上次做了一个demo，试验如何用node.js响应getpost请求，http请求使用的浏览器。我现在正在学
CYW43: 无线网络开发套件指南阮曦薇Joe
CYW43:无线网络开发套件指南cyw43ARCHIVED--movedintothemainEmbassyrepoathttps://github.com/embassy-rs/embassy项目地址:https://gitcode.com/gh_mirrors/cy/cyw43项目介绍CYW43是一个基于Rust的开源项目，专门用于驱动CypressCYW43xx系列WiFi和蓝牙芯片。它提供
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Hive适用语法 `whyYa hive hadoop 数据仓库
一、日期处理函数总结1.trunc()–取日期中当月第一天trunc(‘2022-12-05’,‘MM’)--取当月第一天2022-12-01trunc(‘2022-12-05’,‘Q’)--季度中的第一天2022-10-01trunc(‘2022-12-03’,‘YEAR’)–取当年第一天20222.last_day()–取当月最后一天last_day(‘2022-12-03’)3.month(
debian安装docker Sahas1019 debian docker eureka
debian安装docker/dev/null对于Debian11(bullseye)或更新版本：echo\"deb[arch=$(dpkg--print-architecture)signed-by=/usr/share/keyrings/docker-archive-keyring.gpg]https://download.docker.com/linux/debian\$(lsb_relea
Ubuntu22.04安装cudnn详细步骤大鹏的NLP博客深度学习 cudnn
下载指定版本的cudnnhttps://developer.nvidia.com/rdp/cudnn-archive#a-collapse804-111安装sudodpkg-icudnn-local-repo-ubuntu2204-8.9.7.29_1.0-1_amd64.deb根据上步提示：sudocp/var/cudnn-local-repo-ubuntu2204-8.9.7.29/cudnn
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步是小南啊_- Java java centos docker kafka hadoop
因为公司业务需求要将mysql的数据实时同步到hive中，在网上找到一套可用的方案，即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式，因为是首次搭建，所以暂时使用伪分布式的搭建方案。一、安装docker安装docker的教程网上一搜一大把,请参考：centos下docker安装教程二、docker安装MySQL安装教程网上也有很多，请参考:docker安装MySQL1.开启
assembly : maven assembly打包报错：maven to create assembly : unable to obtain archiver for extension 九师兄工具-maven
原因是没有添加org.apache.maven.plugins<artifactId
使用Java实现MP3音乐播放器
原文链接：http://www.cnblogs.com/haoxia/archive/2009/06/03/1495419.html使用Java实现MP3音乐播放器JavaSound是一个小巧的低层API，支持数字音频和MIDI数据的记录/回放。在JDK1.3.0之前，JavaSound是一个标准的Java扩展API，但从Java2的1.3.0版开始，JavaSound就被包含到JDK之中。由于J
零基础 Qt 6 在线安装教程程序员乐逍遥 Qt框架 MFC框架高级编程 qt 开发语言 qt6 C++安装
1.首先给你们Qt5.14.2的安装地址,有需要的可以安装Indexof/archive/qt/5.14/5.14.22.首先下载Qt6的在线安装包https://d13lb3tujbc8s0.cloudfront.net/onlineinstallers/qt-online-installer-windows-x64-4.10.0.exe3.安装运行程序
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {