我很ruo

hive 基本操作与示例

1. DDL

1.1 DDL之库操作

1.1.1 增

create database [if not exists] 库名 
[comment '库的注释']
[location '库在hdfs上存放的路径']
[with dbproperties('属性名'='属性值'，...)]

注意： location可以省略，默认存放在/user/hive/warehouse/库名.db目录下

若使用location，必须手动将目录建好。

dbproperties中只能存放string类型的属性，多个属性用逗号分隔

1.1.2 删

drop database [if exists] 库名 [cascade]

删除库时，是两步操作：

① 在mysql的DBS表中删除库的元数据

② 删除hdfs上库存放的路径

以上操作只能删除空库(库中没有表)！如果库中有表，是无法删除的，如果要强制删除，需要添加cascade关键字.

1.1.3 改

只能改location和dbproperties属性！

ALTER DATABASE 库名 SET DBPROPERTIES (property_name=property_value, ...);

在改库的属性时，同名的属性会覆盖，不存在的属性会新增！

1.1.4 查

切换库

use 库名

查看库的描述

desc database 库名

查看库的详细描述：

desc database extended  mydb2

查看库中的表

show tables in 库名

查看当前库下的表

show tables

1.2 DDL之表操作

1.2.1 创建表语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
-- 列的信息
[(col_name data_type [COMMENT col_comment], ...)] 
-- 表的注释
[COMMENT table_comment] 
-- 是否是分区表，及指定分区字段
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
-- 指定表中的数据在分桶时以什么字段进行分桶操作
[CLUSTERED BY (col_name, col_name, ...) 
-- 表中的数据在分桶时，以什么字段作为排序的字段
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
-- 表中数据每行的格式，指定分隔符等
[ROW FORMAT row_format]
-- 如果向表中插入数据时，数据以什么格式存储
[STORED AS file_format] 
-- 表在hdfs上存储的位置
[LOCATION hdfs_path]
-- 指定表的某些属性
[TBLPROPERTIES]

1.2.2 管理表和外部表

在创建表时，如果加了EXTERNAL，那么创建的表的类型为外部表；

如果没有指定EXTERNAL，那么创建的表的类型为内部表或管理表。

区别：

① 如果当前表是外部表，那么意味指hive是不负责数据生命周期管理的；如果删除了hive中的表，那么只会删除表的schame信息，而不会删除表目录中的数据。

② 如果为管理表，意味着hive可以管理数据的生命周期；如果删除了hive中的表，那么不仅会删除mysql中的schame信息，还会删除hdfs上的数据。

1.2.3 管理表和外部表的转换

可以通过查看表的Table Type属性，来判断表的类型。在hive中除了属性名和属性值，其他不区分大小写。

MANAGED_TABLE—>EXTERNAL_TABLE

alter table 表名 set TBLPROPERTIES('EXTERNAL'='TRUE')

EXTERNAL_TABLE—>MANAGED_TABLE

alter table 表名 set TBLPROPERTIES('EXTERNAL'='FALSE')

1.2.4 分区表

1.2.4.1 建表操作

① 创建一个一级分区（只有一个分区字段）表

create table t2(id int,name string,sex string) partitioned by(province string)

② 准备数据

1^ATom^Amale
2^AJack^Amale
3^AMarry^Afemale

③ 导入数据

put方式：只能上传数据，无法对分区表生成元数据！

④ 手动创建分区

手动创建分区，不仅可以生成分区目录，还会生成分区的元数据

alter table 表名 add partition(分区字段名=分区字段值)

查看表的分区元数据

show partitions 表名

⑤或使用命令自动修复分区的元数据

msck repair table 表名

1.2.4.2 load

load data local inpath '/home/jeffery/hivedatas/t2.data' into table t2 partition(province='guangxi')

load的方式不仅可以帮我们将数据上传到分区目录，还可以自动生成分区的元数据！

分区的元数据存放在metastore.PARTITIONS表中！

1.2.4.3 删除分区内数据

alter table 表名 drop patition(分区字段名=分区字段值),patition(分区字段名=分区字段值)

分区结构一经创建就不能修改，只能删除分区内的数据内容。

删除分区一定会删除分区内的元数据，如果表是管理表，还会删除分区目录！

1.2.4.4 多级分区表

create table t3(id int,name string,sex string) partitioned by(province string,city string,area string)

加载数据：

 load data local inpath '/home/jeffery/hivedatas/t2.data' into table t3 partition(province='guangxi',city='nanning',area='buzhidao')

1.2.5 分桶表

-- 指定表中的数据在分桶时以什么字段进行分桶操作
[CLUSTERED BY (col_name, col_name, ...) 
-- 表中的数据在分桶时，以什么字段作为排序的字段
[SORTED BY (col_name [ASC|DESC], ...)] 
INTO num_buckets BUCKETS]

1.2.5.1 概念

分桶和MR中的分区是一个概念，指在向表中使用insert 语句导入数据时， insert语句会翻译为一个MR程序，MR程序在运行时，可以根据分桶的字段，对数据进行分桶。

同一种类型的数据，就可以分散到同一个文件中！可以对文件根据类型进行抽样查询！

1.2.5.2 注意

①如果需要实现分桶，那么必须使用Insert的方式向表中导入数据！只有insert会运行MR！

②分桶的字段是基于表中的已有字段进行选取

③如果要实现分桶操作，那么reduceTask的个数需要>1

1.2.5.3 案例

① 准备数据

1001	ss1
1002	ss2
1003	ss3
1004	ss4
1005	ss5
1006	ss6
1007	ss7
1008	ss8
1009	ss9
1010	ss10
1011	ss11
1012	ss12
1013	ss13
1014	ss14
1015	ss15
1016	ss16

② 创建分桶表

create table stu_buck(id int, name string)
clustered by(id) 
into 4 buckets
row format delimited fields terminated by '\t';

③ 创建临时表

create table stu_buck_tmp(id int, name string)
row format delimited fields terminated by '\t';

④ 先把数据load到临时表

load data local inpath '/home/jeffery/hivedatas/t4.data' into table stu_buck_tmp;

⑤ 使用insert 语句向分桶表导入数据

导入数据之前，需要打开强制分桶的开关：

set hive.enforce.bucketing=true;

需要让reduceTask的个数=分的桶数，但是此时不需要额外设置，默认reduceTask的个数为-1，-1代表由hive自动根据情况设置reduceTask的数量。

mapreduce.job.reduces=-1

导入数据

insert overwrite table  stu_buck select * from  stu_buck_tmp

1.2.5.4 排序

① 创建分桶表，指定按照id进行降序排序

create table stu_buck2(id int, name string)
clustered by(id) 
SORTED BY (id desc)
into 4 buckets
row format delimited fields terminated by '\t';

② 向表中导入数据

如果需要执行排序，提前打开强制排序开关。

set hive.enforce.sorting=true;

导入数据

insert overwrite table  stu_buck2 select * from  stu_buck_tmp

1.2.5.5 抽样查询

基于分桶表进行抽样查询，表必须是分桶表。

select * from 分桶表 tablesample(bucket x out of y on 分桶字段);

假设当前分桶表，一共分了z桶！

x: 代表从当前的第几桶开始抽样

y: z/y 代表一共抽多少桶！

y必须是z的因子或倍数！

怎么抽：从第x桶开始抽，当y<=z每间隔y桶抽一桶，直到抽满 z/y桶

举例1：

select * from stu_buck2 tablesample(bucket 1 out of 2 on id);

从第1桶开始抽，每间隔2桶抽一桶，一共抽2桶！

桶号： x+y*(n-1) 抽0号桶和2号桶

举例2：

select * from stu_buck2 tablesample(bucket 1 out of 1 on id);

从第1桶开始抽，每间隔1桶抽一桶，一共抽4桶！

抽0,1,2,3号桶

举例3：

select * from stu_buck2 tablesample(bucket 2 out of 8 on id);

从第2桶开始抽，一共抽0.5桶！

抽1号桶的一半

1.2.6 基于现有表创建表

① 基于源表，复制其表结构，创建新表，表中无数据。

注：分区表、分桶表均可创建。

create table 表名 like 源表名

② 基于一条查询语句，根据查询语句中字段的名称，类型和顺序创建新表,表中有数据

create table 表名 as ‘select语句’

注意：不能通过此方式创建分区表（可以复制里边的数据，但是分区结构复制不了）

1.2.7 删除

drop table [if exists] 表名

清空表中的数据（表必须是管理表）

truncate table 表名

1.2.8 查询

查看表的描述

desc  表名

查看表的详细描述

desc extended 表名

格式化表的详细描述

desc formatted 表名

查看表的建表语句

show create table 表名

1.2.9 修改

1.2.9.1 修改表的某个属性

alter table 表名 set TBLPROPERTIES('属性名'='属性值')

1.2.9.2 修改列的信息

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]

例：

alter table t1 change id newid int;
alter table t1 change id newid string after sex;
alter table t1 change newid id string first;

1.2.9.3 重命名表

ALTER TABLE table_name RENAME TO new_table_name

1.2.9.4 重置表的所有列

ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

1.2.9.5 添加列

ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)

2. DML

2.1 导入

2.1.1 load

load data [local] inpath '数据路径' into table 表名 [partition]

带local：从本地将数据put到hdfs上的表目录。

不带local：代表将hdfs上的数据，mv到hdfs上的表的目录。

2.1.2 insert

insert导入数据会运行MR程序，在特殊的场景下，只能使用insert不能用load，例如：

① 分桶

② 希望向hive表中导入的数据以SequnceFile或ORC等其他格式存储！

语法（支持单条数据插入和批量导入）：

insert into | overwrite  table 表名 [partition()] values(),(),() | select 语句

insert into：向表中追加写

insert overwrite：覆盖写，清空表目录（hdfs层面，和外部表无关），再向表中导入数据

多插入模式：从一张源表查询，执行多条insert语句，插入到多个目的表

from 源表
insert into | overwrite  table 目标表1 select xxxx
insert into | overwrite  table 目标表2 select xxxx
insert into | overwrite  table 目标表3 select xxxx

示例：

from t3
insert overwrite table t31 partition(province='henan',city='mianchi',area='chengguanzhen') select id,name,sex 
where province='guangdong' and city='shenzhen' and area='baoan'
insert overwrite table t32 partition(province='hebei',city='mianchi',area='chengguanzhen') select id,name,sex 
where province='guangxi' and city='liuzhou' and area='buzhidao'
insert overwrite table t33 partition(province='hexi',city='mianchi',area='chengguanzhen') select id,name,sex 
where province='guangxi' and city='nanning' and area='buzhidao'

2.1.3 location

建表时可以指定表的location属性（表在hdfs上的目录）。适用于数据已经存在在hdfs上了，只需要指定表的目录和数据存放的目录关联即可。

create table t1(id int, name string, gender string) location '/t1';

2.1.4 import

注：import必须导入的数据是由export命令导出的数据。

IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_column="value"[, ...])]]
  FROM 'source_path'
  [LOCATION 'import_target_path']

要求：

① 如果要导入的表不存在，那么hive会根据export表的元数据生成目标表，再导入数据和元数据

② 如果表已经存在，在导入之前会进行schame的匹配检查，检查不复合要求，则无法导入。

③ 如果目标表已经存在，且schame和要导入的表结构匹配，那么要求要导入的分区必须不能存在。

例：

import table import1 from '/t2export'

2.2 导出

2.2.1 insert

命令：

insert overwrite [local] directory '导出的路径'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'  
select 语句;

带 local 导出到本地的文件系统，不带local代表导出到hdfs。

注意：导出路径最后一级必须不存在，同MapReduce。

2.2.2 export导出

命令：

EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])]
  TO 'export_target_path' [ FOR replication('eventid') ]

优势：

既导出数据还导出metastore(元数据，表结构，且与RDMS无关)，导出的数据和表结构可以移动到其他的hadoop集群或hive中，使用import导入。

例：

export table t2 partition (province = 'guangdong') to '/t2export'

2.3 排序

2.3.1 Order by

Order by 代表全排序，即对整个数据集进行排序，要求只能有一个reduceTask。

select * from emp order by sal desc;
select * from emp order by job,sal desc;

2.3.2 Sort by

sort by代表部分排序，即设置多个reduceTask，每个reduceTask对所持有的分区的数据进行排序。

部分排序：设置多个reduceTask，每个reduceTask对所持有的分区的数据进行排序，每个分区内部整体有序！

① 需要手动修改mapreduce.job.reduces，告诉hive我们需要启动多少个reduceTask

set mapreduce.job.reduces=3

② 进行部分排序

insert overwrite local directory '/home/jeffery/sortby' select * from emp sort by deptno;

注：sort by只是指定排序的字段，无法控制数据按照什么字段进行分区。

2.3.3 Distribute by

需结合 sort by一起使用。Distribute by必须写在sort by 之前（先分区，再排序）。Distribute by 用来指定使用什么字段进行分区。

需求：按照部门号，对同一个部门的薪水进行降序排序，每一个部门生成一个统计的结果文件。

操作：按照部门号进行分区，按薪水进行降序排序。

insert overwrite local directory '/home/jeffery/sortby' row format delimited fields terminated by '\t'  select * from emp Distribute by deptno sort by sal desc ;

2.3.4 Cluster by

如果sort by 和 distribute by的字段一致，且希望按照asc进行排序！那么可以简写为cluster by

distribute by sal sort by sal  asc  等价于   cluster by sal

注：如果使用了cluster by，不支持降序，只支持升序。

2.3.5 本地模式

MR以local模式运行，数据量较小的时候，比YARN上运行要快。

set hive.exec.mode.local.auto=true;  //开启本地mr
//设置local mr的最大输入数据量，当输入数据量小于这个值时采用local  mr的方式，默认为134217728，即128M
set hive.exec.mode.local.auto.inputbytes.max=50000000;
//设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr的方式，默认为4
set hive.exec.mode.local.auto.input.files.max=10;

2.4 函数

2.4.1 函数的分类

UDF(user define function)：用户定义的一进一出的函数。

UDTF(user define table function): 用户定义的表生成函数，一进多出。

UDAF(user define aggregation function)：用户定义的聚集函数，多进一出。

函数根据来源分为系统函数和用户自定义的函数。

2.4.2 函数的查看

注意：用户自定义的函数是以库为单位，在创建这个函数时，必须在要使用的库进行创建，否则需要用库名.函数名使用函数。

查看所有的函数：

show functions

查看某个函数的介绍：

desc function 函数名

查看某个函数的详细介绍：

desc function extended 函数名

2.4.3 NVL

nvl(value,default_value) - Returns default value if value is null else returns value
当value是null值时，返回default_value,否则返回value

一般用在计算前对null的处理上， nvl 的默认值可以是变量，类似 MySQL 中的IFNULL。

案例：

求有奖金人的平均奖金： avg聚集函数默认忽略Null

select avg(comm) from emp;

求所有人的平均奖金：提前处理null值！

select avg(nvl(comm,0)) from emp;

2.4.4 字符串拼接函数

2.4.4.1 concat

描述：

concat(str1, str2, ... strN) - returns the concatenation of str1, str2, ... strN or concat(bin1, bin2, ... binN) - returns the concatenation of bytes in binary data  bin1, bin2, ... binN
Returns NULL if any argument is NULL

示例：

select concat('123','321','abc','cba');

concat可以完成多个字符串的拼接，一旦拼接的字符串中有一个NULL值，返回值就为NULL。因此在concat拼接前，一定要先保证数据没有为NULL的。

2.4.4.2 concat_ws

描述：

concat_ws(separator, [string | array(string)]+) - returns the concatenation of the strings separated by the separator.

返回多个字符串或字符串数组的拼接结果，拼接时，每个字符串会使用 separator 作为分割。concat_ws 不受NULL值影响， NULL值会被忽略。

示例：

SELECT concat_ws('.', 'www', array('facebook', 'com')) ;

2.4.5 行转列函数

1列N行转为 1列1行，通常属于聚集函数。

2.4.5 .1 collect_set

描述：

collect_set(x) - Returns a set of objects with duplicate elements eliminated

返回一组去重后的数据组成的set集合。

示例：

select collect_set(job) from emp;

2.4.5.2 collect_list

描述：

collect_list(x) - Returns a list of objects with duplicates

返回一组数据组成的list集合，不去重。

示例：

select collect_list(job) from emp;

2.4.6 判断句式

2.4.6.1 if

类似三元运算符，用于单层判断。

语法：

if('条件判断','为true时','为false时')

示例：

select empno,ename,sal,if(sal<1500,'Poor Gay','Rich Gay') from emp;

2.4.6.2 case-when

类似swith-case，用于多层判断。

语法：

case 列名
	when 值1 then 值2
	when 值3 then 值4
	when 值5 then 值6
	...
	else 值7
end

示例：

select empno,ename,job,case job when 'CLERK' then 'a' when 'SALESMAN' then 'b' else 'c' end from emp;

2.4.7 列转行

2.4.7.1 含义

列传行： 1列1行转为 N列N行

2.4.7.2 explode

描述：

explode(a) - separates the elements of array a into multiple rows, or the elements of a map into multiple rows and columns

explode使用的对象是array或map，可以将一个array中的元素分割为N行1列。

select explode(friends) from default.t1 where name='songsong';

explode函数还可以将一个 map中的元素(entry)分割为N行2列。

select explode(children) from default.t1 where name='songsong';

注意： explode 函数在查询时不能写在 select 之外，也不能嵌套在表达式中。若在 select 中写了 explode 函数，select 中只能有 explode 函数不能有别的表达式。

1.4.7.3 lateral view

explode 的临时结果集中的每一行，可以和 explode 之前的所在行的其他字段进行join。上述过程通过 LATERAL VIEW（侧写）实现。

语法：

select 临时列名，其他字段
from 表名
-- 将 UDTF函数执行的返回的结果集临时用 临时表名代替，结果集返回的每一列，按照顺序分别以临时--列名代替
lateral view UDTF() 临时表名 as 临时列名,...

示例：

select  movie,col1
from movie_info
lateral view explode(category) tmp1 as col1

注：LATERAL VIEW 支持多级连续调用

2.4.8 窗口函数

在mysql5.5,5.6版本，不支持窗口函数；在oracle和sqlserver中支持窗口函数；hive支持窗口函数。

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics

窗口函数 = 函数 + 窗口

函数：要运行的函数，只有以下函数称为窗口函数：

① 开窗函数：

LEAD: 用来返回当前行以下行的数据！

用法： LEAD (列名 [,offset] [,default])

offset是偏移量，默认为1，

default：取不到值就使用默认值代替

LAG: 用来返回当前行以上行的数据！

用法： LAG (列名 [,offset] [,default])

offset是偏移量，默认为1，

default：取不到值就使用默认值代替

FIRST_VALUE: 返回指定列的第一个值

用法： FIRST_VALUE(列名，[false是否忽略null值])

LAST_VALUE:返回指定列的最后一个值

用法： LAST_VALUE(列名，[false是否忽略null值])

② 标准的聚集函数：MAX,MIN,AVG,COUNT,SUM

③ 分析排名函数：

RANK()：允许并列，并列后跳号
ROW_NUMBER()：连续，不并列，不跳号
DENSE_RANK()：连续，允许并列，并列不跳号！
CUME_DIST()：当前值以上的所有的值，占总数据集的比例！
PERCENT_RANK()：rank()-1/总数据集-1
NTILE(x)：将窗口中的数据平均分配到x个组中，返回当前数据的组号

注：

排名函数可以跟over()，但是不能在over()中定义window_clause；先排序，再排名

排名函数只记号，不负责排序，且必须结合 sort by 一起使用

窗口：函数在运行时，计算的结果集的范围。窗口函数指以上特定函数在运算时，可以自定义一个窗口（计算的范围）。

2.4.8.1 语法

函数 over( [partition by 字段1,字段2] [order by 字段 asc|desc] [window clause] )

partition by : 根据某些字段对整个数据集进行分区！

order by: 对分区或整个数据集中的数据按照某个字段进行排序！

注意：如果对数据集进行了分区，那么窗口的范围不能超过分区的范围，即窗口必须在区内指定。

2.4.8.3 window clause

(ROWS | RANGE) BETWEEN (UNBOUNDED | [num]) PRECEDING AND ([num] PRECEDING | CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN [num] FOLLOWING AND (UNBOUNDED | [num]) FOLLOWING

本质即定义起始行和终止行的范围。

两个特殊情况：

① 当over()既没有写order by，也没有写window 子句时，窗口默认等同于上无边界到下无边界（整个数据集）。

② 当over()中，指定了order by 但是没有指定 window 子句时，窗口默认等同于上无边界到当前行。

另外需要强调的是，支持Over()，但是不支持在over中定义windows子句的函数如下：

Ranking functions: Rank, NTile, DenseRank, CumeDist, PercentRank.

Lead and Lag functions

注意：同时使用了窗口函数和 group by 后，聚集函数（sum、count、avg、max、min）调用时机略有变化。不使用窗口函数，则聚集函数的调用随着 group by 的进行而进行；若使用了窗口函数，则聚集函数在 group by 调用之后再在窗口函数的限定下调用。

2.4.9 常用函数

2.4.9.1 日期函数

unix_timestamp:返回当前或指定时间的时间戳	
from_unixtime：将时间戳转为日期格式
current_date：当前日期
current_timestamp：当前的日期加时间
*to_date：抽取日期部分
year：获取年
month：获取月
day：获取日
hour：获取时
minute：获取分
second：获取秒
weekofyear：当前时间是一年中的第几周
dayofmonth：当前时间是一个月中的第几天
* months_between： 两个日期间的月份，前-后
* add_months：日期加减月
* datediff：两个日期相差的天数，前-后
* date_add：日期加天数
* date_sub：日期减天数
* last_day：日期的当月的最后一天

2.4.9.2 取整函数

*常用取整函数
round： 四舍五入
ceil：  向上取整
floor： 向下取整

2.4.9.3 字符串操作函数

常用字符串操作函数
upper： 转大写
lower： 转小写
length： 长度
* trim：  前后去空格
lpad： 使用指定字符向左补齐，到指定长度
rpad： 使用指定字符向右补齐，到指定长度
* regexp_replace： 使用正则表达式匹配目标字符串，匹配成功后替换！

2.4.9.4 集合操作

集合操作
size： 集合（map和list）中元素的个数
map_keys： 返回map中的key
map_values: 返回map中的value
* array_contains: 判断array中是否包含某个元素
sort_array： 将array中的元素排序

2.4.10 用户自定义函数

2.4.10.1 编写函数

① 引入依赖

 <dependency>
            <groupId>org.apache.hivegroupId>
            <artifactId>hive-execartifactId>
            <version>1.2.1version>
  dependency>

② 自定义类，继承UDF类

提供多个evaluate()方法，返回不能是void类型，必须有返回值！可以返回null！

public class MyUDF  extends UDF {

    public String evaluate(String str){

        return "hello "+str;
    }
}

2.4.10.2 引入函数

③打包，上传到$HIVE_HOME/auxlib

④重启hive，之后创建函数

create function 函数名 as '函数的全类名'

用户自定义的函数有库的范围，在哪个库下创建，就默认在这个库下使用！否则需要使用库名.函数名调用！

2.5 其他操作

2.5.1 创建视图（view）

视图(view)：
        ①视图是一种特殊(逻辑上存在，实际不存在)的表
        ②视图是只读的
        ③视图可以将敏感的字段进行保护，只将用户需要的字段暴露在视图中，保护数据的隐私

创建语法： create view 视图名 as select 语句

2.5.2 添加 snappy 压缩

2.5.2.1 查看

查看当前集群是否支持snappy压缩：

hadoop checknative

2.5.2.2 安装

将snappy和hadoop2.7.2编译后的so文件，放置到HADOOP_HOME/lib/native目录下即可。

2.5.2.3 分发

分发至其他节点，否则只有当前节点可以执行snappy压缩。

2.5.2.4 开启Map输出阶段压缩

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下：

1．开启hive中间传输数据压缩功能

set hive.exec.compress.intermediate=true;

2．开启mapreduce中map输出压缩功能

set mapreduce.map.output.compress=true;

3．设置mapreduce中map输出数据的压缩方式

set mapreduce.map.output.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

2.5.2.5 开启Reduce输出阶段压缩

1．开启hive最终输出数据压缩功能

set hive.exec.compress.output=true;

2．开启mapreduce最终输出数据压缩

set mapreduce.output.fileoutputformat.compress=true;

3．设置mapreduce最终数据输出压缩方式

set mapreduce.output.fileoutputformat.compress.codec =
 org.apache.hadoop.io.compress.SnappyCodec;

4．设置mapreduce最终数据输出压缩为块压缩

set mapreduce.output.fileoutputformat.compress.type=BLOCK;

你可能感兴趣的:(hive,大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep