livan1234

Hadoop学习（十三）——hive的常用HQL语句

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。

我的公众号为：livandata

1 DDL操作（建表语句）

1.1、建表语法

1）表的创建方法：

建表：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

[(col_name data_type [COMMENT col_comment], ...)]

[COMMENT table_comment]

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

[CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

[ROW FORMAT row_format]

[STORED AS file_format]

[LOCATION hdfs_path]

说明：

1.1） CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。

1.2） EXTERNAL关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

LOCATOION：在建外部表时指定的数据存储目录。

create external table fz_external_table(

id int,

name string,

age int,

tel string)

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

STORED AS TEXTFILE

LOCATION '/user/hive/external/fz_external_table';

1.3）LIKE 允许用户复制现有的表结构，但是不复制数据：

CREATE TABLE t4 like t2;

1.4）ROW FORMAT：创建表时指定的数据切分格式

DELIMITED [FIELDS TERMINATED BY char]

[COLLECTION ITEMS TERMINATED BY char]

[MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

|SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value,property_name=property_value, ...)]

用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过 SerDe 确定表的具体的列的数据。

SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化

例如：

CREATE TABLE psn (
id int,
name string,
hobbies ARRAY ,
address MAP
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '-'
MAP KEYS TERMINATED BY ':';

参考：https://www.cnblogs.com/zkio/p/7283770.html

1.5）STORED AS:

SEQUENCEFILE|TEXTFILE|RCFILE

如果文件数据是纯文本，可以使用 STORED AS TEXTFILE：默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

如果数据需要压缩，使用 STORED AS SEQUENCEFILE：支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，一般建议使用BLOCK压缩。

RCFILE是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

CREATE TABLE if not exists testfile_table(

site string,

url string,

pv bigint,

label string)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS textfile;

LOAD DATA LOCAL INPATH '/app/weibo.txt'

OVERWRITE INTO TABLE textfile_table;

1.6）CLUSTERED BY:

对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

SORTED BY：对桶中的一个或多个列另外排序。

把表（或者分区）组织成桶（Bucket）有两个理由：

1.6.1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。

1.6.2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

create table stu_buck(

sno int,

sname string,

sex string,

sage int,

sdept string)

clustered by(sno) sorted by(sno DESC) into 4 buckets

row format delimited fields terminated by ',';

1.7）COMMENT：可以为表与字段增加描述

1.8）PARTITIONED BY ：根据分区来查看表中的内容，每个分区以文件夹的形式单独存在表文件夹的目录下。

2）具体实例：

2.1）创建内部表的三种方式：

2.1.1）第一种方式：

Create table if not exists default.weblog(

Ip string,

Time string,

Req_url string,

Status string,

Size string)

Row format delimited fields terminated by ‘\t’;

数据存储：

Load data local inpath’/opt/hive/weblog.txt’ into table default.weblog;

查看数据：

Select * from default.weblog;

2.1.2）第二种方式：

Create table default.weblog

As select ip, time, req_url, from default.weblog;

查看表结构：

Desc default.weblog;

2.1.3）第三种方式：

Create table if not exists default.weblog_s like default.weblog;

Select * from weblog;

Desc weblog;

2.2）创建外部表pageview：

Create external table if not exists pageview(

Pageid int,

Page_url string comment ‘the page url’)

Row format delimited fields terminated by ‘,’

Location ‘hdfs://192.168.11.191:9000/user/hive/warehouse/’;

2.3）创建分区表invites：

分区是指将数据放在多个单独的文件夹中，减少运行的时间；

create table student_p(

Sno int,

Sname string,

Sex string,

Sage int,

Sdept string)

partitioned by(part string)

row format delimited fields terminated by ','

stored as textfile;

2.3.1）内部分区表：

create table student(

id int,

name string)

partitioned by (cls string)

row format delimited fields terminated by '\t';

2.3.2）分区表装载数据：

load data local inpath '/home/airib/work/hadoop/book' into table student partition (cls='class2');
2.3.3）外部分区表：可以单独的往某个分区中导入数据；

create external table teacher (

id int,

name string)

partitioned by (cls string)

row format delimited fields terminated by '\t' location '/user/teacher';

location '/user/teacher'

2.4）创建带桶的表：

如何理解分桶：

对于某一个表或者分区，hive可以进一步构建成桶，是更为细粒度的划分；一开始数据都是在一起的，建造表的时候会按照id将表分在四个文件中，分别命名为1,2,3,4；数据会对应的存入到这四个文件中，数据的存取方式为将数据按照id进行hash散列，然后按照hash散列分到四个文件中。

分桶建表的基本语法为：

Create table student(

Id int,

Age int,

Name string)

Partitioned by (stat_Date string)

Clustered by (id) sorted by (age) into 2 buckets

Row format delimited fields terminated by ‘,’;

注意：

2.4.1）对于已有的数据，将数据导入到分桶的表中的时候是不主动分桶的，他只是记录了数据是分过桶的，文件没有变，因此在load数据的时候一般先分桶，再导入数据；

2.4.2）分桶处理时一般采用insert语句，分布进行，步骤如下：

首先：将数据load进入到一个普通的表中；

Create table t_p(id string, name string)

Row format delimited fields terminated by ‘,’;

其次：有一个分桶的开关需要打开：

set hive.enforce.bucketing = true;

set mapreduce.job.reduces = 4;

其三：然后将数据按照分桶原则从表中插入到分桶的表中，经历以下语句，数据就会被完整的分到四个桶中，四个桶分为四个不同的文件：

Insert into table t_buck

Select id, name from t_p distribute by (id) sort by (id);

reduce的数量需要与分桶的数量一致。

1.2、修改表

1)增加/删除分区

1.1)语法结构：

ALTER TABLE table_name

ADD [IF NOT EXISTS]

partition_spec [ LOCATION'location1' ]

partition_spec [ LOCATION 'location2' ] ...

其中partition_spec为：

PARTITION (partition_col = partition_col_value, partition_col =partiton_col_value, ...)

ALTER TABLE table_name DROP partition_spec, partition_spec,...

1.1.1）增加分区：

alter table student_p add partition(part='a') partition(part='b')；

1.1.2）删除分区：

show partitions student;

alter table student_p drop partition(stat_date='20160105');

alter table student_p add partition(stat_date=’20140101’)

location ‘/user/hive/warehouse/student’ partition(stat_Date=’ 20140102’)

1.1.3)重命名表:

语法结构:

ALTER TABLE table_name RENAME TO new_table_name

具体实例:

alter table students renameto students1;

show tables;

2)增加/更新列:

2.1)语法结构:

ALTER TABLE table_name

ADD|REPLACE COLUMNS (

col_name data_type[COMMENT col_comment], ...

)

与：

ALTER TABLE table_name

CHANGE [COLUMN] col_old_name col_new_namecolumn_type

[COMMENT col_comment]

[FIRST|AFTER column_name]

注：ADD是代表新增一字段，字段位置在所有列后面(partition列前)，REPLACE则是表示替换表中所有字段，Change是修改列及属性。

2.1.1）增加列：

Alter table students add columns(name1 string);

2.1.2）更新列：

Alter table students replace columns(id int, age int, name string);

3）删除列：

alter table students drop columns id;

4）修改列：

alter table students change columns salary salary double;

5）删除表：

drop table if exists employee;

6）修改桶：

alter table btest3 clustered by(name, age) sorted by(age) into10 buckets;

显示命令：

show tables

show databases

show partitions

show functions

desc extended t_name;

desc formatted table_name;

2 DML操作（数据操纵语句）

2.1、Load(复制/移动操作)：

1）语法结构：

LOAD DATA [LOCAL] INPATH 'file path' [OVERWRITE] INTO

TABLE tablename

[PARTITION (partcol1=val1, partcol2=val2 ...)]

说明：

1.1）Load 操作只是单纯的复制/移动操作，将数据文件移动到 Hive 表对应的位置。

1.2）file path移动路径：

相对路径，例如：project/data1

绝对路径，例如：/user/hive/project/data1

包含模式的完整 URI，列如：hdfs://namenode:9000/user/hive/project/data1

1.3）LOCAL关键字：

如果没有指定 LOCAL 关键字，则根据inpath中的uri查找文件

如果指定了LOCAL，那么：

load 命令会去查找本地文件系统中的file path。如果发现是相对路径，则路径会被解释为相对于当前用户的当前路径。

load 命令会将file path中的文件复制到目标文件系统中。目标文件系统由表的位置属性决定。被复制的数据文件移动到表的数据对应的位置。

如果没有指定 LOCAL关键字，如果file path指向的是一个完整的URI，hive 会直接使用这个URI。否则：如果没有指定schema或者authority，Hive 会使用在hadoop配置文件中定义的schema和authority，fs.default.name指定了 Namenode的URI。

如果路径不是绝对的，Hive相对于/user/进行解释。

Hive 会将filepath中指定的文件内容移动到table（或者partition）所指定的路径中。

1.4）OVERWRITE关键字

如果使用了OVERWRITE关键字，则目标表（或者分区）中的内容会被删除，然后再将file path指向的文件/目录中的内容添加到表/分区中。

如果目标表（分区）已经有一个文件，并且文件名和file path中的文件名冲突，那么现有的文件会被新文件所替代。

1.4.1）加载相对路径数据：

Load data local inpath ‘buckets.txt’ into table student partition(stat_Date=’20130202’);

Dfs -ls /user/hive/warehouse/student/stat_date=20130202

1.4.2)加载绝对路径数据:

Load data local inpath ‘/root/app/datafile/buckets.txt’ into table student partition(stat_Date=’20130202’);

Dfs -ls /user/hive/warehouse/student/stat_date=20130202;

1.4.3)加载包含模式的完整url：

Load data local inpath ‘http://192.168.22.22:9000/root/app/datafile/buckets.txt’ into table student partition(stat_Date=’20130202’);

Dfs -ls /user/hive/warehouse/student/stat_date=20130202;

1.4.4)OVERWRITE关键字使用:

Load data local inpath ‘buckets.txt’ overwrite into table student partition(stat_Date=’20130202’);

Dfs -ls /user/hive/warehouse/student/stat_date=20130202;

2.2、Insert（插入语句）：将查询结果插入Hive表

1）语法结构：

1.1）Base insert：

INSERT OVERWRITE TABLE tablename1

[PARTITION (partcol1=val1, partcol2=val2 ...)]

SELECT select_statement1

FROM from_statement

1.2）Multiple inserts:

FROM from_statement

INSERT OVERWRITE TABLE tablename1

[PARTITION (partcol1=val1, partcol2=val2 ...)]

SELECT select_statement1

[INSERT OVERWRITE TABLE tablename2

[PARTITION ...]

SELECT select_statement2] ...

1.3）Dynamic partition inserts:

INSERT OVERWRITE TABLE tablename

PARTITION (partcol1[=val1], partcol2[=val2] ...)

SELECT select_statement

FROM from_statement

2）具体案例：

2.1）追加数据：insert into是指后面追加内容，原有的内容不删除；

insert into table account1 select * from account_tmp;

2.2）覆盖数据：覆盖原有的内容；

insert overwrite table account1 select * from account_tmp;

2.3）多插入模式：

From student

Insert overwrite table student partition(stat_date=’20140202’)

Select id, age, name, where stat_date=’20130202’

Insert overwrite table student partition(stat_date=’20140203’)

Select id, age, name, where stat_date=’20130203’

2.4)动态分区模式:

Insert overwrite table student1 partition(stat_date)

Select id, age, name, stat_date from student where stat_date=’20140203’

3) 导出表数据：

3.1）Base insert：

INSERT OVERWRITE [LOCAL] DIRECTORY directory1

SELECT ... FROM ...

3.1）multiple inserts:

FROM from_statement

INSERT OVERWRITE [LOCAL] DIRECTORY directory1

SELECT select_statement1

[INSERT OVERWRITE [LOCAL] DIRECTORY directory2

SELECT select_statement2]...

4）具体实例：

4.1)导出文件到本地：

Insert overwrite local directory ‘/root/app/datafile/student1’

Select * from student1

说明：数据写入到文件系统时进行文本序列化，且每列用^A来区分，\n为换行符。用more命令查看时不容易看出分割符，可以使用: sed -e 's/\x01/|/g' filename来查看。

4.2)导出数据到HDFS:

Insert overwrite directory ‘hdfs://192.168.122.11:9000/user/hive/warehouse/mystudent’

Select * from student1;

Dfs -ls /user/hive/warehouse/mystudent;

注意：

insert...select：一般是表对表。

往表中导入数据时，查询的字段个数必须和目标的字段个数相同，不能多，也不能少,否则会报错。但是如果字段的类型不一致的话，则会使用null值填充，不会报错。

load data：一般是将外部文件放到hive中。

形式往hive表中装载数据时，则不会检查。如果字段多了则会丢弃，少了则会null值填充。同样如果字段类型不一致，也是使用null值填充。

2.3、SELECT：

1）语法结构：

SELECT [ALL | DISTINCT]

select_expr, select_expr, ...

FROM table_reference

[WHERE where_condition]

[GROUP BY col_list [HAVING condition]]

[CLUSTER BY col_list|[DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]]

[LIMIT number]

注：

1.1）order by：会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。

1.2）sort by：不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

1.3）distribute by(字段)：根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。

1.4）cluster by（字段)：除了具有Distribute by的功能外，还会对该字段进行排序。

如果分桶和sort字段是同一个时，此时：cluster by = distribute by + sort by

分桶表的作用：最大的作用是用来提高join操作的效率；

（思考这个问题：select a.id, a.name, b.addr from a join b on a.id = b.id;

如果a表和b表已经是分桶表，而且分桶的字段是id字段

做这个join操作时，还需要全表做笛卡尔积吗？）

保存select查询结果的几种方式：

1.5）将查询结果保存到一张新的hive表中：

Create table t_tmp

Select * from t_p;

1.6）将查询结果保存到一张已经存在的hive表中：

Insert into table t_tmp

Select * from t_p;

1.7）将查询结果保存到指定的文件目录中（可以是本地，也可以是hdfs）：

Insert into local directory ‘/home/Hadoop/test’

Select * from t_p;

2) 具体实例:

2.1)获取年龄大的3个学生:

Select id, age, name

from student

where stat_date=’20140203’

order by age desc

limit 3;

2.2)查询学生信息按年龄，降序排序:

Order by：全局排序，生成一个reducer；

Sort by：分区内排序，可生成多个reducer；

Eg:

Set mapred.reduce.tasks=4;

Select * from student sort by age desc;

2.3)按学生名称汇总学生年龄:

Select name, sum(age) from student group by name;

2.4)分区划分查询：

Distribute by：按照指定的字段或表达式对数据进行划分，输出到对应的reduce或者文件中；

cluster by：区内排序，如果distribute by，sort by使用的两个字段相同时：cluster by=distribute by+sort by功能叠加；

set mapred.reduce.tasks=2;

insert overwrite local directory 'tmp/lxw1234/'

select id from lxw1234_com

distribute by id;

上面会生成两个文件；

set mapred.reduce.tasks=2;

insert overwrite local directory 'tmp/lxw1234/'

select id from lxw1234_com

cluster by id;

上面会排序；

2.5）子查询：必须设置别名

select * from (select a+b as col form t1) t2;

2.6）where中的子查询：

left semi join语句用来替代exists/in子句：

在hive中下面的语句是无法使用的：

select * from A where A.a in (select foo from B);

select * from A where A.a exists (select foo from B where A.x=B.x);

需要使用left semi join子句：

select * from A left semi join B on(A.key=B.key);

2.7）将子查询作为一个表：hive可以通过with查询来提高查询性能，因为先通过with语法将数据查询到内存，然后后面其它查询可以直接使用。

with q1 as (select * from A where x>65)

from q1

insert overwrite table q2

select *;

2.8）虚拟列：

input_file_name:数据对应的HDFS文件；

block_offset_inside_file:该行记录在文件中的偏移量；

select id, input_file_name, block_offset_inside_file from lxm1234_com;

2.4、Hive Join：

1）语法结构：

join_table:

table_reference JOIN table_factor [join_condition]

| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition

| table_reference LEFT SEMIJOIN table_reference join_condition

Hive支持等值连接(equalityjoins)\外连接(outer joins)和左右连接(left/rightjoins)。

Hive不支持非等值的连接，因为非等值连接非常难转化到 map/reduce 任务。

另外，Hive支持多于2个表的连接，缓存前面的表，拿最后一个表逐行进行join。

2）join注意几个关键点：

2.1）只支持等值join：

例如：

SELECT a.* FROM a JOIN b ON (a.id = b.id)

SELECT a.* FROM a JOIN b ON (a.id = b.id AND a.department =b.department)

是正确的，然而:

SELECT a.* FROM a JOIN b ON (a.id>b.id)

是错误的。

2.2）可以 join 多于2个表：

例如：

SELECT a.val,b.val, c.val

FROM a JOIN b

ON (a.key =b.key1) JOIN c ON (c.key = b.key2)

如果join中多个表的join key是同一个，则join会被转化为单个map/reduce 任务，例如：

SELECT a.val,b.val, c.val

FROM a JOIN b

ON (a.key =b.key1) JOIN c ON (c.key =b.key1)

被转化为单个map/reduce任务，因为join中只使用了b.key1作为join key。

SELECT a.val, b.val, c.val

FROM a JOIN b

ON (a.key =b.key1) JOIN c ON(c.key = b.key2)

而这一join 被转化为2个map/reduce任务。因为b.key1用于第一次join 条件，而b.key2用于第二次join。

2.3）join 时，每次 map/reduce 任务的逻辑如下：

reducer会缓存join序列中除了最后一个表的所有表的记录，再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中，应该把最大的那个表写在最后（否则会因为缓存浪费大量内存）。

例如：

SELECT a.val, b.val, c.val

FROM a JOIN b

ON(a.key = b.key1) JOIN c ON (c.key = b.key1)

所有表都使用同一个join key（使用 1 次 map/reduce 任务计算）。Reduce 端会缓存a表和b表的记录，然后每次取得一个c表的记录就计算一次join 结果，类似的还有：

SELECT a.val,b.val, c.val

FROM a JOIN b

ON(a.key = b.key1) JOIN c ON (c.key = b.key2)

这里用了2次map/reduce任务。第一次缓存a表，用b表序列化；第二次缓存第一次 map/reduce 任务的结果，然后用c表序列化。

2.4）LEFT，RIGHT和FULL OUTER关键字用于处理join中空记录的情况：

例如：

SELECT a.val, b.val

FROM a LEFT OUTER JOIN b

ON (a.key=b.key)

对应所有a表中的记录都有一条记录输出。输出的结果应该是a.val,b.val，当 a.key=b.key时，而当b.key中找不到等值的a.key记录时也会输出:

a.val, NULL

所以 a 表中的所有记录都被保留了；

SELECT A.val, B.val

FROM A RIGHT OUTER JOIN B

ON(A.key=B.key);

会保留所有b表的记录。

2.5）Join 发生在 WHERE 子句之前：

如果你想限制join的输出，应该在WHERE子句中写过滤条件——或是在join 子句中写。这里面一个容易混淆的问题是表分区的情况：

SELECT a.val,b.val

FROM a LEFT OUTER JOIN b

ON (a.key=b.key)

WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'

上例会join a表到b表（OUTER JOIN），列出a.val和b.val的记录。WHERE 从句中可以使用其他列作为过滤条件。但是，如前所述，如果 b 表中找不到对应 a 表的记录，b 表的所有列都会列出 NULL，包括 ds 列。也就是说，join 会过滤 b 表中不能找到匹配a表join key的所有记录。这样的话，LEFT OUTER就使得查询结果与WHERE子句无关了。解决的办法是在OUTER JOIN时使用以下语法：

SELECT a.val, b.val

FROM a LEFT OUTER JOIN b

ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')

这一查询的结果是预先在join阶段过滤过的，所以不会存在上述问题。这一逻辑也可以应用于RIGHT和FULL类型的join中。

2.6）Join 是不能交换位置的：

无论是LEFT还是RIGHT join，都是左连接的。

SELECT a.val1,a.val2, b.val, c.val

FROM a JOIN b ON(a.key = b.key)

LEFT OUTER JOIN c ON (a.key = c.key)

先join a表到b表，丢弃掉所有join key中不匹配的记录，然后用这一中间结果和c表做join。这一表述有一个不太明显的问题，就是当一个key在a表和c表都存在，但是b表中不存在的时候：整个记录在第一次join，即a JOIN b的时候都被丢掉了（包括a.val1，a.val2和a.key），然后我们再和c 表 join的时候，如果c.key与a.key或b.key相等，就会得到这样的结果：NULL, NULL, NULL, c.val

2.7）内连接inner join,只返回满足条件的结果：

SELECT t.dept, e.name

FROM employees e INNER JOIN dept t

ON e.deptno=t.deptno;

2.8）查询带桶的内容：

SELECT *

FROM bucketed_user

TABLESAMPLE(bucket 1 out of 2 on id)

WHERE day='20180703';

语法：

tablesample（bucket x out of y）：桶抽样

y必须是table总bucket数的因子或者倍数。hive根据y的大小决定抽样的比例。

例如：table共有64份，当y=32时，抽取（64/32）个bucket，即两个，当y=128时，抽取（64/128）=1/2个桶的数据；

x表示从哪个桶开始抽数据。

例如：table总bucket数为32，tablesample(bucket 3 out of 16),表示总共抽取（32/16）=2个bucket的数据，分别为第3个bucket和第3+16=19个bucket的数据；

2.5、update：

1）hive中的update语句会有一定的限制：

1.1）必须带有分桶属性（buckets）；

1.2）需要指定orc file format和acid output format格式；

1.3）建表时必须指定参数（‘transactional’=true）；

1.4）必须首先修改hive-site.xml中的内容；

2）其次：

Create table student(

id int,

name string)

clustered by(name) into 2 buckets

stored as orc tblproperties('transactional'='true');

3）其三：

update student set id='444'

where name='tom';

2.6、delete：

1）删除表：

Drop table if exists students;

2）删除表中所有内容：

Truncate table employees;

3）删除表中部分数据：

Insert overwrite table table1 select * from table1 where XXXX;

XXXX是表中需要保留的数据；

4）具体实例：

4.1）获取已经分配班级的学生姓名：

SELECT name, classname

FROM student a join class b ON(a.name=b.std_name);

4.2）获取尚未分配班级的学生姓名:

SELECT name, classname

FROM student a left join class b ON (a.name=b.std_name)

WHERE b.std_name is null;

4.3）LEFT SEMI JOIN是IN/EXISTS的高效实现:

SELECT id, name

FROM student a LEFT SEMI JOIN class b ON (a.name=b.std_name);

3 Hive的sql案例：

3.1、查询全体学生的学号与姓名：

hive>select Sno,Sname from student;

3.2、查询选修了课程的学生姓名：

hive>select distinct Sname from student inner join sc on student.Sno=Sc.Sno;

----hive的group by 和集合函数

3.3、查询学生的总人数：

hive>select count(distinct Sno)count from student;

3.4、计算1号课程的学生平均成绩

hive>select avg(distinct Grade) from sc where Cno=1;

3.5、查询各科成绩平均分

hive> select Cno,avg(Grade) from sc group by Cno;

3.6、查询选修1号课程的学生最高分数：

select Grade from sc where Cno=1 sort by Grade desc limit 1;

(注意比较：select * from sc where Cno=1 sort by Grade

select Grade from sc where Cno=1 order by Grade)

3.7、求各个课程号及相应的选课人数：

hive>select Cno,count(1) from sc group by Cno;

3.8、查询选修了3门以上的课程的学生学号

hive>select Sno from (select Sno,count(Cno) CountCno from sc group by Sno)a wherea.CountCno>3;

或：

hive>select Sno from sc group by Sno having count(Cno)>3;

----hive的Order By/Sort By/Distribute By

Order By：在strict 模式下（hive.mapred.mode=strict),orderby 语句必须跟着limit语句，但是在nonstrict下就不是必须的，这样做的理由是必须有一个reduce对最终的结果进行排序，如果最后输出的行数过多，一个reduce需要花费很长的时间。

3.9、查询学生信息，结果按学号全局有序：

hive>set hive.mapred.mode=strict; <默认nonstrict>

hive> select Sno from student order by Sno;

FAILED: Error in semantic analysis: 1:33 In strict mode, if ORDER BYis specified, LIMIT must also be specified. Error encountered near token 'Sno'

Sort By：它通常发生在每一个redcue里，“order by” 和“sort by"的区别在于，前者能给保证输出都是有顺序的，而后者如果有多个reduce的时候只是保证了输出的部分有序。set mapred.reduce.tasks=在sort by可以指定，在用sort by的时候，如果没有指定列，它会随机的分配到不同的reduce里去。distribute by 按照指定的字段对数据进行划分到不同的输出reduce中

此方法会根据性别划分到不同的reduce中，然后按年龄排序并输出到不同的文件中。

3.10、查询学生信息，按性别分区，在分区内按年龄有序

hive>set mapred.reduce.tasks=2;

hive>insert overwrite local directory '/home/hadoop/out'

select * from student distribute by Sex sort by Sage;

----Join查询,join只支持等值连接

3.11、查询每个学生及其选修课程的情况

hive>select student.*,sc.* from student join sc on (student.Sno =sc.Sno);

3.12、查询学生的得分情况。

hive>selectstudent.Sname,course.Cname,sc.Grade from student join sc on student.Sno=sc.Snojoin course on sc.cno=course.cno;

3.13、查询选修2号课程且成绩在90分以上的所有学生。

hive>select student.Sname,sc.Grade from student join sc on student.Sno=sc.Sno

where sc.Cno=2 and sc.Grade>90;

----LEFT，RIGHT 和 FULL OUTER JOIN ,inner join, left semi join

3.14、查询所有学生的信息，如果在成绩表中有成绩，则输出成绩表中的课程号

hive>select student.Sname,sc.Cno from student left outer join sc onstudent.Sno=sc.Sno;

如果student的sno值对应的sc在中没有值，则会输出student.Snamenull.如果用right out join会保留右边的值，左边的为null。

Join 发生在WHERE 子句之前。如果你想限制join 的输出，应该在 WHERE 子句中写过滤条件——或是在join 子句中写。

----LEFT SEMI JOIN：Hive 当前没有实现IN/EXISTS 子查询，可以用 LEFT SEMI JOIN 重写子查询语句

重写以下子查询为LEFT SEMI JOIN：

SELECT a.key, a.value FROM a WHERE a.key exist in (SELECTb.key FROM B);

可以被重写为：

SELECT a.key, a.val FROM a LEFT SEMI JOIN b on (a.key = b.key)

3.15、查询与“刘晨”在同一个系学习的学生：

hive>select s1.Sname from student s1 left semi join student s2 on s1.Sdept=s2.Sdeptand s2.Sname='刘晨';

注意比较：

select *

from student s1 left join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select *

from student s1 right join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select *

from student s1 inner join student s2 on s1.Sdept=s2.Sdept and s2.Sname='刘晨';

select *

from student s1 left semi join student s2 ons1.Sdept=s2.Sdept and s2.Sname='刘晨';

select s1.Sname

from student s1 right semi join student s2 ons1.Sdept=s2.Sdept and s2.Sname='刘晨';

以上为常用的HQL的基本语法，如有补充后续会继续跟进。

你可能感兴趣的:(hadoop,HIVE)

深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
hadoop 集群问题处理一切顺势而行 hadoop 大数据分布式
1.1.JournalNode的作用在HDFSHA配置中，为了实现两个NameNode之间的状态同步和故障自动切换，Hadoop使用了一组JournalNode来管理共享的编辑日志。具体来说，JournalNode的主要职责包括：共享编辑日志：JournalNode节点组成了一个分布式系统，用于存储HDFS的编辑日志（EditLogs）。这两个日志文件记录了对HDFS所做的所有更改，如文件创建、删
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
【Hadoop】onekey_install脚本菜萝卜子 Linux hadoop 大数据分布式
hosts[root@kafka01hadoop-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4.localdomain4::1localhostlocalhost.localdomainlocalhost6localhost6.localdomain6192.168.100.150k
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用 eagle_Annie 网络 linux tcp/ip
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用文章目录ROS1/Linux——linux虚拟机主ip地址：网络信息不可用参考亿点链接问题描述最终解决方案参考亿点链接Unabletofetchsomearchives,mayberunapt-getupdateortrywith–fix-missinglinux虚拟机主ip地址：网络信息不可用（没IP）【问题解决】VMWare虚拟
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {