Key-Key

大数据开发之Hive(查询、分区表和分桶表、函数)

第 6 章：查询

6.1 基本语法及执行顺序

1、查询语句语法

select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SORT BY col_list]]
[LIMIT number]

2、书写次序和执行次序

顺序	书写次序	书写次序说明	执行次序	执行次序说明
1	select	查询	from	先执行表与表直接的关系
2	from	先执行表与表直接的关系	on	先执行表与表直接的关系
3	join on	先执行表与表直接的关系	join	先执行表与表直接的关系
4	where	先执行表与表直接的关系	where	过滤
5	group by	分组	group by	分组
6	having	分组后再过滤	having	分组后再过滤
7	distribute by cluster by	4个by	select	查询
8	sort by	4个by	distinct	去重
9	order by	4个by	distribute by cluster by	4个by
10	limit	限制输出的行数	sort by	4个by
11	union/union all	合并	order by	4个by
12			limit	限制输出的行数
13			union/union all	合并

6.2 基本查询（Select…From）

6.2.1 全表和特定列查询

1、数据准备
分别创建部门和员工外部表，并向表中导入数据。
1）在/opt/module/hive/datas目录下编辑文件dept.txt，添加如下内容。

 vim dept.txt
10	行政部	1700
20	财务部	1800
30	教学部	1900
40	销售部	1700

2）在/opt/module/hive/datas目录下编辑文件emp.txt，添加如下内容。

vim emp.txt
7369	张三	研发	800.00	30
7499	李四	财务	1600.00	20
7521	王五	行政	1250.00	10
7566	赵六	销售	2975.00	40
7654	侯七	研发	1250.00	30
7698	马八	研发	2850.00	30
7782	金九	\N	2450.0	30
7788	银十	行政	3000.00	10
7839	小芳	销售	5000.00	40
7844	小明	销售	1500.00	40
7876	小李	行政	1100.00	10
7900	小元	讲师	950.00	30
7902	小海	行政	3000.00	10
7934	小红明	讲师	1300.00	30

3）上传数据到HDFS

dfs -mkdir /user/hive/warehouse/dept;
dfs -mkdir /user/hive/warehouse/emp;
dfs -put /opt/module/hive/datas/dept.txt /user/hive/warehouse/dept;
dfs -put /opt/module/hive/datas/emp.txt /user/hive/warehouse/emp;

4）建表语句，创建外部表
创建部门表dept

create external table if not exists dept(
deptno int,--部门编号
dname string, --部门名称
loc int --部门位置
)
row format delimited
fields terminated by '\t';

创建员工表

create external table if not exists emp(
empno int, --员工编号
ename string, --员工姓名
job string, --员工岗位（大数据工程师、前端工程师、java工程师）
sal double,--员工薪资
deptno int --部门编号
)
row format delimited fields terminated by '\t';

2、全表查询

select * from EMP;
select empno,ename,job,mgr,hiredate,sal,comm,deptno from emp ;

3、选定特定列查询

select empno, ename from emp;

注意：
1、SQL语言大小写不敏感
2、SQL可以写在一行或者多行
3、关键字不能被缩写也不能分行
4、各子句一般要分行写
5、使用缩进提高语句的可读性

6.2.2 列别名

紧跟列名，也可以在列名和别名之间加入关键字‘AS’
如：

select 
          ename AS name,
          deptno dn 
from emp;

6.2.3 常用函数（set hive.exec.mode.local.auto=true;本地模式）

1、求emp表的总行数（count）

select count(*) cnt from emp;

2、求emp表中工资的最大值

elect max(sal) max_sal from emp;

3、求emp表中工资的最小值

elect min(sal) min_sal from emp;

4、求emp表中工资的总和

elect sum(sal) sum_sal from emp;

5、求emp表中工资的平均值

select avg(sal) avg_sal from emp;

6.2.4 Limit语句

一般的查询会返回多行数据，在生产环境中，通常使用LIMIT子句用于限制返回的行数

select ename, sal from emp limit 5;
select ename, sal from emp limit 2,3;

6.2.5 Where语句

1、实例：查询出薪水大于1000的所有员工

select * from emp where sal > 1000;

6.2.6 比较运算符（Between/In/Is Null）

1、下面表中描述了谓词操作符，这些操作符同样可以用于JOIN…ON和HAVING语句中。

操作符	支持的数据类型	描述
A<=>B	基本数据类型	如果A和B都为NULL，则返回TRUE，如果以便为NULL，返回False
A RLIKE B	STRING类型	B是基于java的正则表达式，如果A与其匹配，则返回TRUE；反之返回FALSE。匹配使用的是

2、案例实操
1）查询出薪水等于5000的所有员工

select * from emp where sal =5000;
OK
emp.empno       emp.ename       emp.job emp.mgr emp.hiredate    emp.sal emp.comm        emp.deptno
7839    KING    PRESIDENT       NULL    1981-11-17      5000.0  NULL    10

2）查询工资在500到1000的员工信息

select * from emp where sal between 800 and 1100;
OK
emp.empno       emp.ename       emp.job emp.mgr emp.hiredate    emp.sal emp.comm        emp.deptno
7369    SMITH   CLERK   7902    1980-12-17      800.0   NULL    20
7876    ADAMS   CLERK   7788    1987-5-23       1100.0  NULL    20
7900    JAMES   CLERK   7698    1981-12-3       950.0   NULL    30

3）查询job为空的所有员工信息

select * from emp where job is null;
OK
emp.empno       emp.ename       emp.job emp.mgr emp.hiredate    emp.sal emp.comm        emp.deptno
7369    SMITH   CLERK   7902    1980-12-17      800.0   NULL    20
7566    JONES   MANAGER 7839    1981-4-2        2975.0  NULL    20
7698    BLAKE   MANAGER 7839    1981-5-1        2850.0  NULL    30

4）查询工资是1500或5000的员工信息

select * from emp where sal IN (1500, 5000);
OK
emp.empno       emp.ename       emp.job emp.mgr emp.hiredate    emp.sal emp.comm        emp.deptno
7839    KING    PRESIDENT       NULL    1981-11-17      5000.0  NULL    10
7844    TURNER  SALESMAN        7698    1981-9-8        1500.0  0.0     30

6.2.8 Like 和 RLike

1、like关键字：使用LIKE运算选择类似的值
2、选择条件可以包含字符或数字：
1）% -> 代表零个或多个字符
2）_ -> 代表一个字符
3、RLIKE关键字：RLIKE子句是Hive中这个功能的一个扩展，其可以通过java的正则表达式这个更加强大的语言来指定匹配条件。
1）$x -> 代表以x结尾
2）^x -> 代表以x开头
3）.* 任意数量字符
4）. 一个任意字符
5）*上一个字符可以无限次出现或者不出现
4、实例操作
1）查找名字以“小”开头的员工信息

select * from emp where ename LIKE '小%';
select * from emp where ename RLIKE '^小';

2）查找名字以“明”结尾的员工信息

select * from emp where ename LIKE '%明';
select * from emp where ename RLIKE '明$';

3）查找名字中带有“明”的员工信息

select * from emp where ename  LIKE '%明%';
select * from emp where ename  RLIKE '[明]';

6.3 排序

6.3.1 每个Reduce内部排序（Sort By）

1、Sort by：在每个Reduce内部进行排序，对全局结果集来说不是有序。sort by为每个reducer产生一个排序文件，每个Reducer内部进行排序，对全局结果来说不是排序。
2、通过命令设置reduce个数

set mapreduce.job.reduces=3;

3、案例实操：
1）根据部门编号降序查看员工信息

select * from emp sort by deptno desc;

2）将查询结果导入到文件中

insert overwrite local directory '/opt/module/hive/datas/sortby-result'
row format delimited fields terminated by '\t '
select * 
from emp 
sort by deptno desc;

6.3.2 分区（Distribute By）

1、Distribute By
在有些情况下，我们需要控制某个特定行应该在哪个reducer，通常时为了进行后续的聚集操作。distribute by可以实现。distribute by类似MR中的partition（自定义分区），进行分区，结合sort by 使用。
2、案例分析
1）先按照部门编号分区，再按照员工薪水降序排序

set mapreduce.job.reduces=3;
insert overwrite local directory '/opt/module/hive/datas/distribute-result'
row format delimited fields terminated by '\t'
select
       ename,
       empno,
       deptno,
       sal 
from emp 
distribute by deptno
sort by sal desc;

注意：

distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，余数相同的分到一起。
Hive要求DISTRIBUTE BY语句要写在SORT BY语句前面。

6.3.3 Cluster By

1、cluster by：
1）当distribute by和sort by字段相同时，可以使用cluster by方式。
2）cluster by除了具有distribute by的功能外还兼具sort by的功能。
2、案例：查询emp表中的员工信息，并按照部分编号分区排序。

select ename,empno,deptno,sal from emp cluster by deptno;
select ename,empno,deptno,sal from emp distribute by deptno sort by deptno;

第 7 章分区表和分桶表

我们创建一个hive表时，此时在hdfs上就在默认路径上创建了一个以表名字命名的文件夹。Hive表中的数据在hdfs上则是对应文件夹下的所有文件。在查询表中数据时，其实就是将文件下的所有文件进行读取，在海量数据的场景下，这无疑是非常耗时的，并且在实际生产环境中，往往会进行查询过滤。
所以，如何在海量数据的场景下进行高效的查询过滤呢？

7.1 分区表

1、分区表实际上就是对应一个HDFS文件系统上的独立的文件夹。
2、该文件夹下是该分区所有的数据文件。
3、Hive中的分区就是分目录，把一个大的数据集根据业务需求分割成小的数据集。
4、在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

7.1.1 分区表基本操作

1、需要根据日期对日志进行管理，通过部门信息模拟
2、创建分区表语法

create table dept_partition(
deptno int, --部门编号
dname string, --部门名称
loc string --部门位置
)
partitioned by (day string)
row format delimited fields terminated by '\t';

注意：分区字段不能是表中已经存在的数据，可以将分区字段看作表的伪列。
3、数据准备
为每个分区准备数据，我们根据日期对日志进行管理，通过部门信息模拟

vim dept_20200401.log
10	行政部	1700
20	财务部	1800 
vim dept_20200402.log
30	教学部	1900
40	销售部	1700
vim dept_20200403.log
50	运营部	2000
60	人事部	1900

4、案例：
1）向dept_partition表的分区加载数据

load data local inpath '/opt/module/hive/datas/dept_20200401.log' into table dept_partition partition(day='20200401'); 
load data local inpath '/opt/module/hive/datas/dept_20200402.log' into table dept_partition partition(day='20200402');
load data local inpath '/opt/module/hive/datas/dept_20200403.log' into table dept_partition partition(day='20200403');

注意：分区表加载数据时，必须指定分区

2）查询分区表中数据
单分区查询

select * from dept_partition where day='20200401';

多分区联合查询（union必走mr效率较低）

select * from dept_partition where day='20200401'
              union
              select * from dept_partition where day='20200402'
              union
              select * from dept_partition where day='20200403';
select * from dept_partition where day='20200401' or
                day='20200402' or day='20200403' ;

5、增加分区
1）添加单个分区

alter table dept_partition add partition(day='20200404') ;

2）同时添加多个分区

alter table dept_partition add partition(day='20200405') partition(day='20200406');

6、删除分区
1）删除单个分区

alter table dept_partition drop partition (day='20200406');

2）同时删除多个分区

alter table dept_partition drop partition (day='20200404'), partition(day='20200405');

7、查看分区表结构

desc formatted dept_partition;
# Partition Information          
# col_name              data_type               comment             
day                   string

7.1.2 二级分区

思考：在根据日期分区后，如果一天的日志数据量也很大，如何再将数据拆分？
1、创建二级分区表

create table dept_partition2(
       deptno int,
       dname string,
       loc string
)
partitioned by (day string, hour string)
row format delimited fields terminated by '\t';

2、加载数据
1）加载数据到二级分区表中

load data local inpath '/opt/module/hive/datas/dept_20200401.log' into table dept_partition2 partition(day='20200401', hour='11');

2）查找分区数据

select * from dept_partition2 where day='20200401' and hour='11';

3、让分区表和数据产生关联的三种方式
1）、方式一：上传数据后修复
（1）上传数据

 dfs -mkdir -p /user/hive/warehouse/dept_partition2/day=20200401/hour=12;
 dfs -put /opt/module/hive/datas/dept_20200402.log /user/hive/warehouse/dept_partition2/day=20200401/hour=12;

（2）查询数据（查询不到刚上传的数据）

select * from dept_partition2 where day='20200401' and hour='12';

（3）执行修复命令

msck repair table dept_partition2;

（4）再次查询数据

 select * from dept_partition2 where day='20200401' and hour='12';

2）方式二：上传数据后添加分区
（1）上传数据

dfs -mkdir -p /user/hive/warehouse/dept_partition2/day=20200401/hour=13;
dfs -put /opt/module/hive/datas/dept_20200403.log /user/hive/warehouse/dept_partition2/day=20200401/hour=13;

（2）执行添加分区

alter table dept_partition2 add partition(day='20200401',hour='13');

（3）查询数据

select * from dept_partition2 where day='20200401' and hour='14';

3）方式三：创建文件夹后load数据到分区
（1）创建目录

dfs -mkdir -p /user/hive/warehouse/mydb.db/dept_partition2/day=20200401/hour=14;

（2）上传数据

load data local inpath '/opt/module/hive/datas/dept_20200401.log' into table
 dept_partition2 partition(day='20200401',hour='14');

（3）查询数据

select * from dept_partition2 where day='20200401' and hour='14';

7.1.3 动态分区

引言：关系型数据库中，对分区表Insert数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中。Hive中也提供类似的操作，即动态分区（Dynamic Partition），只不过，使用Hive的动态分区，需要进行相应的配置。
1、开启动态分区参数设置
1）开启动态分区功能

set hive.exec.dynamic.partition=true;

2）设置非严格模式（动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区）

set hive.exec.dynamic.partition.mode=nonstrict

3）在所有执行MR的节点上，最大一共可以创建多少个动态分区。默认1000

set hive.exec.max.dynamic.partitions=1000;

4）在每个执行MR的节点上，最大可以创建多少个动态分区
该参数需要根据实际的数据来设定。比如，源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，如果使用默认100，则会报错。

set hive.exec.max.dynamic.partitions.pernode=100;

5）整个MR Job中，最大可以创建多少个HDFS文件。默认100000

set hive.exec.max.created.files=100000;

6）当有空分区生成时，是否抛出异常。一般不需要设置。默认false

set hive.error.on.empty.partition=false;

2、案例
需求：将dept表中的数据按照地区（loc字段），插入到目标表dept_partition_loc的相应分区中
1）创建部门地区分区表

create table dept_partition_dynamic(
       id int,
       name string
)
partitioned by (loc int)
row format delimited fields terminated by '\t';

2）以动态分区的方式向表中插入数据

insert into table dept_partition_loc partition(loc) select deptno, dname, loc from dept;
FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

set hive.exec.dynamic.partition.mode = nonstrict;

insert into table dept_partition_dynamic partition(loc) select deptno, dname, loc from dept;

3）查看目标分区表的分区情况

show partitions dept_partition;
OK
partition
loc=1700
loc=1800
loc=1900

7.2 分桶表

1、分桶表
对于一张表或分区，Hive可以进一步组织成桶，也就是更为细粒度的数据范围划分。分区针对的是数据的存储路径（细分文件夹）；分桶针对的是数据文件（按规则多文件放在一起）。
2、案例：创建分桶表
1）创建分桶表

create table stu_bucket(id int, name string)
clustered by(id) 
into 4 buckets
row format delimited fields terminated by '\t';

2）查看表结构

desc formatted stu_bucket;
Num Buckets:            4

注意：想要将表创建为4个桶，需要将hive中mapreduce.jog.reduces参数设置为>=4或设置为-1
3）导入数据到分桶表中

load data local inpath   '/opt/module/hive/datas/student.txt' into table stu_bucket;

4）查看创建的分桶表中是否分为4个桶

5）查询分桶的数据

select * from stu_bucket;

6）分桶规则
Hive的分桶采取对分桶字段的值进行哈希，然后除以桶的个数求余
7）分桶表操作需要注意的事项：
（1）mapreduce.job.reduces=-1，让Job自行决定需要用多少个reduce或者将reduce的个数设置为大于等于分桶表的数量。
（2）从hdfs中load数据到分桶表中，避免本地文件找不到问题
8）insert方式将数据导入分桶表

truncate table stu_bucket;（删除表内数据，不删表结构，因此只能删内表）
insert into table stu_bucket select * from student ;

第 8 章：函数

8.1 系统内置函数

1）查看系统自带的函数

show functions;

2）显示自带的函数的用法

desc function abs;

3）详细显示自带函数的用法

desc function extended abs;

8.2 常用内置函数

8.2.1 空字段赋值-NVL（防止空字段参与计算）

1、函数说明

desc function extended nvl;

2、解释

NVL	给值为NULL的数据赋值，它的格式是NVL（value,default_value）
功能	如果value为NULL，则NVL函数返回default_value的值，否则返回value的值。如果两个参数都为NULL，则返回NULL

3、案例
1、数据准备
采用员工表
2、查询
1）如果员工的comm为NULL，则用0代替

select ename,comm,nvl(comm, 0) comm_0 from emp;

2）如果员工的job为NULL，则用领导id代替

select ename, mgr,comm, nvl(job,mgr) comm_mgr from emp;

8.2.2 CASE WHEN ELSE END

1、案例
1）数据准备，在/opt/module/hive/datas目录下创建emp_sex.txt，添加如下内容

vim emp_sex.txt
悟空,A,男
大海,A,男
宋宋,B,男
凤姐,A,女
婷姐,B,女
婷婷,B,女

2）创建emp_sex表并导入数据

create table emp_sex(
name string, 
dept_id string, 
sex string
) 
row format delimited fields terminated by ",";

load data local inpath '/opt/module/hive/datas/emp_sex.txt' into table emp_sex;

3）需求：求出不同部门男女各多少人。结果如下

select 
  dept_id,
  sum(case sex when '男' then 1 else 0 end) man_num,
  sum(case sex when '女' then 1 else 0 end) woman_num
from 
  emp_sex
group by  dept_id;

8.2.3 行转列

1、相关函数说明
1）CONCAT(string A/col，string B/col…)

select concat('abc','def') from src limit 1;
'abcdef'

2）CONCAT_WS(separator,str1,str2,…)

select concat_ws('.','www',array('facebook','com')) from src limit 1;
'www.facebook.com'

3）COLLECT_SET(col)：去重汇总
4）COLLECT_LIST(col)：汇总
2、案例
1）需求：把星座和血型一样的人归类到一起。结果如下：

射手座,A            大海|凤姐
白羊座,A            孙悟空|猪八戒
白羊座,B            宋宋|苍老师

2）数据准备

vim person_info.txt
孙悟空,白羊座,A
大海,射手座,A
宋宋,白羊座,B
猪八戒,白羊座,A
凤姐,射手座,A
苍老师,白羊座,B

3）操作

create table person_info(
name string, 
constellation string, 
blood_type string
) 
row format delimited fields terminated by ",";

load data local inpath "/opt/module/hive/datas/person_info.txt" into table person_info;

按需求查询结果

SELECT
t1.c_b,
CONCAT_WS("|",collect_set(t1.name))
FROM (
SELECT
NAME ,
CONCAT_WS(',',constellation,blood_type) c_b
FROM person_info
)t1 
GROUP BY t1.c_b

8.2.4 列转行

1、函数说明
1）EXPLODE(col)：将hive表的一列中复杂的array或者map结构拆分成多行
2）SPLIT(string str,string regex)：按照reget字符串分割str，会返回分割后的字符串数组

 SELECT split('oneAtwoBthreeC', '[ABC]') FROM src LIMIT 1;
  ["one", "two", "three"]

3）LATERAL VIEW：对拆分后的数据进行聚合
2、案例
1）需求

《疑犯追踪》      悬疑
《疑犯追踪》      动作
《疑犯追踪》      科幻
《疑犯追踪》      剧情
《Lie to me》   悬疑
《Lie to me》   警匪
《Lie to me》   动作
《Lie to me》   心理
《Lie to me》   剧情
《战狼2》        战争
《战狼2》        动作
《战狼2》        灾难

2）原始数据

movie	category
《疑犯追踪》	悬疑,动作,科幻,剧情
《Lie to me》	悬疑,警匪,动作,心理,剧情
《战狼2》	战争,动作,灾难

3）操作

vim movie_info.txt
《疑犯追踪》	悬疑,动作,科幻,剧情
《Lie to me》	悬疑,警匪,动作,心理,剧情
《战狼2》	战争,动作,灾难

create table movie_info(
    movie string, 
    category string) 
row format delimited
fields terminated by "\t";

load data local inpath "/opt/module/hive/datas/movie_info.txt" into table movie_info;

4）按需求查询数据

SELECT movie,category_name 
FROM movie_info 
lateral VIEW
explode(split(category,",")) movie_info_tmp  AS category_name ;

8.2.5 窗口函数（开窗函数）

1、介绍
输入多行数据（一个窗口），为每行数据进行一次计算，返回一个值。灵活运用窗口函数可以解决如去重，排序等。

2、语法

Function (arg1 ...) over ([patition by arg1 ...] [order by arg1 ...] [<window_expression>])

Function	Over()	window_expression
支持的函数	指定分析函数工作的数据窗口大小，窗口会随着行的变化而变化	窗口边界的设置
聚合函数：sum()、max()等	partition by：表示将数据先按字段进行分区	n preceding : 向前n行 n following：向后n行 current row：当前行
排序函数：rank()、row_number()等	Order by：表示将各个分区内的数据按字段进行排序	unbounded preceding：从前面的起点开始 unbounded following：到后面的终点结束
统计比较函数：lead()、lag()等

3、数据准备
1）在/opt/module/hive/datas目录下创建business.txt，添加如下内容

vim business.txt
jack,2017-01-01,10
tony,2017-01-02,15
jack,2017-02-03,23
tony,2017-01-04,29
jack,2017-01-05,46
jack,2017-04-06,42
tony,2017-01-07,50
jack,2017-01-08,55
mart,2017-04-08,62
mart,2017-04-09,68
neil,2017-05-10,12
mart,2017-04-11,75
neil,2017-06-12,80
mart,2017-04-13,94

2）创建hive表并导入数据

create table business(
name string, 
orderdate string,
cost int
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

load data local inpath "/opt/module/hive/datas/business.txt" into table business;

4、实例
1）需求：查询在2017年4月份购买过的顾客，及总人数
（1）样例

name    consume_num
mart    2
jack    2

select 
name, 
count(name) over() 
from business 
where subString(orderdate,1,7) = '2017-04'
group by name;

2）需求：查询顾客的购买明细及月购买总额
（1）样例

name    orderdate       cost    month_sum
jack    2017-01-05      46      111
jack    2017-01-08      55      111
jack    2017-01-01      10      111
jack    2017-02-03      23      23
jack    2017-04-06      42      42

（2）分析
查询顾客的购买明细，即表中的所有的列，分别以name和orderdate分组，显然group by无法满足我们。这里我们用到over(partition by arg1)指定窗口函数的分区字段，在分区基础上进行窗口分析。
（3）案例

select 
name,
orderdate,
cost,
sum(cost) over(partition by name,month(orderdate)) 
from business;
OK
name    orderdate       cost    sum_window_0	
jack    2017-01-05      46      111
jack    2017-01-08      55      111
jack    2017-01-01      10      111
jack    2017-02-03      23      23
jack    2017-04-06      42      42
mart    2017-04-13      94      299
mart    2017-04-11      75      299
mart    2017-04-09      68      299
mart    2017-04-08      62      299
neil    2017-05-10      12      12
neil    2017-06-12      80      80
tony    2017-01-04      29      94
tony    2017-01-02      15      94
tony    2017-01-07      50      94

3）需求：将每个顾客的cost按照日期进行累加
计算表business的消费总额

select 
name,
orderdate,
cost, 
sum(cost) over() sample1 
from business;

计算每个人的销售总额
select
name,
orderdate,
cost,
sum(cost) over(partition by name) as sample2
from business;
计算每个人截至到当天的消费总额

select 
name,
orderdate,
cost,
sum(cost) over(partition by name order by orderdate) as sample3 from business;

计算每个人截至到今天的消费总额（另一种写法）

select 
name,
orderdate,
cost, 
sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and current row ) as sample4
from business;

计算每个人连续两天的消费总额

select 
name,
orderdate,
cost, 
sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and current row ) as sample5
from business;

计算每个人从当前天到最后一天的消费总额

select 
name,
orderdate,
cost,
sum(cost) over(partition by name order by orderdate rows between current row and UNBOUNDED FOLLOWING ) as sample6 from business;.

rows必须跟在Order by子句之后，对排序的结果进行限制，使用固定的行数来限制分区中的数量行数量。
4）需求：查看顾客上次的购买时间
（1）样例

name    orderdate       cost    last_time
jack    2017-01-01      10      (…………………)
jack    2017-01-05      46      2017-01-01
jack    2017-01-08      55      2017-01-05

（2）函数介绍

LAG (scalar_expression[,offset] [,default]) OVER ([query_partition_clause] order_by_clause);

解释：
Lag函数用于统计窗口内往上第n行值，参数scalar_pexpression为列名，参数offset为往上几行，参数default是设置的默认值（当往上第n行为NULL时，取默认值，否则就为NULL）
（3）案例代码

select
name,
orderdate,
cost,
lag(orderdate,1,'1900-01-01') over(partition by name order by orderdate ) as last_time
from business;
OK
name    orderdate       cost    last_time
jack    2017-01-01      10      1900-01-01
jack    2017-01-05      46      2017-01-01
jack    2017-01-08      55      2017-01-05
jack    2017-02-03      23      2017-01-08
jack    2017-04-06      42      2017-02-03
mart    2017-04-08      62      1900-01-01

5）需求：查询前20%时间的订单信息
（1）分析
当前表中总共有14行数据，前20%，就是大约前三行，你会觉得很简单，将数据orderdate字段排序取前三即可，但是表中数据量持续变化，前20%的数据是变化的，这里需要使用ntile函数。
（2）函数介绍
Ntile函数，为已排序的行，均分为指定数量的组，组号按顺序排列，返回组号，不支持rows between
（3）案例

select
t1.name,
t1.orderdate,
t1.cost
from (
select
name,
orderdate,
cost,
ntile(5) over(order by orderdate) sorted from business
) t1
where t1.sorted = 1;
OK
t.name  t.orderdate     t.cost
jack    2017-01-01      10
tony    2017-01-02      15
tony    2017-01-04      29

8.2.6 Rank

1、函数说明
1）RANK()：排序相同时会重复，总数不会变。重复的名次一样但是下一名名次会以前面人数+1来定
2）DENSE_RANK()：排序相同时会重复，总数会减少。就是若有重复则最后一名的名词不会和总数相等即并列
3）ROW_NUMBER()：会根据顺序计算，字段相同就按排头字段继续排
2、数据准备
1）数据

vim score.txt
孙悟空	语文	87
孙悟空	数学	95
孙悟空	英语	68
大海	语文	94
大海	数学	56
大海	英语	84
宋宋	语文	64
宋宋	数学	86
宋宋	英语	84
婷婷	语文	65
婷婷	数学	85
婷婷	英语	78

2）导入数据

create table score(
name string,
subject string, 
score int) 
row format delimited
fields terminated by "\t";

load data local inpath '/opt/module/hive/datas/score.txt' into table score;

3、需求：计算每门学科成绩排名

select name,
subject,
score,
rank() over(partition by subject order by score desc) rp,
dense_rank() over(partition by subject order by score desc) drp,
row_number() over(partition by subject order by score desc) rmp
from score;
OK
name    subject score   rp      drp     rmp
孙悟空  数学    95      1       1       1
宋宋    数学    86      2       2       2
婷婷    数学    85      3       3       3
大海    数学    56      4       4       4
宋宋    英语    84      1       1       1
大海    英语    84      1       1       2
婷婷    英语    78      3       2       3
孙悟空  英语    68      4       3       4
大海    语文    94      1       1       1
孙悟空  语文    87      2       2       2
婷婷    语文    65      3       3       3
宋宋    语文    64      4       4       4

8.3 自定义函数

1、内置函数：比如max/min等
2、根据用户自定义函数类别分为以下三种：
1）UDF：一进一出
2）UDAF：聚合函数，多进一出，类似：count/max/min
3）UDTF：炸裂函数，一进多出，类似：explode()
3、编程步骤
1）继承Hive提供的类
2）实现类中的抽象方法
3）在hive的命令行窗口创建函数
4、hive中引入自定义函数步骤
1）添加jar

add jar linux_jar_path

2）创建function

create [temporary] function [dbname.]function_name AS class_name;

3）在hive的命令行窗口删除函数

drop [temporary] function [if exists] [dbname.]function_name;

8.4 自定义UDF函数

1、需求：自定义一个UDF实现计算给定字符串的长度，例如：

select my_len("abcd");
ok
4

2、案例
1）创建Maven工程Hive
2）在工程项目的pom.xml文件中导入依赖
hive-exec
3）创建一个类

package com.atguigu.hive;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentLengthException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

/**
 * 自定义UDF函数，需要继承GenericUDF类
 * 需求: 计算指定字符串的长度
 */
public class MyStringLength extends GenericUDF {
    /**
     *
     * @param arguments 输入参数类型的鉴别器对象
     * @return 返回值类型的鉴别器对象
     * @throws UDFArgumentException
     */
    @Override
    public ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {
        // 判断输入参数的个数
        if(arguments.length !=1){
            throw new UDFArgumentLengthException("Input Args Length Error!!!");
        }
        // 判断输入参数的类型
        if(!arguments[0].getCategory().equals(ObjectInspector.Category.PRIMITIVE)){
            throw new UDFArgumentTypeException(0,"Input Args Type Error!!!");
        }
        //函数本身返回值为int，需要返回int类型的鉴别器对象
        return PrimitiveObjectInspectorFactory.javaIntObjectInspector;
    }

    /**
     * 函数的逻辑处理
     * @param arguments 输入的参数
     * @return 返回值
     * @throws HiveException
     */
    @Override
    public Object evaluate(DeferredObject[] arguments) throws HiveException {
       if(arguments[0].get() == null){
           return 0 ;
       }
       return arguments[0].get().toString().length();
    }

    @Override
    public String getDisplayString(String[] children) {
        return "";
    }
}

4）打包jar包上传到服务器/opt/module/hive/datas/myudf.jar
5）将jar包添加到hive的classpath

add jar /opt/module/hive/datas/myudf.jar;

8.5 创建临时函数

1、创建临时函数与开发好的java class关联

create temporary function my_len as "com.atguigu.hive. MyStringLength";

2、在hql中使用自定义的函数

select ename,my_len(ename) ename_len from emp;
OK
ename   _c1
fanfan  6
SMITH   5
ALLEN   5
WARD    4
JONES   5
MARTIN  6
BLAKE   5
CLARK   5
SCOTT   5
KING    4
TURNER  6
ADAMS   5
JAMES   5
FORD    4
MILLER  6

注意：临时函数只跟会话有关系，跟库没有关系，只有创建临时函数的会话不断，在当前会话下，任意一个库都可以使用，其他会话全部不能使用。

8.6 创建永久函数

注意：因为add jar 的方式本身也是临时生效，所以在创建永久函数的时候，需要执行路径

create function my_len2 
as "com.atguigu.hive.udf.MyUDF" 
using jar "hdfs://hadoop102:8020/udf/myudf.jar";

即可在hql中使用自定义的永久函数

select 
    ename,
    my_len2(ename) ename_len 
from emp;

删除永久函数

drop function my_len2;

注意：永久函数跟会话没有关系，创建函数的会话断了以后，其他会话也可以使用。

你可能感兴趣的:(大数据,hive,hadoop)

2024年最全Doris：读取Doris数据的N种方法_访问 doris，阿里大牛教你自己写大数据开发第三方库 2401_84181108 程序员大数据
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！arrow-memory-netty${arrow.v
Databricks 开源 LLM，训练只需三个小时唐城 AI-毕业设计全套 spring log4j postgresql 数据库 java
大数据分析公司DatabricksInc近日也加入了生成式AI领域的竞争之中，发布了一个名为Dolly的开源大型语言模型，将模型命名为Dolly是为了向第一只克隆羊多莉致敬。像ChatGPT和Bard这样的生成式AI，它们使用的数据通常来自于在成千上万不同网站，使用的数据量十分惊人，而且想要使用这些数据训练AI还需要数以千计的强大GPU在背后提供支持。Databricks希望通过开源Dolly及其
Paddle进阶实战系列（三）：基于SVTR算法的手写英文单词识别 GoAI 深入浅出OCR 深入浅出AI 计算机视觉 OCR paddle 深度学习人工智能
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️链接加群。专栏推荐：➡️
Ubuntu下Hadoop的安装与使用 ly201552y hadoop学习 hadoop
1、创建hadoop用户打开终端sudouseradd-mhadoop-s/bin/bashsudopasswdhadoop//为hadoop设置密码sudoadduserhadoopsudo//为hadoop用户增加管理员权限2、更新apt并安装vimsudoapt-getupdate3、安装SSH、配置SSH无密码登陆集群、单节点模式都需要用到SSH登陆，Ubuntu默认已安装了SSHclie
【数据仓库】hadoop web UI 增加账号密码认证花菜回锅肉大数据数据仓库数据仓库 hadoop
升级了hadoop版本到3.3.6,未配置任何鉴权，默认端口98708088开放到了公网，结果没几天就被挖矿攻击了。通过开放的端口提交了很多非法任务到yarn上，并成功在服务器执行了恶意脚本。这次是真实真切的感受了，网络环境的险恶，以前仅仅是别人的案例来提高自己的安全意识，这次完完全全是自己的真实案例，让自己对网络完全有的更深切的认知。在研究了hadoop官方提供的安全方案后，发现是懵的，要么配置
Hadoop3.2.1安装-单机模式和伪分布式模式花菜回锅肉大数据 hadoop hdfs 大数据 linux
Hadoop入门篇概述Hadoop是使用Java编写的，是为了解决大数据场景下的两大问题，分布式存储和分布式处理而诞生的，包含很多组件、套件。需要运行在Linux系统下。主要包括HDFS和MapReduce两个组件。下载安装下载下载地址https://archive.apache.org/dist/hadoop/common/选择合适自己的tar.gz版本下载,该文档选择V3.2.1。Hadoop
Spark3.1.2单机安装部署花菜回锅肉大数据 spark 大数据 hadoop
spark3.1.2单机安装部署概述Spark是一个性能优异的集群计算框架，广泛应用于大数据领域。类似Hadoop，但对Hadoop做了优化，计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代运算的算法场景中。Spark专注于数据的处理分析，而数据的存储还是要借助于Hadoop分布式文件系统HDFS等来实现。大数据问题场景包含以下三种：复杂的批量数据处理基于历史数据的交
Flink Standalone集群模式安装部署全攻略自节码 java 面试开发语言 flink 大数据
FlinkStandalone集群模式安装部署全攻略一、引言Flink作为一款强大的分布式流处理和批处理框架，在大数据领域有着广泛的应用。本文将详细介绍FlinkStandalone集群模式的安装部署过程，帮助大家快速搭建起开发测试环境。二、安装前准备首先，确保已经安装好了Hadoop环境（因为后续配置中涉及到与Hadoop的集成）。三、安装步骤（一）环境准备退出conda的base环境（如果存在
为什么尽量避免使用 `IN` 和 `NOT IN`？数据库数据库性能优化后端
为什么尽量避免使用IN和NOTIN？前言在SQL查询中，IN和NOTIN是常用的关键字，用于筛选符合条件的数据。然而，尽管它们使用方便，但在某些情况下，使用它们可能会导致效率低下或查询结果不准确。本文将从效率和潜在问题两个角度，深入探讨为什么应尽量避免使用IN和NOTIN，并提供替代方案。一、效率问题1.NOTIN的性能瓶颈在SQL查询中，NOTIN往往会导致性能问题，尤其是在处理大数据集时。以下
Elasticsearch集群架构：构建高效、可扩展的搜索平台 detayun Elasticsearch elasticsearch 架构大数据
在当今大数据和云计算的时代，高效、实时的数据检索能力成为了企业核心竞争力的重要组成部分。Elasticsearch，作为一款基于Lucene构建的开源搜索引擎，以其强大的全文搜索能力、灵活的扩展性和丰富的功能特性，成为了众多企业首选的数据搜索和分析平台。本文将深入探讨Elasticsearch集群的架构设计，帮助您更好地理解和构建高效、可扩展的搜索解决方案。一、Elasticsearch简介Ela
随机森林（Random Forest）预测模型及其特征分析（Python和MATLAB实现）追蜻蜓追累了深度学习机器学习 python 随机森林大数据回归算法算法
##一、背景在大数据和机器学习的快速发展时代，数据的处理和分析变得尤为重要。随着多个领域积累了海量数据，传统的统计分析方法常常无法满足复杂问题的需求。在这种背景下，机器学习方法开始广泛应用。随机森林（RandomForest）作为一种强大的集成学习方法，因其高效性和较强的泛化能力而备受关注。随机森林最初由LeoBreiman在2001年提出，基于决策树这一基本分类模型。其基本思想是通过构建多个决策
【Python】报错： ERROR: Cannot unpack file C:和Cannot determine archive format of C: Uniquerose python 开发语言
这里举pandas为例，直接在cmd中安装的话很慢pipinstallpandas然后用清华镜像安装开始报错pipinstallihttps://pypi.tuna.tsinghua.edu.cn/simplepandas随后一直搜索寻找解决方法看到说加一个信任此网站就行，pipinstallihttps://pypi.tuna.tsinghua.edu.cn/simple--trusted-ho
大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）小Tomkk 大数据大数据数据挖掘首席数据官数据合规师数据安全数据科学家
大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）文章目录大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）1.数据挖掘工程师（DataMiningEngineer）2.数据安全工程师（DataSecurityEngineer）3.数据合规师（DataComplianceOfficer）4.首席数据官（CDO-ChiefDataOffic
流媒体娱乐服务平台在AWS上使用Presto作为大数据的交互式查询引擎的具体流程和代码 weixin_30777913 aws 大数据 python 音视频
一家流媒体娱乐服务平台拥有庞大的用户群体和海量的数据。为了高效处理和分析这些数据，它选择了Presto作为其在AWSEMR上的大数据查询引擎。在AWSEMR上使用Presto取得了显著的成果和收获。这些成果不仅提升了数据查询效率，降低了运维成本，还促进了业务的创新与发展。实施过程：Presto集群部署：在AWSEMR上部署了Presto集群，该集群与HiveMetastore和AmazonS3集成
ORACLE数据库的OGG日志苦苦挣扎的小码农数据库 oracle
若要使用OGG,ORACLE必须开启归档模式,可以理解为设置ORACLE的REDOLOG落地,这样才能让OGG拿到所需的日志信息.1.查询数据库是否处于归档模式,如果处于归档模式,则返回结果ARCHIVELOGSQL>selectlog_modefromv$database;2.如果不处于归档模式，则要开启归档$>sqlplus/nologSQL>conn/assysdbaSQL>shutdown
算法基础——一致性黄雪超大数据基础 #算法基础大数据算法一致性
引入最早研究一致性的场景既不是大数据领域，也不是分布式系统，而是多路处理器。可以将多路处理器理解为单机计算机系统内部的分布式场景，它有多个执行单元，每一个执行单元都有自己的存储(缓存)，一个执行单元修改了自己存储中的一个数据后，这个数据在其他执行单元里面的副本就面临数据一致的问题。随着时代发展，互联网公司的快速发展，单机系统在计算和存储方面都开始面临瓶颈，分布式是一个必然的选择，但是这也进一步放大
大数据（一）MaxCompute 胖当当技术架构云计算 odps 学习大数据
一、引言作者后面会使用MaxCompute，所以在进行学习研究，总会有一些疑问产生，这里讲讲作者的疑问和思路二、介绍MaxCompute（原名ODPS-OpenDataProcessingService）是阿里云提供的大数据处理平台，专门用于批量数据存储和大规模并行计算。它广泛应用于数据分析和处理任务，为企业级数据处理提供高效的解决方案。下面是MaxCompute的一些主要功能和应用场景：大规模数
hive怎么处理过滤掉满足多个多个条件的记录_Hive基础面试题总结 weixin_39761422
点击关注上方“知了小巷”，设为“置顶或星标”，第一时间送达干货。1.描述一下Hive动态分区和分桶使用场景和使用方法分区按照数据表的某列或某些列分为多个分区，分区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区
Hive面试重点未来影子面试 hive hive 面试 big data
文章目录Hive介绍Hive架构（重点）Hive内外部表（重点）Hive建表语句Hive数据倾斜以及解决方案（重点）Hive的自定义函数Hive的sortby、distributeby、cluserby、orderby区别Hive分区和分桶的区别HQL转化为MR的过程Hive的存储引擎和计算引擎1、计算引擎2、存储引擎Join的操作原理1、CommonJoin2、MapJoin3、SMBJoinH
猫眼大数据开发面试题及参考答案大模型大数据攻城狮数据仓库大数据数据开发窗口函数 hive外部表维度建模数仓分层
Java基本数据类型有哪些？包装类型又是什么？Java的基本数据类型是Java语言中最基础的数据类型，它们用于存储简单的值。Java的基本数据类型主要分为以下几类：整型byte：占1个字节，取值范围是-128到127，通常用于节省内存的场景，比如处理文件或网络数据时，存储一些小的整数值。short：占2个字节，取值范围是-32768到32767，使用场景相对较少，但在某些需要节省内存且数值范围不大
Hive重点面试题 Major Tom _ hive hadoop 数据仓库
文章目录Hive面试重点题目及答案1.Hive的优缺点及使用场景2.Hive与数据仓库的区别3.Hive的基本架构与元数据存储4.Hive内外部表的区别及适用场景5.Hive数据倾斜原因与解决方法6.HiveMapReduce的底层实现与优化方式7.Hive窗口函数的使用场景8.Hive分区与分桶的区别9.Hive的存储格式10.Hive计算引擎（MapReduce,Tez,Spark）的对比Hi
基于Java的智能家居设计：探讨Java在智能家居大数据处理中的角色杭州大厂Java程序媛计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
基于Java的智能家居设计：探讨Java在智能家居大数据处理中的角色关键词：智能家居,Java,大数据处理,机器学习,物联网1.背景介绍1.1问题由来随着物联网技术的发展，智能家居已经从一个概念转变为现实。通过连接各种家庭设备，智能家居系统能够实现自动化控制、远程监控、个性化服务等功能。然而，这些功能背后隐藏着一个庞大的数据处理和管理系统，即大数据处理系统。这些系统需要高效、可靠的计算平台，而Ja
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）小Tomkk 大数据大数据数据治理数据库管理员数据资产管理师数据质量专员
大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）文章目录大数据相关职位介绍之二（数据治理，数据库管理员，数据资产管理师，数据质量专员）数据治理工程师/专家（DataGovernanceEngineer/Expert）1.元数据管理师（MetadataManager）2.主数据管理师（MasterDataManager）数据库管理员（DBA-DatabaseAdmini
如何在Java中调用Python 梦想画家 #python java8~9核心功能 java python jython
Python语言有丰富的系统管理、数据处理、统计类软件包，因此从java应用中调用Python代码的需求很常见、实用。DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。Datax也是通过Java调用Python脚本。本文介绍几种方法从java调用Py
Oracle 分区在什么情况下使用？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
Oracle分区的适用场景Oracle分区（Partitioning）是一种强大的数据管理工具，适用于特定类型的数据库工作负载和数据结构。以下是一些适合使用分区的情况：1.大型表优化超大数据量：当表包含数百万甚至数十亿行时，分区可以帮助提高查询性能。频繁更新：对于经常被插入、更新或删除的数据，分区可以减少锁定范围，提高并发性。2.数据仓库历史数据分析：在数据仓库中，通常会存储多年的历史数据。通过按
Hive修复分区码农小旋风后端
Hive修复分区简介Hive的MSCKREPAIRTABLE命令用于修复（即添加丢失的）表分区。通常用于那些已在HDFS中存在，但尚未在Hive元数据中注册的分区。当你在HDFS文件系统中手动添加或删除分区目录，Hive并不会自动识别这些更改。为同步元数据与实际文件系统之间的状态，可用命令：MSCK REPAIR TABLE table_name;较老Hive版本，用旧命令：ALTER TABLE
hive分区和分桶详解 CodeShelby hive 大数据 hive
1、分区表分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。1）分区表基本操作（1）引入分区表（需要根据日期对日志进行管理,通过部门信息模拟）dept_20200401.logdept_2020
Qt | windows Qt6.5.3安装&安卓环境搭建&虚拟机调试和真机调试完美版(保姆级教程) Qt历险记 Qt 高级开发工程师 qt windows android Qt安卓 Qt6.5.3安装
Qt安卓发布的手机01、第一章Qt6.5.3安装资源运行成功的界面全网最全Qt国内下载地址清华大学开源软件镜像站https://mirrors.tuna.tsinghua.edu.cn/qt/archive/online_installers/
Hive 分区和分桶总结 Stray_Lambs 大数据 hive
目录分区和分桶总结1、分区1、分区介绍2、分区表的操作3、动态分区2、分桶表1、分桶表介绍2、分桶表的操作3、分区表和分桶表的区别参考分区和分桶总结1、分区1、分区介绍由于数据量过于庞大，使用分区，可以并行的进行处理数据，有点类似于Hadoop当中的切片操作，将数据分开，然后并行去处理，避免去全表扫描。分区表在生产环境当中用的非常多。分区表实际上就是对应一个在HDFS(或者是其他分布式文件系统)文
【博学谷学习记录】超强总结，用心分享 | Hive分区表和分桶表 Onzswhite hive 大数据 hadoop
#博学谷IT技术支持#一、分区表分区表就是对一个表的文件数据进行分类管理，表现形式就是有很多的文件夹(dt=2019-02-27)。分区表的作用是以后查询时，我们可以手动指定对应分区的数据，避免全表扫描，提高查询效率。所谓的分区表，指的就是将数据按照表中的某一个字段进行统一归类，并存储在表中的不同的位置，也就是说，一个分区就是一类，这一类的数据对应到hdfs存储上就是对应一个目录。当我们需要进行处
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb