see you in September

20200604大数据Hive笔记二

分桶表：
感觉没怎么用到，有兴趣自己查下

修改表结构

[重命名:]()

alter table old_table_name rename to new_table_name;

把表score4修改成score5

```sql
alter table score4 rename to score5;
```

- 查询表结构

```sql
desc score5;
```

- 添加列

```sql
alter table score5 add columns (mycol string, mysco int);
```

- 更新列

```sql
alter table score5 change column mysco mysconew int;
```

+ 删除表

```sql
drop table score5;
```

查询语法：
创建跟删除这些事应该都轮不到你，你能做的就是查询==

SELECT

```sql
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list [HAVING condition]]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]
]
[LIMIT number]
```

1. order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。
2. sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
3. distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。
4. cluster by(字段) 除了具有distribute by的功能外，还会对该字段进行排序.

因此，如果distribute 和sort字段是同一个时，此时，`cluster by = distribute by + sort by`

[全表查询]()

```sql
select * from score;
```

select s_id ,c_id from score;

[列别名]()

1）重命名一个列。
2）便于计算。
3）紧跟列名，也可以在列名和别名之间加入关键字‘AS’

```sql
select s_id as myid ,c_id from score;
```

常用函数

建议：学习的时候使用本地模式，不然等太久了
set hive.exec.mode.local.auto=true;
- 求总行数（count）

```sql
select count(1) from score;
```

- 求分数的最大值（max）

```sql
select max(s_score) from score;
```

- 求分数的最小值（min）

```sql
select min(s_score) from score;
```

- 求分数的总和（sum）

```sql
select sum(s_score) from score;
```

- 求分数的平均值（avg）

```sql
select avg(s_score) from score;
```

### 4.4. LIMIT语句

典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。

```sql
select * from score limit 3;
```

### 4.5. WHERE语句

1. 使用WHERE 子句，将不满足条件的行过滤掉。
2. WHERE 子句紧随 FROM 子句。
3. 案例实操

查询出分数大于60的数据

```sql
select * from score where s_score > 60;

[比较运算符]():不用刻意记，用多了就好

- 查询分数等于80的所有的数据

```sql
select * from score where s_score = 80;
```

- 查询分数在80到100的所有数据

```sql
select * from score where s_score between 80 and 100;
```

- 查询成绩为空的所有数据

```sql
select * from score where s_score is null;
```

- 查询成绩是80和90的数据

```sql
select * from score where s_score in(80,90);

### 4.6. LIKE 和 RLIKE

1. 使用LIKE运算选择类似的值
2. 选择条件可以包含字符或数字:

```text
% 代表零个或多个字符(任意个字符)。
_ 代表一个字符。
```

1. RLIKE子句是Hive中这个功能的一个扩展，其可以通过Java的正则表达式这个更强大的语言来指定匹配条件。

2. 案例实操

1. 查找以8开头的所有成绩

```sql
select * from score where s_score like '8%';
```

1. 查找第二个数值为9的所有成绩数据

```sql
select * from score where s_score like '_9%';
```

1. 查找s_id中含1的数据

```sql
select * from score where s_id rlike '[1]'; # like '%1%'

4.7. 逻辑运算符

- 查询成绩大于80，并且s_id是01的数据

```sql
select * from score where s_score >80 and s_id = '01';
```

- 查询成绩大于80，或者s_id 是01的数

```sql
select * from score where s_score > 80 or s_id = '01';
```

- 查询s_id 不是 01和02的学生

```sql
select * from score where s_id not in ('01','02');
```

分组

#### GROUP BY 语句

GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组，然后对每个组执行聚合操作。
案例实操：

- 计算每个学生的平均分数

```sql
select s_id ,avg(s_score) from score group by s_id;
```

- 计算每个学生最高成绩

```sql
select s_id ,max(s_score) from score group by s_id;
```

#### HAVING 语句

1. having与where不同点

1. where针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。
2. where后面不能写分组函数，而having后面可以使用分组函数。
3. having只用于group by分组统计语句。

2. 案例实操：

- 求每个学生的平均分数

```sql
select s_id ,avg(s_score) from score group by s_id;
```

- 求每个学生平均分数大于85的人

```sql
select s_id ,avg(s_score) avgscore from score group by s_id having avgscore > 85;
```

JOIN 语句

Hive支持通常的SQL JOIN语句，但是只支持等值连接，不支持非等值连接。

案例操作: 查询分数对应的姓名

```sql
select s.s_id,s.s_score,stu.s_name,stu.s_birth from score s join student stu on s.s_id = stu.s_id;
``

#### 4.9.2. 表的别名

- 好处

- 使用别名可以简化查询。
- 使用表名前缀可以提高执行效率。

- 案例实操

- 合并老师与课程表

```sql
select * from techer t join course c on t.t_id = c.t_id;
```
#### 4.9.3. 内连接

内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。

```sql
select * from techer t inner join course c on t.t_id = c.t_id;
```

#### 4.9.4. 左外连接

左外连接：JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。
查询老师对应的课程

```sql
select * from techer t left join course c on t.t_id = c.t_id;
```

#### 4.9.5. 右外连接

右外连接：JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。

```sql
select * from teacher t right join course c on t.t_id = c.t_id;
```

#### 4.9.6. 多表连接

注意：连接 n个表，至少需要n-1个连接条件。例如：连接三个表，至少需要两个连接条件。

多表连接查询，查询老师对应的课程，以及对应的分数，对应的学生

```sql
select * from teacher t
left join course c
on t.t_id = c.t_id
left join score s
on s.c_id = c.c_id
left join student stu
on s.s_id = stu.s_id;
```

大多数情况下，Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表techer和表course进行连接操作，然后会再启动一个MapReduce job将第一个MapReduce job的输出和表score;进行连接操作。

全局排序

Order By：全局排序，一个reduce

1. 使用 ORDER BY 子句排序
ASC（ascend）: 升序（默认）
DESC（descend）: 降序

2. ORDER BY 子句在SELECT语句的结尾。

3. 案例实操

1. 查询学生的成绩，并按照分数降序排列

```sql
SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score DESC;
```

1. 查询学生的成绩，并按照分数升序排列

```sql
SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score asc;
```

#### 4.10.2. 按照别名排序

按照分数的平均值排序

```sql
select s_id ,avg(s_score) avg from score group by s_id order by avg;
```

#### 4.10.3. 多个列排序

按照学生id和平均成绩进行排序

```sql
select s_id ,avg(s_score) avg from score group by s_id order by s_id,avg;
```

#### 4.10.4. 每个MapReduce内部排序（Sort By）局部排序

Sort By：每个MapReduce内部进行排序，对全局结果集来说不是排序。

1. 设置reduce个数

```sql
set mapreduce.job.reduces=3;
```

1. 查看设置reduce个数

```sql
set mapreduce.job.reduces;
```

1. 查询成绩按照成绩降序排列

```sql
select * from score sort by s_score;
```

1. 将查询结果导入到文件中（按照成绩降序排列）

```sql
insert overwrite local directory '/export/servers/hivedatas/sort' select * from score sort by s_score;
```

#### 4.10.5. 分区排序（DISTRIBUTE BY）

Distribute By：类似MR中partition，进行分区，结合sort by使用。

注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实操：先按照学生id进行分区，再按照学生成绩进行排序。

1. 设置reduce的个数，将我们对应的s_id划分到对应的reduce当中去

```sql
set mapreduce.job.reduces=7;
```

1. 通过distribute by 进行数据的分区

```sql
insert overwrite local directory '/home/hadoop/data/sort' select * from score distribute by s_id sort by s_score;
```

#### 4.10.6. CLUSTER BY

当distribute by和sort by字段相同时，可以使用cluster by方式。

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒序排序，不能指定排序规则为ASC或者DESC。

以下两种写法等价

```sql
select * from score cluster by s_id;
select * from score distribute by s_id sort by s_id;

窗口函数:

over()
重点！我不是特别会

1、over()窗口函数的语法结构

分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)

over()函数中包括三个函数：包括分区partition by 列名、排序order by 列名、指定窗口范围rows between 开始位置 and 结束位置。我们在使用over()窗口函数时，over()函数中的这三个函数可组合使用也可以不使用。

over()函数中如果不使用这三个函数，窗口大小是针对查询产生的所有数据，如果指定了分区，窗口大小是针对每个分区的数据。

找到的有关28道题:链接出处：
https://www.jianshu.com/p/3f3cf58472ca

1、使用 over() 函数进行数据统计, 统计每个用户及表中数据的总数
2、求用户明细并统计每天的用户总数
3、计算从第一天到现在的所有 score 大于80分的用户总数
4、计算每个用户到当前日期分数大于80的天数

vi test_window.txt

20191020,11111,85
20191020,22222,83
20191020,33333,86
20191021,11111,87
20191021,22222,65
20191021,33333,98
20191022,11111,67
20191022,22222,34
20191022,33333,88
20191023,11111,99
20191023,22222,33

create table test_window
(logday string,
userid string,
score int)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

#加载数据
load data local inpath '/home/hadoop/data/test_window.txt' into table test_window;

NOTE:
PRECEDING：往前
FOLLOWING：往后
CURRENT ROW：当前行
UNBOUNDED：起点（一般结合PRECEDING，FOLLOWING使用）
UNBOUNDED PRECEDING 表示该窗口最前面的行（起点）
UNBOUNDED FOLLOWING：表示该窗口最后面的行（终点）
比如说：
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行）
ROWS BETWEEN 2 PRECEDING AND 1 FOLLOWING（表示往前2行到往后1行）
ROWS BETWEEN 2 PRECEDING AND 1 CURRENT ROW（表示往前2行到当前行）
ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING（表示当前行到终点）

1、使用 over() 函数进行数据统计, 统计每个用户及表中数据的总数

select *, count(1) over() as total from test_window;

这里使用 over() 与 select count(*) 有相同的作用，好处就是，在需要计算总数时不用再进行一次关联。

2、求用户明细并统计每天的用户总数
可以使用 partition by 按日期列对数据进行分区处理，如：over(partition by logday)

select *, count(1) over(partition by logday) as day_total from test_window;

3、计算从第一天到现在的所有 score 大于80分的用户总数

select *,count(1)over(order by logday rows between unbounded preceding and current row)as total
from test_window
where score > 80;

4、计算每个用户到当前日期分数大于80的天数

select *,
count(1)over(partition by userid order by logday rows between unbounded preceding and current row) as total
from test_window
where score > 80 order by logday, userid;

第二套练习：

1、查询在2017年4月份购买过的顾客及总人数
2、查询顾客的购买明细及月购买总额
3、查询顾客的购买明细及到目前为止每个顾客购买总金额
4、查询顾客上次的购买时间----lag()over()偏移量分析函数的运用
5、查询前20%时间的订单信息

jack,2017-01-01,10
tony,2017-01-02,15
jack,2017-02-03,23
tony,2017-01-04,29
jack,2017-01-05,46
jack,2017-04-06,42
tony,2017-01-07,50
jack,2017-01-08,55
mart,2017-04-08,62
mart,2017-04-09,68
neil,2017-05-10,12
mart,2017-04-11,75
neil,2017-06-12,80
mart,2017-04-13,94

create table business
(
name string,
orderdate string,
cost int
)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

load data local inpath "/home/hadoop/data/business.txt" into table business;

1、查询在2017年4月份购买过的顾客及总人数
分析：按照日期过滤、分组count求总人数(分组为什么不是用group by？自己思考)

select *,count(1)over() as total from business
where substr(orderdate,1,7) = '2017-04';

2、查询顾客的购买明细及月购买总额
是计算每月每个用户的消费金额

select
*,
sum(cost) over(partition by name,substr(orderdate,1,7)) total_amount
from
business;

3、查询顾客的购买明细及到目前为止每个顾客购买总金额
分析：按照顾客分组、日期升序排序、组内每条数据将之前的金额累加

select
*,
sum(cost) over(partition by name order by orderdate
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) total_amount
from
business;

4、查询顾客上次的购买时间----lag()over()偏移量分析函数的运用

lag()over()偏移量分析函数的运用

select
name,
orderdate,
cost,
lag(orderdate,1) over(partition by name order by orderdate) last_date
from
business;

5、查询前20%时间的订单信息
select *
from
(select *,
ntile(5)over(order by cost)sortgroup_num from business)t
where t.sortgroup_num = 1;

第三套练习：

1、每门学科学生成绩排名(是否并列排名、空位排名三种实现)
2、每门学科成绩排名top n的学生

vi grade.txt
孙悟空   语文   87
孙悟空   数学   95
孙悟空   英语   68
大海   语文   94
大海   数学   56
大海   英语   84
宋宋   语文   64
宋宋   数学   86
宋宋   英语   84
婷婷   语文   65
婷婷   数学   85
婷婷   英语   78

create table grade
(
name string,
subject string,
score int
) row format delimited fields terminated by "\t";

#加载数据
load data local inpath '/home/hadoop/data/grade.txt' into table grade;

1、每门学科学生成绩排名(是否并列排名、空位排名三种实现)
select *,
row_number()over(partition by subject order by score desc),
rank()over(partition by subject order by score desc),
dense_rank()over(partition by subject order by score desc)
from grade;

2、每门学科成绩排名top n的学生

select
*
from
(
select
*,
row_number() over(partition by subject order by score desc) rmp
from grade
) t
where t.rmp<=1;

=================================================
接着练习别的

创建部门表
create external table if not exists guigu.dept( deptno int,
dname string,
loc int
)
row format delimited fields terminated by '\t';

创建员工表
create external table if not exists guigu.emp( empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by '\t';

load data local inpath '/home/hadoop/data/dept.txt' into table guigu.dept;

load data local inpath '/home/hadoop/data/emp.txt' into table guigu.emp;

create table dept_partition( deptno int, dname string, loc string
)
partitioned by (month string)
row format delimited fields terminated by '\t';

load data local inpath '/home/hadoop/data/dept.txt' into table guigu.dept_partition partition(month='201709');

load data local inpath '/home/hadoop/data/dept.txt' into table guigu.dept_partition partition(month='201708');

load data local inpath '/home/hadoop/data/dept.txt' into table guigu.dept_partition partition(month='201707');

跟前面的基础操作类似:
select count(*) cnt from emp;

select max(sal) max_sal from emp;

select min(sal) min_sal from emp;

select sum(sal) sum_sal from emp;

select avg(sal) avg_sal from emp;

Group By 语句

计算 emp 表每个部门的平均工资
select t.deptno, avg(t.sal) avg_sal from emp t group by t.deptno;

计算 emp 每个部门中每个岗位的最高薪水
select t.deptno, t.job, max(t.sal) max_sal from emp t group by
t.deptno, t.job;

2.案例实操 (1)求每个部门的平均薪水大于 2000 的部门
求每个部门的平均工资
select deptno, avg(sal) from emp group by deptno;

求每个部门的平均薪水大于 2000 的部门

select deptno, avg(sal) avg_sal from emp group by deptno having
avg_sal > 2000;

根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门名称
select e.empno, e.ename, d.deptno, d.dname from emp e join dept d
on e.deptno = d.deptno;

合并员工表和部门表

select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno
= d.deptno;

select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno
= d.deptno order by d.deptno;

左外连接
左外连接:JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。
select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;

vi location.txt

1700   Beijing
1800   London
1900   Tokyo

create table if not exists guigu.location( loc int,
loc_name string
)
row format delimited fields terminated by '\t';

load data local inpath '/home/hadoop/data/location.txt' into table guigu.location;

SELECT e.ename, d.dname, l.loc_name
FROM emp e
JOIN dept d
ON d.deptno = e.deptno
JOIN location l
ON d.loc = l.loc;

查询员工信息按工资升序排列

select * from emp order by sal;

查询员工信息按工资降序排列

select * from emp order by sal desc;

select ename, sal*2 twosal from emp order by twosal;

select ename, deptno, sal from emp order by deptno, sal ;

vi emp_sex.txt

悟空   A   男
大海   A   男
宋宋   B   男
凤姐   A   女
婷姐   B   女
婷婷   B   女

create table emp_sex(
name string,
dept_id string,
sex string)
row format delimited fields terminated by "\t";

load data local inpath '/home/hadoop/data/emp_sex.txt' into table emp_sex;

select
dept_id,
sum(case sex when '男' then 1 else 0 end) male_count,
sum(case sex when '女' then 1 else 0 end) female_count
from
emp_sex
group by
dept_id;

vi movie.txt
《疑犯追踪》   悬疑,动作,科幻,剧情
《Lie to me》   悬疑,警匪,动作,心理,剧情
《战狼2》   战争,动作,灾难

create table movie_info(
movie string,
category array)
row format delimited fields terminated by "\t"
collection items terminated by ",";

load data local inpath "/home/hadoop/data/movie.txt" into table movie_info;

select
movie,
category_name
from
movie_info lateral view explode(category) table_tmp as category_name;

把上面的business.txt 数据再用一次

load data local inpath "/home/hadoop/data/business.txt" into table business;

（1）查询在2017年4月份购买过的顾客及总人数

select name,count(*) over ()
from business
where substring(orderdate,1,7) = '2017-04'
group by name;

（2）查询顾客的购买明细及月购买总额

select name,orderdate,cost,sum(cost) over(partition by month(orderdate)) from
business;

（4）查看顾客上次的购买时间
select name,orderdate,cost,
lag(orderdate,1,'1900-01-01') over(partition by name order by orderdate ) as time1, lag(orderdate,2) over (partition by name order by orderdate) as time2
from business;

（5）查询前20%时间的订单信息

select * from (
select name,orderdate,cost, ntile(5) over(order by orderdate) sorted
from business
) t
where sorted = 1;

vi score.txt

孙悟空   语文   87
孙悟空   数学   95
孙悟空   英语   68
大海   语文   94
大海   数学   56
大海   英语   84
宋宋   语文   64
宋宋   数学   86
宋宋   英语   84
婷婷   语文   65
婷婷   数学   85
婷婷   英语   78

create table score(
name string,
subject string,
score int)
row format delimited fields terminated by "\t";

load data local inpath '/home/hadoop/data/score.txt' into table score;

select name,
subject,
score,
rank() over(partition by subject order by score desc) rp,
dense_rank() over(partition by subject order by score desc) drp,
row_number() over(partition by subject order by score desc) rmp
from score;

你可能感兴趣的:(大数据之路)

git的文件大小超限处理 John Song git git
gitpush报错:remote:error:File阿里大数据之路_笔记版本.pdfis110.83MB;thisexceedsGitHub’sfilesizelimitof100.00MB该怎么处理GitHub对上传文件大小有一个限制，单个文件不能超过100MB。如果你尝试推送超过100MB的文件，将会出现remote:error:File...exceedsGitHub'sfilesizel
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
我的大数据之路 - 基于HANA构建实时方案的历程小南家的青蛙经验总结大数据数据仓库
产品内部前期有一个共识，依据业务要求的时效性来选择技术平台，即：实时类业务，时效性小于2小时，则使用HANA构建。离线类业务，时效性大于2小时，则使用大数据平台构建。经过五月、六月两月的努力，离线类的业务已基本完成开发和验证完毕，后面待在生产环境对数完毕后，即可启动切换。因此实时类业务的方案分析和梳理，成为当下最重要、最紧急的事情。考虑到项目当前的痛点：直接从I层构建业务，没有复用主题层的模型和资
大数据之路—数据架构体系及模型设计长不大的大灰狼大数据大数据架构
大数据之路—数据架构体系及模型设计一、阿里巴巴数据整合及管理体系二、维度设计1、基本概念2、规范化和反规范化3、维度整合4、维度拆分5、维度变化6、特殊维度三、事实表设计1、事实表特性2、事实表类型3、事实表设计原则4、事务事实表5、周期快照事实表的注意事项6、累计快照事实表的物理实现7、三种事实表的比较8、聚集型事实表一、阿里巴巴数据整合及管理体系实施工作流：1、划分数据域：根据业务过程抽象出数
2. 《大数据之路：阿里巴巴大数据实践》学习笔记，持续更新ing helloooi #业务理解模型建设大数据学习笔记
笔记链接(飞书)：https://t0s016els2a.feishu.cn/docx/JrNydGljUonH1ExcGCpcoC8unTb密码：r6@61391该书籍部分目录如下：文章目录第1篇数据技术篇第2章日志采集2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集2.1.3页面日志的服务端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件
大数据之路-日志采集（第二章）小白15138 大数据
文章目录2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集流程2.1.3页面日志的服务器端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件点击及其他事件2.2.3特殊场景2.2.4H5&Native日志统一2.2.5设备标识2.2.6日志传输2.3日志采集的挑战2.3.1典型场景1.日志分流与定制处理2.3.2大促保障阿里巴巴的日志采集体系方案
大数据之路——数据同步（第三章）小白15138 大数据
文章目录3.1数据同步基础3.1.1直连同步3.1.2数据文件同步3.1.3数据库日志解析同步如第一章所述，我们将数据采集分为日志采集和数据库数据同步两部分。数据同步技术更通用的含义是不同系统间的数据流转，有多种不同的应用场景。主数据库与备份数据库之间的数据备份，以及主系统与子系统之间的数据更新，属于同类型不同集群数据库之间的数据同步。另外，还有不同地域、不同数据库类型之间的数据传输交换，比如
李浩然：从大数据能力提升项目出发，探索化工大数据之路 | 提升之路系列（一）... 数据派THU 大数据
导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新
数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇 :Concerto 数据仓库 big data 数据库
第8章大数据领域建模综述此文章为学习笔记，有兴趣的小伙伴可以根据以下指引获取更多，学习内容链接如下：视频：【一起啃书】阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍：《阿里大数据之路》8.1为什么需要数据建模建模目标：有序、有结构地分类组织和存储存储在hdfs等文件系统数据模型含义：就是数据组织和存储的方式，它强调从业务、数据存取和使用角度合理存储数据此处举例：表
我的大数据之路：2023年度总结话数Science 大数据面试大数据面试 spark
2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。同时对“数据治理”有了一定的实践经验：存储治理：HDFS基于纠删码的存储空间占用上优于多副本存储；冷数据使用对象存储可以大幅降低成本。计算治理：基于RoaringBitmap的去重统计方案适合高性能的产品功能使用，但针对运营产品人员进行内部分析使用则不够友好，内部的多维分析可以考虑标签化的解法
也谈数据治理晓阳的数据小站
也谈数据治理|0x00数据治理是什么数据治理，在不同行业的概念，可能不同。比如在国家标准化管理委员会发布《信息技术服务治理第5部分：数据治理规范》，从非常宏观的角度来制定，侧重于拉通概念和达成共识，像一种“国家标准”；《华为数据之道》是从企业数字化的角度切入下去，侧重数据治理体系和方法论，属于一种“管理方案”；而阿里推出的《大数据之路》一书，则在数据技术层面给出了有价值的指导，算是具体的“实现方案
2019年05月记录本深海suke
【最近最想读的五本书】1阿里大数据之路2刺杀骑士团长3东方列车谋杀案4夜航西飞5洗澡【最近想看的电影】1海蒂与爷爷2调音师3东方快车谋杀案4切尔诺贝利5蹡蹡三人游
数据仓库理论宇宙中的Philip 数仓理论数据仓库大数据 hive
数仓理论知识点结构图本文初衷是为了学习归纳，若有错误，请指出。修改记录时间内容2020年9月13日第一次发布推荐书：《数据仓库工具书》（纯理论）、大数据之路-阿里巴巴大数据实践、一、数仓相关概念数据仓库：英文DataWareHouse，数据仓库是面向主题，为分析数据而设计的，是一个各种数据（包括历史数据和当前数据）的中心存储系统，主要服务于商业智能（也就是BI）和企业决策管理。商业智能：指用现代数
大数据之路-Hadoop-概述（2）胡萝卜土豆大数据 hadoop big data 云计算
Hadoop集群首先，区分下集群和分布式的概念。分布式结构就是将一个完整的系统，按照业务功能，拆分成一个个独立的子系统。比如我们在做一个项目时，团队中按角色可分为项目经理、产品经理、开发、测试等，不同角色做不同的事，互相之间也可能存在沟通和协作。集群，相对于单机而言，解决的都是同一个问题。以上一个例子来说，单机好比团队中只有一个测试，一个人做了所有的测试工作。因此扩招了2个测试人员，可以把这个3个
阿里巴巴大数据之路——数据技术篇 weixin_30730151 大数据数据库
一、整体架构从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层数据采集层：以DataX为代表的数据同步工具和同步中心数据计算层：以MaxComputer为代表的离线数据存储和计算平台数据服务层：以RDS为代表的数据库服务（接口或者视图形式的数据服务）数据应用层：包含流量分析平台等数据应用工具二、数据采集（离线数据同步）数据采集主要分为日志采集和数据库采集。日志采集暂略（参考书籍原文）。
阿里巴巴大数据之路 xiaokaiabcde 大数据大数据开发大数据学习阿里巴巴
阿里巴巴数据平台总共分为四个基本层级：数据采集层：数据采集包括日志采集和数据库数据同步两部分，其中日志采集包括：Aplus.JS是Web端日志采集技术方案；UserTrack是APP端日志采集技术方案。数据计算层：阿里巴巴的数据计算层包括两大体系：数据存储及计算云平台（离线计算平台MaxCompute和实时计算平台StreamCompute）和数据整合及管理体系（内部称之为“OneData”）。从
大数据之路-日志采集 ¤睿大数据之路大数据
数据采集作为大数据体系中的第一环节，对如何全面、高性能、规范完成海量数据的采集，并将其传输到大数据平台。1.浏览器的页面日志采集1.1页面浏览日志采集流程页面浏览日志是最基础的互联网日志，其中页面浏览量（PageView，PV）和访客数（UniqueVisitors，UV）是一切互联网数据分析得以展开的基础和前提。上图是一个典型的网页浏览过程，你认为从哪一个结点开始采集日志最为合适？答案是④，首先
大数据之路系列之flink(12) 居高声自远,非是藉秋风大数据 spark flink 大数据 hadoop
大数据之路系列之flink——快速上手快速上手大数据之路系列之flink——快速上手一、flink是什么二、flink的应用场景三、数据处理架构第一代、事务处理oltp第二代.、分析处理olap第三代、有状态的流式处理第四代、分布式的有状态的流式处理第五代、lambda架构第六代、kappa四、flinksqlorflinkapi？五、flinkonyarn两种使用方式flinkonyarn第一种
阿里大数据之路笔记帝乙岩
第二章笔记数据模型篇第八章建模综述为什么需要数据建模:性能:快速查询所需要的数据,减少数据IO吞吐率成本:降低存储和计算成本效率:提高数据使用效率质量:改善数据统计口径的不一致性维度模型设计步骤:选择要分析决策的业务过程:单业务过程,例:交易的支付,退款;事件状态,例:当前账户余额;业务事件组成的业务流程选择粒度:细分的程度,粒度是维度的组合.识别维表:设计维表,维度属性选择事实:确定分析需要衡量
大数据之路读书笔记-16数据应用潘小磊大数据之路读书笔记大数据人工智能数据挖掘
大数据之路读书笔记-16数据应用全球知名咨询公司麦肯锡称：“数据，已经透到当今每一个行业和业务职能领域，成为重要的生产要素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”本书在前面的章节中已经深人介绍了大数据建设与管理的方法论和实践，“生产要素”已经准备好，需要通过合适的方式提供给不同类型的用户，让数据最大化地发挥价值。阿里巴巴作为一家天然的大数据公司，对数据的应用
《大数据之路》读书笔记：建模综述橘猫吃不胖
《大数据之路-阿里巴巴大数据实践》，作者阿里巴巴数据技术及产品部，第八章“大数据领域建模综述”阿里的这本书之前又翻看过，很多实践是很棒的，也学习应用过一些规范，最近比较闲（失业在家），整理一下。最近搬家，有好多书，哎，有些书看完就处理掉吧，二手卖掉，要不搬家太痛苦了。这一章是概述，主要介绍了关于建模相关的一些基础知识点，下面就总结下，算是对知识的回顾了。为什么需要数据建模记得面试的时候，有被问到过
Java大数据之路--HDFS详解（3）--基本命令 Normcorer Hadoop
HDFS(分布式文件存储系统)--基本命令目录HDFS(分布式文件存储系统)--基本命令一、常见命令二、其他命令一、常见命令命令说明hadoopfs-mkdir/park在hdfs的根目录下，创建park目录hadoopfs-ls/查看hdfs根目录下有哪些目录hadoopfs-put/root/1.txt/park将linux操作系统root目录下的1.txt放在hdfs的park目录下hado
数仓规范随记 mizuhokaga 总结大数据
数仓分层以《大数据之路：阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:ods:近源层/贴源层/数据Stage层stgb:从业务系统同步过来的原始数据,不保留历史数据stgd:类似stgb,但利用「拉链表」保留历史数据dw:数仓dwd:数据明细层（DataWarehouseDetail）,将
《阿里大数据之路》读书笔记：第三章数据同步蓦然_ 数据仓库大数据数据仓库
第三章数据同步数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型：关系型数据库的结构化数据：MySQL、Orac
JAVA CV工程师学习大数据之路---linux基本环境配置咸鱼哥哥大数据 java学习大数据 hadoop linux java 环境安装上网
先提供一些基本的软件链接，方便大家使用VMware、ISO文件、XManager链接：https://pan.baidu.com/s/1uwOBag5QCsSFqt3c2dz56A提取码：w2he安装流程和创建虚拟机过程直接跳过，直接到配置网络步骤，这儿采用NAT方式进行配置1.主要是修改/etc/sysconfig/network-scripts/ifcfg-enoXXX文件，因为文件名不一定是
《大数据之路》阅读笔记--数据同步杜小瑞大数据大数据 big data
数据同步同步方式主要分为三种：直连同步、数据文件同步和数据库日志解析同步。直连同步直连同步是指直接使用ODBC/JDBC接口的方式直接连接数据库来拉取数据，这种方式对源系统的性能影响较大，不适合大数据量的情况。数据文件同步数据文件同步通过约定好的文件编码、大小、格式等，直接从源系统生成数据的文本文件，由专门的文件服务器，如FTP服务器传输到目标系统后，加载到目标数据库系统中。当源数据来自多个不同的
《大数据之路》阅读笔记--数据采集杜小瑞大数据数据仓库大数据 big data
数据采集浏览器页面日志采集浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括：页面浏览量（PageView,PV）和访客数（UniqueVisitors,UV）。页面浏览日志采集流程基本思路是在html文档内适当位置增加一个日志采集节点，当浏览器解析到这个节点时，将自动触发一个特定的http请求到日志采集服务器。页面交互日志采集主要流程如下：1、业务方在元数据管
Kafka基础理论理解，欲走大数据之路必铺石阶，行走的kafka！2018-08-14 飞上天的猫神
大数据编程理解，实际上是件很困难的事，大数据需要掌握的技能太多了，get到的技能点也实际更多！kafka作为一个大数据的必备内容，可以作为大数据的基本标志，下面我们将介绍如何学习大数据简介#概念：消息中间件（消息系统）//消息系统分类：点对点消息队列（peer-to-peer）替换高清大图发布/订阅消息队列消费者在消费时，是通过pull主动从broker中拉取数据的#作用：缓存地带#消息系统适用场
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag