保护胖丁

Day13:Hive优化及数据倾斜

- 知识点01：回顾
- 知识点02：目标
- 知识点03：Hive函数：多行转多列
- 知识点04：Hive函数：多行转单列
- 知识点05：Hive函数：多列转多行
- 知识点06：Hive函数：多列转单行
- 知识点07：Hive函数：反射函数
- 知识点08：Hive函数：Python脚本
- 知识点09：Hive函数：JSON处理
- 知识点10：Hive函数：窗口聚合函数
- 知识点11：Hive函数：窗口位置函数
- 知识点12：Hive函数：窗口分析函数
- 知识点13：Hive函数：窗口函数案例
- 知识点14：Hive优化：参数优化
- 知识点15：Hive优化：SQL优化
- 知识点16：Hive优化：表设计优化
- 知识点17：数据倾斜：现象原因
- 知识点18：数据倾斜：解决方案

知识点01：回顾

MapReduce处理Hive表数据的规则以及普通表结构的特点是什么？
- 底层MapReduce的输入：表的最后一级目录
- 普通表结构
```
数据仓库目录/数据库目录/表的目录/数据文件
```
  - 最后一级目录就是表的目录
分区表的功能、结构和特点是什么？
- 功能：将大量的数据按照一定规则条件进行划分，将数据分区目录存储，减少了底层MapReduce输入，提高了性能
- 结构
```
数据仓库目录/数据库目录/表的目录/分区目录/分区文件
```
- 特点：最后一级目录是分区目录
- 注意：分区表能实现优化的前提查询的过滤条件一定是分区字段【时间】
如何实现构建分区表？分区的设计是什么级别的？分区的字段是逻辑的还是物理的？
- 两种方式
  - 静态分区：数据本身按照分区的规则划分好的
    - step1：创建分区表
    - step2：直接加载分区数据
  - 动态分区：数据本身没有做划分
    - step1：创建普通表，加载数据
    - step2：创建分区表，将普通表的数据动态分区写入分区表
- 分区级别：目录
- 分区字段：逻辑字段
分桶表的功能和设计思想是什么？分桶的设计是什么级别的？分桶字段是逻辑的还是物理的？
- 功能：优化大表join大表过程，提高大表join大表的性能
- 设计：将数据按照一定的规则划分到不同的文件中，将大文件拆分为多个小文件，实现每个小文件的Map Join
  - 本质：底层的MapReduce的分区，一个桶就是一个reduce，对应一个结果文件
  - 规则：Hash取余
- 级别：文件
- 分桶字段：物理字段
Hive中的order by、sort by 、distribute by、cluster by的功能分别是什么？
- order：全局排序，只能有1个reduce
- sort：局部排序，多个Reduce，每个Reduce内部排序
- distribute：指定底层MapReduce的K2的
- cluster：在指定的是同一个字段的情况下，功能上等价于sort + distribute
parse_url_tuple函数的功能及语法是什么？
- 功能：用于解析URL
- 语法：parse_url_tuple（url，… 要解析的字段）
  - HOST
  - PATH
  - QUERY
- 应用：UDTF函数，一次性解析多个字段
explode函数的功能及语法是什么？
- 功能：拆分集合类型的元素，将每个元素变成一行
- 语法：explode（Array | Map）
- 应用：列转行
lateral view的功能及语法是什么？
- 功能：将UDTF结果构建成一个类似于视图的临时表，用于与原表进行拼接查询，解决UDTF查询限制问题
- 语法
```
lateral view udtf 别名 as 临时表的列的列名
```
- 应用：搭配UDTF使用

知识点02：目标

Hive中的函数
- 了解反射函数、Python脚本辅助处理
- 掌握
  - 行列转换实现：特殊函数
  - JSON处理函数
  - 开窗函数：窗口聚合、位置偏移、分析函数
    - 实例
Hive优化以及数据倾斜【掌握】
- 基本优化：参数优化、SQL优化、设计优化【文件格式】
- 数据倾斜：现象、原因、解决

知识点03：Hive函数：多行转多列

目标：掌握行列转换的应用场景及实现多行转多列
路径
- step1：行列转换的场景
- step2：多行转多列实现

实施

行列转换的场景

分析：基于每个小时分析不同指标【UV，PV，IP】的结果

select hourstr,count(distinct userid),count(url),count(distinct ip) from table group by hourstr

00		300		1000		90
01		200		1000		90
02		100		1000		90
……
23		1000		1000		90

需求：得到每个指标不同小时的值：每个小时UV的值

select * from table where key = 'uv'

00	01	02  ……	23
300	200	100		1000

多行转多列实现

输入

vim /export/data/r2c1.txt

a	c	1
a	d	2
a	e	3
b	c	4
b	d	5
b	e	6

--建表
create table row2col1(
col1 string,
col2 string,
col3 int
)row format delimited fields terminated by '\t';
--加载数据
load data local inpath '/export/data/r2c1.txt' into table row2col1;

结果

+-------+----+----+----+--+
| col1  | c  | d  | e  |
+-------+----+----+----+--+
| a     | 1  | 2  | 3  |
| b     | 4  | 5  | 6  |
+-------+----+----+----+--+

分析

肯定做了分组：按照第一列分组

每一组如何能返回这一组的结果

数据
```
col1	col2	col3
a		c		1
a		d		2
a		e		3
```

结果

+-------+----+----+----+--+
| col1  | c  | d  | e  |
+-------+----+----+----+--+
| a     | 1  | 2  | 3  |

SQL

select
	col1,
	max（case col2 when 'c' then col3  else 0 end ) as c,
	max（case col2 when 'd' then col3  else 0 end ) as d,
	max（case col2 when 'e' then col3  else 0 end ) as e
from table
group by col1;

函数
- group by语句中：select后面的字段要么是分组字段要么是聚合函数的结果
  - 每一组只返回一条
- case when：判断函数
  - 功能：实现多种条件的判断
  - 方式一
```
case col
when  value1 then rs1
when  value2 then rs2
……
else rsN
end
```
  - 方式二
```
case
when col = value1 then rs1
when col = value2 then rs2
……
else rsN
end
```

SQL

select 
  col1 as col1,
  max(case col2 when 'c' then col3 else 0 end) as c,
  max(case col2 when 'd' then col3 else 0 end) as d,
  max(case col2 when 'e' then col3 else 0 end) as e
from 
  row2col1
group by 
  col1;

小结
- case when函数的功能及语法？
- 功能：判断函数，实现条件的判断
  - 语法
    - case col when value
    - case when col = value
  - 应用：多条件判断场景

知识点04：Hive函数：多行转单列

目标：实现多行转单列的SQL开发
实施
- 输入
```
vim /export/data/r2c2.txt
```
```
a	b	1
a	b	2
a	b	3
c	d	4
c	d	5
c	d	6
```
```
--建表
create table row2col2(
col1 string,
col2 string,
col3 int
)row format delimited fields terminated by '\t';
--加载数据
load data local inpath '/export/data/r2c2.txt' into table row2col2;
```
- 结果
```
+-------+-------+--------+--+
| col1  | col2  |  col3  |
+-------+-------+--------+--+
| a     | b     | 1,2,3  |
| c     | d     | 4,5,6  |
+-------+-------+--------+--+
```
- 分析
  - 分组：col1,col2
  - 聚合：将每组中的三行变成一行
  - 拼接字符串：将集合中每个元素进行拼接为字符串
- 函数
  - collect_list/collect_set
    - 功能：聚合函数，将多行的内容合并为一行的内容
    - 语法：
      - collect_list（col）：不做去重
      - collect_set(col)：做去重
    - 应用：用于将多行转换为单列单行
  - concat / concat_ws
    - 功能：字符串拼接的
    - 语法
      - concat(str1,str2,str3……)：不能指定分隔符，有一个为null，整个结果就为null
      - concat_ws（分隔符，str1,str2,str3……）:可以指定分隔符，只要一个不为null，结果就不为null
- SQL
```
select
   col1,
   col2,
   concat_ws(",",collect_set(cast(col3 as string))) as col3
from row2col2
group by col1,col2;
```
小结
- concat与concat_ws函数的功能与语法？
  - 功能：字符串拼接
  - 语法
    - concat(str1,str2,str3……)
    - concat_ws（分隔符，str1,str2……）
- collect_set与collect_list的功能与语法？
  - 功能：将多行合并到一行
  - 语法
    - collect_set（col）：做去重
    - collect_list（col）：不做去重

知识点05：Hive函数：多列转多行

目标：实现多列转多行的SQL开发

实施

输入

vim /export/data/c2r1.txt

a	1	2	3
b	4	5	6

create table col2row1(
col1 string,
col2 int,
col3 int,
col4 int
)row format delimited fields terminated by '\t';
--加载数据
load data local inpath '/export/data/c2r1.txt' into table col2row1;

结果

+-----------+-----------+-----------+--+
| _u1.col1  | _u1.col2  | _u1.col3  |
+-----------+-----------+-----------+--+
| a         | c         | 1         |
| b         | c         | 4         |
| a         | d         | 2         |
| b         | d         | 5         |
| a         | e         | 3         |
| b         | e         | 6         |
+-----------+-----------+-----------+--+

分析
- 实现行的合并
- union all

实现

select col1,'c' as col2,col2 as col3 from col2row1
union all
select col1,'d' as col2,col3 as col3 from col2row1
union all
select col1,'e' as col2,col4 as col3 from col2row1;

小结
- union all的功能？
  - 功能：实现行的合并
  - 语法：select…… union all select ……
  - 应用：union all与union区别

知识点06：Hive函数：多列转单行

目标：实现多列转单行的SQL开发

实施

输入

vim /export/data/c2r2.txt

a	b	1,2,3
c	d	4,5,6

create table col2row2(
col1 string,
col2 string,
col3 string
)row format delimited fields terminated by '\t';
--加载数据
load data local inpath '/export/data/c2r2.txt' into table col2row2;

输出

+-------+-------+-------+--+
| col1  | col2  | col3  |
+-------+-------+-------+--+
| a     | b     | 1     |
| a     | b     | 2     |
| a     | b     | 3     |
| c     | d     | 4     |
| c     | d     | 5     |
| c     | d     | 6     |
+-------+-------+-------+--+

分析
- 由少变多，将一行的内容拆分为多行
函数
- explode：将一个集合类型的内容中的每一个元素变成一行

SQL

select 
col1, 
col2, 
lv.col3 as col3
from 
  col2row2 
lateral view 
  explode(split(col3, ',')) lv as col3;

小结
- explode函数的功能？
  - 功能：用于将集合或者数组类型列中的每一个元素变成一行
  - 语法：explode（Array | map）
  - 应用：将一列转为多行

知识点07：Hive函数：反射函数

目标：了解reflect函数的功能及用法
实施
- 功能
  - 用于在Hive中直接调用Java中类的方法
- 本质
  - 通过给定的类，反射构建了这个类的对象，通过对象调用方法给用户返回
- 语法
```
reflect（类，方法，参数）
```
- 测试
```
select reflect("java.util.UUID", "randomUUID");
select reflect("java.lang.Math","max",20,30);
select reflect("org.apache.commons.lang.math.NumberUtils","isNumber","123");
```
- 应用：一般用于Java中已经有对应的工具类，可以直接被调用，省去写UDF
小结
- 了解即可

知识点08：Hive函数：Python脚本

目标：了解Hive中如何实现Python脚本辅助处理
实施
- 数据

建表加载数据

--创建原始数据表：用户id、电影id、用户评分、用户的观影时间
CREATE TABLE u_data (
  userid INT,
  movieid INT,
  rating INT,
  unixtime STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

--加载数据:
load data local inpath '/export/data/u.data' into table u_data;

--查询数据
select count(*) from u_data;

创建目标表

--创建新表：用户id、电影id、用户评分、用户的时间是周几
CREATE TABLE u_data_new (
  userid INT,
  movieid INT,
  rating INT,
  weekday INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

创建Python脚本

--创建Python脚本实现将原始表的时间转为对应的星期几
vim /export/data/weekday_mapper.py

import sys
import datetime

for line in sys.stdin:
  line = line.strip()
  userid, movieid, rating, unixtime = line.split('\t')
  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
  print '\t'.join([userid, movieid, rating, str(weekday)])

加载脚本，写入数据

--加载python脚本并将数据写入新表
add FILE /export/data/weekday_mapper.py;

INSERT OVERWRITE TABLE u_data_new
SELECT
  TRANSFORM (userid, movieid, rating, unixtime)
  USING 'python weekday_mapper.py'
  AS (userid, movieid, rating, weekday)
FROM u_data;

查询分析

--统计每周内每天用户观影的次数
SELECT 
  weekday, 
  COUNT(*)
FROM 
  u_data_new
GROUP BY 
  weekday;

小结
- 了解即可

知识点09：Hive函数：JSON处理

目标：掌握Hive中处理JSON数据的两种方式
- 常见的数据格式：结构化数据格式
  - csv：每一列都是用逗号分隔符
  - tsv：每一列都是用制表符分隔符
  - json：专有的JSON格式文件
  - properteies
  - xml
路径
- step1：JSON函数
- step2：JSONSerDe

实施

JSON函数

创建数据

vim /export/data/hivedata.json

{
           "id": 1701439105,"ids": [2154137571,3889177061],"total_number": 493}
{
           "id": 1701439106,"ids": [2154137571,3889177061],"total_number": 494}

创建表

create table tb_json_test1 (
json string
);
--加载数据
load data local inpath '/export/data/hivedata.json' into table tb_json_test1;

函数

get_json_object：用于解析JSON字符串，指定取出JSON字符串中的某一个元素

select 
  get_json_object(t.json,'$.id'), 
  get_json_object(t.json,'$.total_number') 
from 
  tb_json_test1 t ;

json_tuple：UDTF函数，一次性取出多个JSON字符串的元素

select 
  t1.json,
  t2.* 
from 
  tb_json_test1 t1 
lateral view 
  json_tuple(t1.json, 'id', 'total_number') t2 as c1,c2;

JSONSerDe

功能：可以直接在加载数据文件的时候解析JSON格式
配置：修改hive-env.sh

export HIVE_AUX_JARS_PATH=/export/server/hive-2.1.0-bin/hcatalog/share/hcatalog/hive-hcatalog-core-2.1.0.jar


- 重启hiveserver2

- 创建表

```sql
create table tb_json_test2 (
id string,
ids array,
total_number int)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
--加载数据
load data local inpath '/export/data/hivedata.json' into table tb_json_test2;

查询数据

小结
- Json处理的函数有哪些？
  - 方式一：JSON函数
    - get_json_object（jsonString,“$.元素名称”）：一次只能取一个
    - json_tuple（jsonString,“ $. 元素名称 ” ， “$ .元素名称”，“$.元素名称”……）
      - UDTF函数
      - 一次取多个
    - 应用：数据中的某个字段是JSON格式的
```
id		name		age		info【JSON】
1		张三		18			{addr：上海……}
```
  - 方式二：通过JSONSerde来加载JSON格式的文件
    - 数据就是一个json文件，每一条数据就是一个完整的JSON字符串
```
json1
json2
json3
……
```

知识点10：Hive函数：窗口聚合函数

目标：掌握窗口聚合函数的使用
路径
- step1：常见的分析需求
- step2：窗口的基本语法
- step3：窗口聚合函数

实施

常见的分析需求
- 需求1：统计得到每个部门薪资最高的那个员工薪水
```
select
  deptno,
  max(salary)
from tb_emp
group by deptno;
```
- 需求2：统计得到每个部门薪资最高的前两名的薪水
```
select
  deptno,
  max(salary)
from tb_emp
group by deptno
order by salary;
```
- 问题：分组一组只能返回一条，怎么办？
  - 需求中出现了关键词每个、各个、不同，要么做分组，要么做分区
  - 分组：group by：一组返回一条
  - 分区：窗口函数partition by：一组返回多条

窗口的基本语法

funName(参数) over (partition by col [order by col]  [window_szie])

partition by：分区，将相同分区的数据放在一起
order by：分区内部按照某个字段进行排序

window_szie：窗口大小，指定的是函数处理数据的范围

-- N preceding ：前N行
-- N following ：后N行
-- current row：当前行
-- unbounded preceding 表示从前面的起点，第一行
-- unbounded following：表示到后面的终点，最后一行

窗口聚合函数

max/min/avg/count/sum

创建数据

vim /export/data/window.txt

cookie1,2018-04-10,1
cookie1,2018-04-11,5
cookie1,2018-04-12,7
cookie1,2018-04-13,3
cookie2,2018-04-13,3
cookie2,2018-04-14,2
cookie2,2018-04-15,4
cookie1,2018-04-14,2
cookie1,2018-04-15,4
cookie1,2018-04-16,4
cookie2,2018-04-10,1
cookie2,2018-04-11,5
cookie2,2018-04-12,7

创建表

--建库
create database db_function;
use db_function;
--建表
create table itcast_f1(
cookieid string,
daystr string,
pv int
) row format delimited fields terminated by ',';
--加载
load data local inpath '/export/data/window.txt' into table itcast_f1;
--本地模式
set hive.exec.mode.local.auto=true;

需求1：实现分区内起始行到当前行的pv累加，指定排序

select 
  cookieid,
  daystr,
  pv,
  sum(pv) over (partition by cookieid order by daystr) as pv1 
from 
  itcast_f1;

如果指定了partition by和order by，没有指定窗口大小
默认窗口：分区的第一行到当前行
需求2：实现分区内起始行到当前行的pv累加，不指定排序

    select 
        cookieid,
        daystr,
        pv,
        sum(pv) over(partition by cookieid ) as pv2
      from 
        itcast_f1;

需求3：实现分区内起始行到当前行的pv累加，指定窗口

      select 
        cookieid,
        daystr,
        pv,
        sum(pv) over (partition by cookieid order by daystr rows between unbounded preceding and current row) as pv3
      from 
      itcast_f1;

- 需求4：实现分区内指定前N行到当前行的pv累加

  ```sql
  select 
    cookieid,
  daystr,
    pv,
  sum(pv) over (partition by cookieid order by daystr rows between 3 preceding and current row) as pv4
  from 
    itcast_f1;
  ```

需求5：实现分区内指定前N行到后N行的pv累加

      select 
        cookieid,
        daystr,
        pv,
        sum(pv) over(partition by cookieid order by daystr rows between 3 preceding and 1 following) as pv5
      from 
        itcast_f1;

需求6：实现分区内指定当前行到最后一行的pv累加

select 
  cookieid,
  daystr,
  pv,
  sum(pv) over(partition by cookieid order by daystr rows between current row and unbounded following) as pv6
from 
  itcast_f1;

小结
- 窗口函数的语法及关键字的含义是什么？
  - 语法
```
functionName(参数) over (partition by col order by col 【window_size】)
```
  - 含义
    - partition by：分区，将相同分区的数据放在一起
    - order by：排序，基于分区内部排序
    - window_size：基于分区内部计算的窗口大小

知识点11：Hive函数：窗口位置函数

目标：掌握窗口位置函数的使用
路径
- step1：first_value
- step2：last_value
- step3：lag
- step4：lead
实施
- first_value
  - 功能：取每个分区内某列的第一个值
  - 语法：FIRST_VALUE(col) over (partition by col1 order by col2)
  - 示例
```
use db_emp;
--取每个部门薪资最高的员工姓名
select
  empno,
  ename,
  salary,
  deptno,
  FIRST_VALUE(ename) over (partition by deptno order by salary desc) as first
from
  db_emp.tb_emp;
```
- last_value
  - 功能：取每个分区内某列的最后一个值
  - 语法：LAST_VALUE() over (partition by col1 order by col2)
  - 注意：一定要注意默认窗口的计算范围
  - 示例

      --取每个部门薪资最低的员工编号
      select
        empno,
        ename,
        salary,
        deptno,
        LAST_VALUE(empno) over (partition by deptno order by salary desc) as last
      from
        db_emp.tb_emp; 
       无法实现

      --取每个部门薪资最低的员工编号
      select
        empno,
        ename,
        salary,
        deptno,
        LAST_VALUE(empno) over (partition by deptno order by salary desc rows between unbounded preceding and unbounded following) as last
      from
        db_emp.tb_emp;

lag
- 功能：取每个分区内某列的前N个值
- 语法：LAG(col,N,defaultValue) over (partition by col1 order by col2)
  - col：取分区内某一列的值
  - N：向前偏移N个单位
  - defaultValue：如果取不到的默认值
示例

      select
        empno,
        ename,
        salary,
        deptno,
        LAG(salary,1,0) over (partition by deptno order by salary) as deptno2
      from
        db_emp.tb_emp;

lead
- 功能：取每个分区内某列的后N个值
- 语法：LEAD(col,N,defaultValue) over (partition by col1 order by col2)
  - col：取分区内某一列的值
- N：向后偏移N个单位
  - defaultValue：如果取不到的默认值
- 示例
```
select
  empno,
  ename,
  salary,
  deptno,
LEAD(salary,1,0) over (partition by deptno order by salary) as deptno2
from
  db_emp.tb_emp;
```

小结
- first_value的功能及语法？
  - 功能：取分区内部某一列第一条
  - 语法：first_value（col）
- last_value的功能及语法？
  - 功能：取分区内部某一列最后一条
  - 语法：last_value（col）
- lag的功能及语法？
  - 功能：取分区内某一列的向前偏移N个单位的值
  - 语法：lag（col,N,default）
- lead的功能及语法？
  - 功能：取分区内某一列的向后偏移N个单位的值
  - 语法：lead（col,N,default）

知识点12：Hive函数：窗口分析函数

目标：掌握窗口分析函数的使用
路径
- step1：row_number
- step2：rank
- step3：dense_rank
- step4：ntil

实施

row_number

功能：用于实现分区内记录编号
语法：row_number() over (partition by col1 order by col2)
特点：如果值相同，继续编号

示例

--统计每个部门薪资最高的前两名
select
  empno,
  ename,
  salary,
  deptno,
  row_number() over (partition by deptno order by salary desc) as numb
from
  db_emp.tb_emp;

rank

功能：用于实现分区内排名编号[会留空位]
语法：rank() over (partition by col1 order by col2)
特点：如果值相同，编号相同，会留下空位

示例

--统计每个部门薪资排名
select
  empno,
  ename,
  salary,
  deptno,
  rank() over (partition by deptno order by salary desc) as numb
from
  db_emp.tb_emp;

dense_rank

功能：用于实现分区内排名编号[不留空位]
语法：dense_rank() over (partition by col1 order by col2)
特点：如果值相同，编号相同，不留空位

示例

--统计每个部门薪资排名
select
  empno,
  ename,
  salary,
  deptno,
  dense_rank() over (partition by deptno order by salary desc) as numb
from
  db_emp.tb_emp;

ntile

功能：将每个分区内排序后的结果均分成N份【如果不能均分，优先分配编号小的】
语法：NTILE(N) over (partition by col1 order by col2)

示例

--统计每个部门薪资排名，将每个部门的薪资分为两个部分，区分高薪和低薪
select
  empno,
  ename,
  salary,
  deptno,
  NTILE(2) over (partition by deptno order by salary desc) as numb
from
  db_emp.tb_emp;

小结
- row_number、rank与dense_rank的功能与区别？
  - 功能：做编号
  - 区别
    - row_number：如果值相同，继续编号
    - rank：如果值相同，编号相同，但是会留下空位
    - dense_rank：如果值相同，编号相同，不留空位

知识点13：Hive函数：窗口函数案例

目标：使用窗口函数实现以下需求案例
路径
- step1：存款金额累计求和
- step2：连续登陆用户统计
实施
- 存款金额累计求和
  - 数据：用户id【userid】、存款月份【month】、存储金额【money】

A       2015-02 6
A       2015-01 10
B       2015-03 11
B       2015-01 25
B       2015-02 10
A       2015-02 4
A       2015-03 10
A       2015-03 6
B       2015-01 5
A       2015-01 13
B       2015-02 5
B       2015-03 6

需求：统计每个人每个月存款的金额和累计总金额

+-------------+----------+---------+-------------+--+
| a.userid    | a.month  | money   | accumulate  |
+-------------+----------+---------+-------------+--+
| A           | 2015-01  | 33      | 33          |
| A           | 2015-02  | 10      | 43          |
| A           | 2015-03  | 16      | 59          |
| B           | 2015-01  | 30      | 30          |
| B           | 2015-02  | 15      | 45          |
| B           | 2015-03  | 17      | 62          |
+-------------+----------+---------+-------------+--+

分析
- 先拿到前面三列：每个人在每个月的存储总金额
```
select
  userid,
  month,
  sum(money) as 这个月的总金额
from table
group by userid,month;
```
- 再做窗口聚合
  - partition by userid
  - order by month

连续登陆用户统计

数据：用户id【userid】，登陆日期【logindate】

A,2021-03-22
B,2021-03-22
C,2021-03-22
A,2021-03-23
C,2021-03-23
A,2021-03-24
B,2021-03-24

需求：统计连续登录N天的用户（N>=2）
- 连续登录2天的用户是哪些：A，C
- 连续登录3天的用户是哪些：A

分析

连续登录2天

方案一：构建笛卡尔积
```
userid1 logindate1 userid2 logindate2
```
- userid1 = userid2 and date_add(logindate1,1) = logindate2

方案二：窗口函数

select
	userid,
	logindate,
	date_add(logindate,1) , --当前登录日期的后一天
	lead(logindate,1,0) over (partition by userid order by logindate) as nextlogin
from table;

   logindate		nextday			nextlogin
A	2021-03-22		2021-03-23		2021-03-23	
A	2021-03-23		2021-03-24		2021-03-24
A	2021-03-24		2021-03-25		0
B	2021-03-22		2021-03-23		2021-03-24
B	2021-03-24		2021-03-25		0
C	2021-03-22		2021-03-23		2021-03-23
C	2021-03-23		2021-03-24		0

连续登录2天：nextday = nextlogin

select
	userid,
	logindate,
	date_add(logindate,2) , --当前登录日期的后两天
	lead(logindate,2,0) over (partition by userid order by logindate) as nextlogin
from table;

   logindate		nextday			nextlogin
A	2021-03-22		2021-03-24		2021-03-24
A	2021-03-23		2021-03-25		0
A	2021-03-24		2021-03-26		0
B	2021-03-22		2021-03-24		0
B	2021-03-24		2021-03-26		0
C	2021-03-22		2021-03-24		0
C	2021-03-23		2021-03-25		0

连续登录3天：nextday = nextlogin

一般应用场景
- 分区窗口聚合：每个分区的聚合的结果
- 分区排序
- 位置偏移
小结
- 根据思路，自己通过代码实现

知识点14：Hive优化：参数优化

目标：掌握Hive中常见的参数优化
路径
- step1：MapReduce参数
- step2：Hive参数
实施
- MapReduce参数
  - 推测执行
    - 问题：经常运行一个Mapreduce程序，有多个MapTask和ReduceTask，由于网络或者资源故障导致有一个Task一直不能运行结束
    - 解决：开启推测执行
      - 如果appmaster发现某个Task一直不能结束，会在另外节点上启动同一个Task，谁先运行结束，另外一个会被kill
    - 属性
```
mapreduce.map.speculative=true
mapreduce.reduce.speculative=true
hive.mapred.reduce.tasks.speculative.execution=true
```
  - JVM重用
    - 问题：每次每个Task都会申请一个JVM进程来运行程序，JVM进程需要内存等资源
      - 每个Task运行完成以后，这个JVM就被销毁了
    - 解决：申请了一个JVM进程的资源以后，可以运行多个Task
      - 实现资源复用
      - 配置
        
        set mapreduce.job.jvm.numtasks=10
- Hive参数
  - Fetch Task
    - Hive自带了小型计算引擎，一部分简单的SQL语句不走Mapreduce，直接由Fetch Task处理
    - 属性
```
hive.fetch.task.conversion


Expects one of [none, minimal, more].
      Some select queries can be converted to single FETCH task minimizing latency.
      Currently the query should be single sourced not having any subquery and should not have
      any aggregations or distincts (which incurs RS), lateral views and joins.
      0. none : disable hive.fetch.task.conversion
      1. minimal : SELECT STAR, FILTER on partition columns, LIMIT only
      2. more    : SELECT, FILTER, LIMIT only (support TABLESAMPLE and virtual columns)
```
    - none：不启用fetch抓取
    - minimal
    - more
  - 严格模式
    - 老版本的属性：hive.mapred.mode=nonstrict/strict
    - 如果为严格模式：hive会限制一些SQL语句的运行
    - 新版本的属性
    - hive.strict.checks.type.safe
      - 是否允许一些风险性的类型比较
      - bigints and strings.
        
        bigints and doubles.
    - hive.strict.checks.cartesian.product
      - 是否允许笛卡尔的产生
  - 并行执行
    - Hive在解析SQL时，默认不会并行执行Stage，只会单个Stage执行
  - 设置并行度，提高Hive解析编译的性能
```
  set hive.exec.parallel=true;              //打开任务并行执行
set hive.exec.parallel.thread.number=16;  //同一个sql允许最大并行度，默认为8。
```
  - 压缩
    - 先配置Hadoop中的压缩
      - 设置Mapreduce的shuffle的中间输出压缩
  - 属性
```
#配置多个Mapreduce中的中间Mapreduce的结果压缩
hive.exec.compress.intermediate=true
```
小结
- MapReduce可以做哪些优化？
  - 推测执行
  - JVM重用
- Hive中可以做哪些参数优化？
  - Fetch Task
  - 严格模式
  - 并行执行
  - 压缩

知识点15：Hive优化：SQL优化

目标：掌握Hive中的SQL优化的基本规则

实施

基本规则：PPD

谓词下推 Predicate Pushdown（PPD）的思想简单点说就是在不影响最终结果的情况下，尽量将过滤条件提前执行。谓词下推后，过滤条件在map端执行，减少了map端的输出，降低了数据在集群上传输的量，降低了Reduce端的数据负载，节约了集群的资源，也提升了任务的性能。

示例
- where与having
  - 能在where中过滤的就不要在having中过滤
- join
  - 需求：订单表a【1000万 orderid pid 】、商品表b【100万 pid pname】，获取每个订单中商品的信息

      select * from a join b on a.pid = b.pid

step1：先将所有订单中出现的商品id过滤出来：c[10万]
```
select distinct pid from a;
```
step2：让订单中的商品id与商品表进行关联，得到这些商品id的商品信息：d[10万条]

        select 
        from c join  b on c.pid = b.pid

step3：a与djoin

        select
        
        from  a join d a.pid = d.pid

小结
- Hive默认开启了自动谓词下推，只要掌握原则即可

知识点16：Hive优化：表设计优化

目标：掌握Hive中表设计的优化方案
路径
- step1：分区表
- step2：分桶表
- step3：文件格式

实施

分区表：优化底层MapReduce输入，提高性能
分桶表：提前将数据分桶存储，提高Join性能

文件格式

创建表时可以指定
```
STORED AS file_format
```

默认格式：textfile

file_format:
  : SEQUENCEFILE
  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)
  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)
  | ORC         -- (Note: Available in Hive 0.11.0 and later)
  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)
  | AVRO        -- (Note: Available in Hive 0.14.0 and later)
  | JSONFILE    -- (Note: Available in Hive 4.0.0 and later)
  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

工作中一般会选用存储文件格式
- 二进制：SEQUENCEFILE
- 列式存储：rcfile、orc、parquet
列式存储的优点
- 相同的数据，存储占用的空间更小
- 列式存储：对于SQL分析读取列比较方便

        col1		col2		col3
        1			a			c
        2			b			d

    - 按行存储

        1			a			c    2			b			d

列式存储

          1		2		a			b			c		d

SQL：select col1 from table
- 按行存储：将每一行都读取出来，然后过滤第一列
- 按列存储：直接读取对应的列
- 构建文件数据索引
测试
- 参考：《Hive实现列式存储parquet与orc对比测试》
小结
- 常见的文件格式有哪些？
  - 默认：textfile
  - 二进制：sequencefile
  - 列式存储：rcfile,orc,parquet
- 列式存储的优点是什么？
  - 占用空间更小
  - 列式存储，列的读取更多
  - 构建列式索引

知识点17：数据倾斜：现象原因

目标：了解数据倾斜的现象、原因
路径
- step1：现象
- step2：原因
实施
- 现象
  - 运行一个程序，这个程序的某一个Task一直在运行，其他的Task都运行结束了，进度卡在99%或者100%
- 原因
  - 基本原因：这个ReduceTask的负载要比其他Task的负载要高
    - ReduceTask的数据分配不均衡
  - MapTask会不会有数据倾斜的问题？不会
- 根本原因：分区的规则
  - 默认分区：根据K2的Hash值取余reduce的个数
    - 优点：相同的K2会由同一个reduce处理
    - 缺点：可能导致数据倾斜
  - 举例：
    - Map输出的数据
```
K 2			V2
hadoop		1
hive		1
hadoop		1
hive		1
hadoop		1
hadoop		1
hadoop		1
hadoop		1
hadoop		1
hbase		1
```
    - Reduce0
```
hadoop		1
hadoop		1
hadoop		1
hadoop		1
hadoop		1
hadoop		1
hadoop		1
```
    - Reduce1
```
hive		1
hive		1
hbase		1
```
小结
- 了解数据倾斜的现象及原因

知识点18：数据倾斜：解决方案

目标：掌握数据倾斜的解决方案
路径
- step1：数据倾斜的场景
- step2：解决方案
实施
- 数据倾斜的场景
  - group by / count(distinct)
  - join
- 解决方案
  - group by / count(distinct)
    - 开启Combiner
```
hive.map.aggr=true
```
    - 随机分区
      - 方式一：开启参数
        
        hive.groupby.skewindata=true
      - 开启这个参数以后，底层会自动走两个MapReduce
    - 第一个MapReduce自动实现随机分区
      - 第二个MapReduce做最终的聚合
      - 方式二：手动指定

        distribute by rand()

join
- 尽量避免走Reduce Join
- Map Join
  - 尽量将不需要参加Join的数据过滤，将大表转换为小表
  - 构建分桶Bucket Map Join
小结
- 哪些场景下会产生数据倾斜以及怎么解决？
  - group by / count(distinct)
    - 开启Combiner
    - 实现随机分区
  - join：避免reduce join

你可能感兴趣的:(大数据,java,数据仓库,hive)

知识库管理中台架构：数据资产激活与企业效率跃升 Baklib-企业帮助文档其他
内容概要现代企业知识库管理中台架构的演进已突破传统文档存储范式，转向以智能分类引擎与动态数据治理为核心的认知计算体系。基于AI驱动的语义解析技术与分布式大数据处理框架，该架构实现了非结构化数据的多模态特征提取与知识图谱映射。其中，Baklib在数字体验平台（DXP）领域展现的跨系统整合能力，通过API接口标准化设计打通了CRM、ERP等业务系统的数据孤岛，其多级权限管理体系与实时版本控制机制保障了
如何将memcached中item批量导入导出？思维导图代码示例（java 架构) 用心去追梦 memcached java 架构
Memcached中Item的批量导入导出Memcached本身并没有直接提供用于批量导入和导出数据的工具或命令。然而，通过编程手段可以实现这一功能。以下是关于如何将Memcached中的Item进行批量导入和导出的方法和技术：1.批量导出（Dump）遍历所有键：由于Memcached不支持直接枚举所有的键，因此需要事先记录下所有的键，或者在应用程序层面维护一个键的列表。逐个获取值：使用客户端库提
AGI框架探索另一只又死又活的猫
开发十年，就只剩下这套Java开发体系了>>>随着对机器学习领域的深入探索，我渐渐迷上了AGI通用人工智能。所以，闲暇时就对AGI框架进行了深入的了解，看看哪些AGI框架与个人的理念相符，方便做进一步的研究之用。朋友给我分享了一篇收集和汇总AGI技术的文章，正好，我就以此为索引，对里面的每一个框架进行了考察：50个杀手级人工智能项目：https://mp.weixin.qq.com/s/qafBW
勇敢尝鲜之Springboot3大坑-集成Mybatisplus报错：ddlApplicationRunner 青花锁项目实战 Java微服务 ddlAppRunner Springboot mybatisplus
作者主页：青花锁简介：Java领域优质创作者、Java微服务架构公号作者简历模板、学习资料、面试题库、技术互助文末获取联系方式往期热门专栏回顾专栏描述Java项目实战介绍Java组件安装、使用；手写框架等Aws服务器实战AwsLinux服务器上操作nginx、git、JDK、VueJava微服务实战
Java:常用正则表达式 0cfjg0 JAVA基础正则表达式
常用正则表达式元字符.匹配换行符外任意字符\w匹配字母或数字或下划线或汉字\s匹配任意空白符号\d匹配数字\b匹配单词的开始或结束^匹配字符串的开始$字符串的结束eg:^\d\d\d$代表三位都是数字的字符串^\d{8}$代表8位数字的号码反义字符\W匹配不是数字字母下划线和汉字的字符\S匹配不是空白符的字符\D匹配任意非数字的字符\B匹配不是单词开头或结束的位置[^x]匹配除了x以外的任意字符e
SpringBoot 监控 SQL 运行情况（实战教程） 153_m0_67912929 spring boot sql 后端
1基本概念2添加依赖3配置相关属性4sql监控5慢sql记录6spring监控7去Ad（广告）8获取Druid的监控数据1基本概念Druid是Java语言中最好的数据库连接池。虽然HikariCP的速度稍快，但是，Druid能够提供强大的监控和扩展功能，也是阿里巴巴的开源项目。Druid是阿里巴巴开发的号称为监控而生的数据库连接池，在功能、性能、扩展性方面，都超过其他数据库连接池，包括DBCP、C
MyBatis 和 MyBatis-Plus 入门指南：新手必读 Mr_Paizong Java java mybatis
MyBatis和MyBatis-Plus入门指南：新手必读在Java开发中，持久层的设计和实现是非常重要的一环。MyBatis和MyBatis-Plus是两个广泛使用的数据库访问框架，它们可以帮助我们更高效地与数据库进行交互。本篇博客将详细介绍这两个框架的基本使用方法，并附有代码注释，帮助新手更好地理解和实践。一、什么是MyBatis和MyBatis-Plus？1.1MyBatisMyBatis是
蓝易云 - ubuntu如何修改java版本蓝易云 ubuntu java linux 数据库正则表达式运维服务器
在Ubuntu上修改Java版本，可以按照以下步骤进行：打开终端。查看系统中已安装的Java版本，运行以下命令：sudoupdate-java-alternatives--list选择要使用的Java版本，运行以下命令，将java_version替换为你想要使用的版本名称：sudoupdate-java-alternatives--setjava_version验证Java版本是否已经更改，运
使用java的spring-boot-starter-mail模块实现发送邮件功能 sinat_26668989 java
使用java的spring-boot-starter-mail模块实现发送邮件功能文章目录使用java的spring-boot-starter-mail模块实现发送邮件功能@[TOC](文章目录)一、注入配置二、引入依赖三、实现层一、注入配置在application.properties文件中，新增spring.mail.host=smtp.qq.comspring.mail.port=587sp
Java 实现快速排序算法：一条快速通道，分而治之菜就多练少说数据结构 java 排序算法算法
大家好，今天我们来聊聊快速排序（QuickSort）算法，这个经典的排序算法被广泛应用于各种需要高效排序的场景。作为一种分治法（DivideandConquer）算法，快速排序的效率在平均情况下非常高，是大多数排序算法中的“黄金选手”。那么，让我们一起来了解如何在Java中实现快速排序吧！一、什么是快速排序？快速排序是一种基于分治法的排序算法，它的基本思想是通过选择一个“基准”元素，将待排序的数组
SSM框架整合大揭秘：Spring+SpringMVC+MyBatis配置详解与实战小柒笔记 spring mybatis java
在JavaWeb开发中，SSM（Spring、SpringMVC、MyBatis）框架是常用的技术栈，它们分别负责业务逻辑层、控制层和数据访问层。本文将详细介绍如何整合这三个框架，并通过实例进行说明。SSM框架简介Spring：Spring是一个开源的企业级Java应用框架，它提供了IoC（控制反转）和AOP（面向切面编程）等特性，可以简化Java企业应用的开发。SpringMVC：SpringM
java spring项目_通过设置Spring Java Format插件集来保持Java项目的“ Spring”风格 diluan6799 java eclipse spring maven gradle
javaspring项目Spring为您提供了一个方便的工具，可确保您的Java项目具有一致的“Spring”风格！认识SpringJavaFormat插件集！该工具已于今年5月发布，当前版本为0.0.6。设置的插件包括：应用包装和空白约定的源格式化程序一个Checkstyle插件，可在整个代码库中实现一致性该项目的目的是提供一致性，因此，每个插件通常都不可配置。这意味着您需要更改代码以匹配所需的
Java 进阶：如何让线程主动让出 CPU begei 面试学习路线阿里巴巴 java 开发语言
Java进阶如何让线程主动让出CPUThreadsleepThreadyieldThreadcurrentThreadsuspendObjectwaitLockSupportparkThreadstopJava进阶：如何让线程主动让出CPUThread.sleepsleep方法可以让线程主动让出CPU，但是并不会释放锁。/***Causesthecurrentlyexecutingthreadto
使用 ahooks 解决 React 的闭包问题 SvqiAnaconda react.js javascript 前端前端开发
React是一种流行的JavaScript库，用于构建用户界面。它通过组件化的方式，以声明式的方式处理界面状态和交互。然而，在使用React进行开发时，我们可能会遇到闭包问题。闭包问题指的是在函数组件中使用的闭包变量可能会出现意外的行为，导致bug和内存泄漏。幸运的是，ahooks是一个优秀的解决方案，它可以帮助我们解决React中的闭包问题。ahooks是一个基于ReactHooks的库，它提供
使用 Ahooks 解决 React 的闭包问题 ZdqDeveloper react.js javascript 前端
React是一种流行的前端框架，但在使用React进行开发时，经常会遇到闭包问题。闭包问题主要出现在使用Hooks的函数组件中，由于JavaScript语言特性，函数组件内部的闭包会导致一些意外的行为和错误。为了解决这个问题，可以使用Ahooks库提供的解决方案。本文将详细介绍Ahooks是如何解决React的闭包问题的，并提供相应的源代码示例。首先，我们需要了解闭包问题是如何在React中产生的
JavaWeb学习日结陳奕迅所長. java mybatis spring boot
在实现分页操作的过程中，可以在SQL语句中不写两条SQL来统计总查询数、不限制分页条件，将这些功能在service层用PageHelper实现。引入依赖com.github.pagehelperpagehelper-spring-boot-starter1.4.7在service层实现类中重写方法@OverridepublicPageResultpage(Integerpage,Integerpa
Spring-JAVA 你在我身后 springboot学习笔记 java spring 后端
针对你的问题（211本科、Java开发方向），以下是中级Java开发工程师的晋升时间、薪资水平及技术要求的详细说明，结合国内一线/二线城市现状（数据基于2023年行业调研）：一、晋升中级开发工程师的时间1.常规路径最低年限：2.5-3年（需技术快速成长+项目实战）平均年限：3-4年（主流互联网公司标准）关键加速条件：主导过完整模块开发（如订单系统、支付系统）有高并发/分布式项目经验（如QPS100
Java统一异常设计：优雅处理异常，提升代码质量 Jayden　初级程序员进阶项目实战 java 统一异常处理
文章目录为什么需要统一异常设计？统一异常设计的核心思想实现统一异常设计的步骤1.定义ErrorCode接口2.实现模块化枚举用户模块错误码枚举订单模块错误码枚举3.定义顶层业务异常（BizException）4.全局异常处理器5.异常信息封装6.统一返回格式UML类图代码示例统一异常设计的优势总结在Java开发中，异常处理是保证程序健壮性和可维护性的重要环节。然而，如果没有统一的异常设计，代码中可
Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用 mosquito_lover1 python 深度学习 pytorch cnn
人脸识别技术是一种基于人脸特征进行身份识别的生物识别技术，其核心原理包括人脸检测、人脸对齐、特征提取、特征匹配、身份识别。一、应用场景安防：门禁、监控。金融：刷脸支付、身份验证。社交：自动标注、美颜。医疗：患者身份确认、情绪分析。二、关键技术深度学习：CNN在人脸检测、特征提取中表现优异。大数据：大规模数据集（如LFW、MegaFace）提升模型泛化能力。硬件加速：GPU、TPU等加速计算，提升实
Viewer.js----图片查看小丸子灬 javascript 开发语言 ecmascript
Viewer.js是一个用于展示图片、视频等多媒体内容的轻量级JavaScript库，提供了现代的图片查看器功能，比如放大、缩小、旋转、拖动等操作，适用于浏览器中查看图片等资源。官网地址：Viewer.js详细说明：Viewer.js–强大的JS/jQuery图片查看器_dowebok.如何使用Viewer.js1.1引入Viewer.js首先，你需要在HTML页面中引入Viewer.js。你可以
Java集合并发安全面试题夜游猿 Java Java开发工程师面试 java 安全 windows
Java集合并发安全面试题同步包装器Q1:Collections的同步包装器是如何实现线程安全的？publicclassSynchronizedWrapperExample{//1.基本使用publicvoiddemonstrateSynchronizedCollections(){//创建同步ListListsyncList=Collections.synchronizedList(newArr
【华为OD-E卷 - 82 宜居星球改造计划 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++javascript
【华为OD-E卷-宜居星球改造计划100分（python、java、c++、js、c）】题目2XXX年，人类通过对火星的大气进行宜居改造分析，使得火星已在理论上具备人类宜居的条件；由于技术原因，无法一次性将火星大气全部改造，只能通过局部处理形式；假设将火星待改造的区域为row*column的网格，每个网格有3个值，宜居区、可改造区、死亡区，使用YES、NO、NA代替，YES表示该网格已经完成大气改
【华为OD-E卷 - 81 会议接待 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++javascript
【华为OD-E卷-会议接待100分（python、java、c++、js、c）】题目某组织举行会议，来了多个代表团同时到达，接待处只有一辆汽车，可以同时接待多个代表团，为了提高车辆利用率，请帮接待员计算可以坐满车的接待方案，输出方案数量。约束:一个团只能上一辆车，并且代表团人数(代表团数量小于30，每个代表团人数小于30)小于汽车容量(汽车容量小于100)需要将车辆坐满输入描述第一行代表团人数，英
【华为OD-E卷 -43 德州扑克 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++javascript
【华为OD-E卷-德州扑克100分（python、java、c++、js、c）】题目五张牌，每张牌由牌大小和花色组成，牌大小2~10、J、Q、K、A，牌花色为红桃、黑桃、梅花、方块四种花色之一。判断牌型:牌型1，同花顺：同一花色的顺子，如红桃2红桃3红桃4红桃5红桃6。牌型2，四条：四张相同数字+单张，如红桃A黑桃A梅花A方块A+黑桃K。牌型3，葫芦：三张相同数字+一对，如红桃5黑桃5梅花5+方块
华为OD-E卷-01 补种未成活胡杨100分（python、java、c++、js、c） CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享 java 华为od python c++算法
题目描述近些年来，我国防沙治沙取得显著成果。某沙漠新种植N棵胡杨（编号1-N），排成一排。一个月后，有M棵胡杨未能成活。现可补种胡杨K棵，请问如何补种（只能补种，不能新种），可以得到最多的连续胡杨树？输入描述：N总种植数量，1k:iftrees[left]==0:#如果左边界是死树zeros_count-=1#死树数量减1left+=1#移动左指针，缩小窗口#更新最大连续区域长度max_lengt
工资（acwing）c/c++/java/python xinghuitunan c语言 c++java python
请编写一个程序，可以读取一名员工的员工编号，本月工作总时长（小时）以及时薪，并输出他的工资条，工资条中包括员工编号和员工月收入。输入格式输入包含两个整数和一个浮点数，分别代表员工编号，工作时长以及时薪。每个数占一行。输出格式输出共两行，第一行格式为NUMBER=X，其中XX为员工编号。第二行格式为SALARY=U$Y，其中YY为该员工月收入，保留两位小数。数据范围1≤员工编号≤1001≤员工编号≤
【Java基础】Java 中四种访问修饰符：private、缺省、protected 和 public 李少兄 Java java 开发语言
前言在Java编程的世界里，访问修饰符就像是一个个神奇的钥匙，它们决定了我们能否访问类、方法和变量。合理使用这些访问修饰符，不仅能提高代码的安全性，还能让代码的结构更加清晰，易于维护。一、生活场景类比为了更好地理解这四种访问修饰符，我们可以把它们想象成不同类型的房间。1.private：私人保险柜私人保险柜只有主人才能打开，其他人无法触碰里面的东西。在Java里，private修饰的成员就如同私人
HTML 脚本智慧浩海 HTML html 前端
HTML标签标签用于定义客户端脚本，比如JavaScript。元素既可包含脚本语句，也可通过src属性指向外部脚本文件。JavaScript最常用于图片操作、表单验证以及内容动态更新。下面的脚本会向浏览器输出"HelloWorld!"：实例document.write("HelloWorld!");尝试一下»Tip:学习更多关于Javascript教程，请查看JavaScript教程!HTML标签
Flask应用开发综合示例——博客系统 Botiway FlaskWeb python flask
下面是一个与前面不同的综合示例，展示如何使用Python+Flask+HTML+CSS+JavaScript+jQuery+Bootstrap+SQLAlchemy开发一个简单的博客系统。用户可以注册、登录、发布博客、查看博客列表以及删除自己的博客。1.项目结构blog_system/│├──app.py#Flask应用主文件├──models.py#SQLAlchemy模型定义├──requir
基于Java（SpringBoot）+MySQL+Vue实现博客系统+社区神仙别闹课程设计 java spring boot mysql
本来是想着写一博客系统的，后来写着写着就变成了一个“四不像”——介于博客和社区之间的一个东西。start数据库名称为graduation结构：graduation_admin后台管理页面(vue)graduation_web前台页面(vue)graduation_server后台api(Java)1.graduation_admin基于vue-admin-template编写#进入项目目录cdgr
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》