朱古力...

04 电商数仓(用户行为数据仓库 DWS/ADS层)

电商数仓(用户行为数据仓库 DWS/ADS层)

文章目录

电商数仓(用户行为数据仓库 DWS/ADS层)

1. 业务知识准备

1.1 业务术语
1.2 系统函数

1.2.1 collect_set 函数
1.2.2 日期处理函数

2. 需求一：用户活跃主题

2.1 DWS 层：服务数据层

2.1.1 每日活跃设备明细
2.1.2 每周活跃设备明细
2.1.3 每月活跃设备明细
2.1.4 DWS 层加载数据脚本

2.2 ADS 层：数据应用层

2.2.1 活跃设备数
2.2.2 ADS 层加载数据脚本

3. 需求二：用户新增主题

3.1 DWS 层

3.1.1 每日新增设备明细表
3.1.2 DWS 层加载数据脚本

3.2 ADS 层

3.2.1 每日新增设备表
3.2.2 ADS 层加载数据脚本

4. 需求三：用户留存主题

4.1 需求描述
4.2 DWS 层

4.2.1 DWS 层（每日留存用户明细表）
4.2.2 DWS 层（1，2，3，n 天留存用户明细表）
4.2.3 union 与 union all 区别

4.3 ADS 层

4.3.1 留存用户数
4.3.2 留存用户比率

5. 新数据准备
6. 需求四：沉默用户数

6.1 DWS 层
6.2 ADS 层
6.3 编写脚本

7. 需求五：本周回流用户数

7.1 DWS 层
7.2 ADS 层
7.3 编写脚本

8. 需求六：流失用户数

8.1 DWS 层
8.2 ADS 层
8.3 编写脚本

9. 需求七：最近连续三周活跃用户数

9.1 DWS 层
9.2 ADS 层
9.3 编写脚本

10. 需求八：最近七天内连续三天活跃用户数

10.1 DWS 层
10.2 ADS 层

10.3 编写脚本

1. 业务知识准备

1.1 业务术语

用户： 用户以设备为判断标准，在移动统计中，每个独立设备认为是一个独立用户。
新增用户： 如果一个用户首次打开某 APP ，那这个用户定义为新增用户；卸载再安装的设备，不会算作一次新增。新增用户包括日新增用户、周新增用户、月新增用户。
活跃用户： 打开应用的用户即为活跃用户，不考虑使用情况。
周(月)活跃用户： 某个自然周(月)内启动过应用的用户，该周(月)内多次启动只记为一个活跃用户。
月活跃率： 月活跃用户与截止到该月累计的用户总和之间的比例。
沉默用户： 用户只在安装当天(次日)启动一次，后续事件无再启动行为。
版本分布： 不同版本的周内各天新增用户数，活跃用户数和启动次数。
本周回流用户： 上周未启动过应用，本周启动了应用的用户。
连续 n 周活跃用户： 连续 n 周，每周至少启动一次。
忠诚用户： 连续活跃 5 周以上的用户。
连续活跃用户： 连续 2 周及以上活跃的用户。
近期流失用户： 连续 n（2<=n<=4）周没有启动应用的用户。
留存用户： 某段时间内的新增用户，经过一段时间后，仍然使用应用的被认作是留存用户，这部分用户占当时新增用户的比例即是留存率。
用户新鲜度： 新增用户数占活跃用户数的比例。
单次使用时长： 每次启动使用的时间长度。
日使用时长： 累计一天内的使用时间长度。
启动次数计算标准： IOS平台应用退到后台就算一次独立的启动；Android平台我们规定，两次启动之间的间隔小于30秒，被计算一次启动。用户在使用过程中，若因收发短信或接电话等退出应用30秒又再次返回应用中，那这两次行为应该是延续而非独立的，所以可以被算作一次使用行为，即一次启动。业内大多使用30秒这个标准，但用户还是可以自定义此时间间隔。

1.2 系统函数

1.2.1 collect_set 函数

说明： 将同一分组的不同行数据聚合成一个集合。

举例：

创建数据表：

drop table if exists stu;
create table stu (name string,
                   area string,
                   course string,
                   score int);

插入数据：

insert into table stu values('zs', 'bj', 'math', 88);
insert into table stu values('ls', 'bj', 'math', 99);
insert into table stu values('ww', 'sh', 'chinese', 92);
insert into table stu values('zl', 'sh', 'chinese', 54);
insert into table stu values('tq', 'bj', 'chinese', 91);

查询数据：

select * from stu;

把同一分组的不同行数据聚合成一个集合：

select course , collect_set(area) , avg(score) from stu group by course;

用下标可以取某一个：

select course , collect_set(area) , avg(score)[0] from stu group by course;

1.2.2 日期处理函数

date_format 函数（根据格式整理日期）

select date_format('2020-05-22','yyyy-MM');
-- 2020-05

date_add 函数（加减日期）

select date_add('2020-05-22',1);
-- 2020-02-23

select date_add('2020-05-22',-1);
-- 2020-02-21

next_day 函数

-- 取当前天的下一个周一
select next_day('2020-05-22','MO');
-- 2020-05-25

-- 取当前周的周一
select date_add(next_day('2020-05-22','MO'),-7);
-- 2020-05-18

last_day 函数（求当月最后一天日期）

select last_day('2020-05-22');
-- 2020-05-31

2. 需求一：用户活跃主题

2.1 DWS 层：服务数据层

2.1.1 每日活跃设备明细

跟设备唯一标识 mid_id 有关，且与启动表 dwd_start_log 有关。

建表语句：

drop table if exists dws_uv_detail_day;
create external table dws_uv_detail_day (
  `mid_id` string,
  `user_id` string,
  `version_code` string,
  `version_name` string,
  `lang` string,
  `source` string,
  `os` string,
  `area` string,
  `model` string,
  `brand` string,
  `sdk_version` string,
  `gmail` string,
  `height_width` string,
  `app_time` string,
  `net_work` string,
  `lng` string,
  `lat` string
)
partitioned by(`dt` string)
stored as parquet
location '/warehouse/gmall/dws/dws_uv_detail_day/';

插入数据

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table dws_uv_detail_day
partition(dt='2020-05-11')
select
  mid_id,
  concat_ws('|', collect_set(user_id)) user_id,
  concat_ws('|', collect_set(version_code)) version_code ,
  concat_ws('|', collect_set(version_name)) version_name ,
  concat_ws('|', collect_set(lang)) lang ,
  concat_ws('|', collect_set(source)) source ,
  concat_ws('|', collect_set(os)) os ,
  concat_ws('|', collect_set(area)) area ,
  concat_ws('|', collect_set(model)) model ,
  concat_ws('|', collect_set(brand)) brand ,
  concat_ws('|', collect_set(sdk_version)) sdk_version ,
  concat_ws('|', collect_set(gmail)) gmail ,
  concat_ws('|', collect_set(height_width)) height_width ,
  concat_ws('|', collect_set(app_time)) app_time ,
  concat_ws('|', collect_set(net_work)) net_work ,
  concat_ws('|', collect_set(lng)) lng ,
  concat_ws('|', collect_set(lat)) lat 
from dwd_start_log
where dt='2020-05-11' 
group by mid_id;

查询导入结果

select * from dws_uv_detail_day limit 2;
select count(*) from dws_uv_detail_day;

2.1.2 每周活跃设备明细

跟设备唯一标识 mid_id 有关，且与日活表 dws_uv_detail_day 有关。

建表语句

drop table if exists dws_uv_detail_week;
create external table dws_uv_detail_week (
  `mid_id` string,
  `user_id` string,
  `version_code` string,
  `version_name` string,
  `lang` string,
  `source` string,
  `os` string,
  `area` string,
  `model` string,
  `brand` string,
  `sdk_version` string,
  `gmail` string,
  `height_width` string,
  `app_time` string,
  `net_work` string,
  `lng` string,
  `lat` string,
  `monday_date` string,
  `sunday_date` string
)
partitioned by(`wk_dt` string) -- wk_dt 相当于表中的一个字段，且在最后
stored as parquet
location '/warehouse/gmall/dws/dws_uv_detail_week/';

插入数据

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table dws_uv_detail_week
partition(wk_dt) 
select 
  mid_id,
  concat_ws('|', collect_set(user_id)) user_id,
  concat_ws('|', collect_set(version_code)) version_code ,
  concat_ws('|', collect_set(version_name)) version_name ,
  concat_ws('|', collect_set(lang)) lang ,
  concat_ws('|', collect_set(source)) source ,
  concat_ws('|', collect_set(os)) os ,
  concat_ws('|', collect_set(area)) area ,
  concat_ws('|', collect_set(model)) model ,
  concat_ws('|', collect_set(brand)) brand ,
  concat_ws('|', collect_set(sdk_version)) sdk_version ,
  concat_ws('|', collect_set(gmail)) gmail ,
  concat_ws('|', collect_set(height_width)) height_width ,
  concat_ws('|', collect_set(app_time)) app_time ,
  concat_ws('|', collect_set(net_work)) net_work ,
  concat_ws('|', collect_set(lng)) lng ,
  concat_ws('|', collect_set(lat)) lat ,
  date_add(next_day('2020-05-11', 'MO') , -7),
  date_add(next_day('2020-05-11', 'MO') , -1),
  concat(date_add(next_day('2020-05-11', 'MO') , -7), '_', date_add(next_day('2020-05-11', 'MO') , -1))
from dws_uv_detail_day
where dt>=date_add(next_day('2020-05-11', 'MO') , -7) and dt<=date_add(next_day('2020-05-11', 'MO') , -1)
group by mid_id;

查询导入结果

select * from dws_uv_detail_week limit 2;
select count(*) from dws_uv_detail_week;

2.1.3 每月活跃设备明细

跟设备唯一标识 mid_id 有关，且与日活表 dws_uv_detail_day 有关。

建表语句

drop table if exists dws_uv_detail_month;
create external table dws_uv_detail_month (
  `mid_id` string,
  `user_id` string,
  `version_code` string,
  `version_name` string,
  `lang` string,
  `source` string,
  `os` string,
  `area` string,
  `model` string,
  `brand` string,
  `sdk_version` string,
  `gmail` string,
  `height_width` string,
  `app_time` string,
  `net_work` string,
  `lng` string,
  `lat` string
)
partitioned by(`mt_dt` string) 
stored as parquet
location '/warehouse/gmall/dws/dws_uv_detail_month/';

插入数据

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table dws_uv_detail_month
partition(mt_dt)
select 
  mid_id,
  concat_ws('|', collect_set(user_id)) user_id,
  concat_ws('|', collect_set(version_code)) version_code ,
  concat_ws('|', collect_set(version_name)) version_name ,
  concat_ws('|', collect_set(lang)) lang ,
  concat_ws('|', collect_set(source)) source ,
  concat_ws('|', collect_set(os)) os ,
  concat_ws('|', collect_set(area)) area ,
  concat_ws('|', collect_set(model)) model ,
  concat_ws('|', collect_set(brand)) brand ,
  concat_ws('|', collect_set(sdk_version)) sdk_version ,
  concat_ws('|', collect_set(gmail)) gmail ,
  concat_ws('|', collect_set(height_width)) height_width ,
  concat_ws('|', collect_set(app_time)) app_time ,
  concat_ws('|', collect_set(net_work)) net_work ,
  concat_ws('|', collect_set(lng)) lng ,
  concat_ws('|', collect_set(lat)) lat ,
  date_format('2020-05-11', 'yyyy-MM')
from dws_uv_detail_day
where date_format(dt, 'yyyy-MM') = date_format('2020-05-11', 'yyyy-MM')
group by mid_id;

查询导入结果

select * from dws_uv_detail_month limit 2;
select count(*) from dws_uv_detail_month;

2.1.4 DWS 层加载数据脚本

在 hadoop101 的 /home/zgl/bin/ 目录下创建脚本 dws_uv_log.sh。

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n $1 ] ; then
	do_date=$1
else
	do_date=`date -d "-1 day" +%F`
fi

sql="
set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table "$APP".dws_uv_detail_day
partition(dt='$do_date')
select
  mid_id,
  concat_ws('|', collect_set(user_id)) user_id,
  concat_ws('|', collect_set(version_code)) version_code ,
  concat_ws('|', collect_set(version_name)) version_name ,
  concat_ws('|', collect_set(lang)) lang ,
  concat_ws('|', collect_set(source)) source ,
  concat_ws('|', collect_set(os)) os ,
  concat_ws('|', collect_set(area)) area ,
  concat_ws('|', collect_set(model)) model ,
  concat_ws('|', collect_set(brand)) brand ,
  concat_ws('|', collect_set(sdk_version)) sdk_version ,
  concat_ws('|', collect_set(gmail)) gmail ,
  concat_ws('|', collect_set(height_width)) height_width ,
  concat_ws('|', collect_set(app_time)) app_time ,
  concat_ws('|', collect_set(net_work)) net_work ,
  concat_ws('|', collect_set(lng)) lng ,
  concat_ws('|', collect_set(lat)) lat 
from "$APP".dwd_start_log
where dt='$do_date' 
group by mid_id;

insert overwrite table "$APP".dws_uv_detail_week
partition(wk_dt) 
select 
  mid_id,
  concat_ws('|', collect_set(user_id)) user_id,
  concat_ws('|', collect_set(version_code)) version_code ,
  concat_ws('|', collect_set(version_name)) version_name ,
  concat_ws('|', collect_set(lang)) lang ,
  concat_ws('|', collect_set(source)) source ,
  concat_ws('|', collect_set(os)) os ,
  concat_ws('|', collect_set(area)) area ,
  concat_ws('|', collect_set(model)) model ,
  concat_ws('|', collect_set(brand)) brand ,
  concat_ws('|', collect_set(sdk_version)) sdk_version ,
  concat_ws('|', collect_set(gmail)) gmail ,
  concat_ws('|', collect_set(height_width)) height_width ,
  concat_ws('|', collect_set(app_time)) app_time ,
  concat_ws('|', collect_set(net_work)) net_work ,
  concat_ws('|', collect_set(lng)) lng ,
  concat_ws('|', collect_set(lat)) lat ,
  date_add(next_day('2020-05-11', 'MO') , -7),
  date_add(next_day('2020-05-11', 'MO') , -1),
  concat(date_add(next_day('$do_date', 'MO') , -7), '_', date_add(next_day('$do_date', 'MO') , -1))
from "$APP".dws_uv_detail_day
where dt>=date_add(next_day('$do_date', 'MO') , -7) and dt<=date_add(next_day('$do_date', 'MO') , -1)
group by mid_id;

insert overwrite table "$APP".dws_uv_detail_month
partition(mt_dt)
select 
  mid_id,
  concat_ws('|', collect_set(user_id)) user_id,
  concat_ws('|', collect_set(version_code)) version_code ,
  concat_ws('|', collect_set(version_name)) version_name ,
  concat_ws('|', collect_set(lang)) lang ,
  concat_ws('|', collect_set(source)) source ,
  concat_ws('|', collect_set(os)) os ,
  concat_ws('|', collect_set(area)) area ,
  concat_ws('|', collect_set(model)) model ,
  concat_ws('|', collect_set(brand)) brand ,
  concat_ws('|', collect_set(sdk_version)) sdk_version ,
  concat_ws('|', collect_set(gmail)) gmail ,
  concat_ws('|', collect_set(height_width)) height_width ,
  concat_ws('|', collect_set(app_time)) app_time ,
  concat_ws('|', collect_set(net_work)) net_work ,
  concat_ws('|', collect_set(lng)) lng ,
  concat_ws('|', collect_set(lat)) lat ,
  date_format('$do_date', 'yyyy-MM')
from "$APP".dws_uv_detail_day
where date_format(dt, 'yyyy-MM') = date_format('$do_date', 'yyyy-MM')
group by mid_id;
"

$hive -e "$sql"

增加脚本执行权限
```
chmod 777 dws_uv_log.sh
```
脚本使用
```
dws_uv_log.sh 2020-05-12
```

查询是否导入成功

select count(*) from dws_uv_detail_month where mt_dt='2020-05-12';

2.2 ADS 层：数据应用层

2.2.1 活跃设备数

目标：当日、当周、当月设备活跃数

建表语句

drop table if exists ads_uv_count;
create external table ads_uv_count (
	`dt` string,   -- 统计日期
  `day_count` bigint,   -- 当天活跃用户数
  `week_count` bigint,   -- 当周活跃用户数
  `month_count` bigint,   -- 当月活跃用户数
  `is_weekend` string,  -- Y/N代表是否是周末，用于得到本周的最终结果
  `is_monthend` string  -- Y/N代表是否是月末，用于得到本月的最终结果
)
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_uv_count_day/';

插入数据

set hive.exec.dynamic.partition.mode=nonstrict;

insert into table ads_uv_count
select 
  '2020-05-11' dt,
  daycount.ct day_count,
  weekcount.ct week_count,
  monthcount.ct month_count,
  if(date_add(next_day('2020-05-11','MO'),-1)='2020-05-11', 'Y', 'N'),
  if(last_day('2020-05-11')='2020-05-11', 'Y', 'N')
from (
  select 
    '2020-05-11' dt, count(*) ct 
  from 
    dws_uv_detail_day 
  where 
    dt='2020-05-11'
) daycount 
join
(
  select 
    '2020-05-11' dt, count(*) ct 
  from 
    dws_uv_detail_week 
  where 
    wk_dt=concat(date_add(next_day('2020-05-11','MO'),-7), '_', date_add(next_day('2020-05-11','MO'),-1) ) 
) weekcount on daycount.dt=weekcount.dt 
join
(
  select 
    '2020-05-11' dt, count(*) ct 
  from 
    dws_uv_detail_month 
  where 
    mt_dt=date_format('2020-05-11' , 'yyyy-MM')
) monthcount on daycount.dt=monthcount.dt ;

查看导入是否成功
```
select * from ads_uv_count;
```

2.2.2 ADS 层加载数据脚本

在 hadoop101 的 /home/zhl/bin/ 的目录下创建脚本 ads_uv_log.sh

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else
  do_date=`date -d "-1 day" +%F`
fi

sql="
  set hive.exec.dynamic.partition.mode=nonstrict;

insert into table "$APP".ads_uv_count
select 
  '$do_date' dt,
  daycount.ct day_count,
  weekcount.ct week_count,
  monthcount.ct month_count,
  if(date_add(next_day('$do_date','MO'),-1)='$do_date', 'Y', 'N'),
  if(last_day('$do_date')='$do_date', 'Y', 'N')
from (
  select 
    '$do_date' dt, count(*) ct 
  from 
    "$APP".dws_uv_detail_day 
  where 
    dt='$do_date'
) daycount 
join
(
  select 
    '$do_date' dt, count(*) ct 
  from 
    "$APP".dws_uv_detail_week 
  where 
    wk_dt=concat(date_add(next_day('$do_date','MO'),-7), '_', date_add(next_day('$do_date','MO'),-1) ) 
) weekcount on daycount.dt=weekcount.dt 
join
(
  select 
    '$do_date' dt, count(*) ct 
  from 
    "$APP".dws_uv_detail_month 
  where 
    mt_dt=date_format('$do_date' , 'yyyy-MM')
) monthcount on daycount.dt=monthcount.dt ;
"

$hive -e "$sql"

给脚本增加可执行权限
```
chmod 777 ads_uv_log.sh
```
执行脚本
```
ads_uv_log.sh 2020-05-12
```
查看脚本执行结果
```
select * from ads_uv_count;
```

3. 需求二：用户新增主题

3.1 DWS 层

3.1.1 每日新增设备明细表

与设备的唯一标识 mid_id 有关，需要使用到日活表 dws_uv_detail_day。

建表语句

drop table if exists dws_new_mid_day;
create external table dws_new_mid_day (
  `mid_id` string,
  `user_id` string,
  `version_code` string,
  `version_name` string,
  `lang` string,
  `source` string,
  `os` string,
  `area` string,
  `model` string,
  `brand` string,
  `sdk_version` string,
  `gmail` string,
  `height_width` string,
  `app_time` string,
  `net_work` string,
  `lng` string,
  `lat` string,
  `create_date` string
)
stored as parquet
location '/warehouse/gmall/dws/dws_new_mid_day/';

插入数据

insert into table dws_new_mid_day 
select 
  ud.mid_id,
  ud.user_id,
  ud.version_code,
  ud.version_name,
  ud.lang,
  ud.source,
  ud.os,
  ud.area,
  ud.model,
  ud.brand,
  ud.sdk_version,
  ud.gmail,
  ud.height_width,
  ud.app_time,
  ud.net_work,
  ud.lng,
  ud.lat,
  '2020-05-11'
from 
  dws_uv_detail_day ud left join dws_new_mid_day nm
  on ud.mid_id=nm.mid_id
where ud.dt='2020-05-11' and nm.mid_id is null;

查询导入的数据
```
select * from dws_new_mid_day;
```

3.1.2 DWS 层加载数据脚本

在 hadoop101 的 /home/zgl/bin/ 目录下创建 dws_new_mid_day_log.sh

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else 
  do_date=`date -d "-1 day" +%F`
fi

sql="
insert into table "$APP".dws_new_mid_day 
select 
  ud.mid_id,
  ud.user_id,
  ud.version_code,
  ud.version_name,
  ud.lang,
  ud.source,
  ud.os,
  ud.area,
  ud.model,
  ud.brand,
  ud.sdk_version,
  ud.gmail,
  ud.height_width,
  ud.app_time,
  ud.net_work,
  ud.lng,
  ud.lat,
  '$do_date'
from 
  "$APP".dws_uv_detail_day ud left join "$APP".dws_new_mid_day nm
  on ud.mid_id=nm.mid_id
where ud.dt='$do_date' and nm.mid_id is null;
"

$hive -e "$sql"

给脚本添加执行权限
```
chmod 777 dws_new_mid_day_log.sh
```
执行脚本
```
dws_new_mid_day_log.sh 2020-05-12
```

查看脚本执行情况

select * from dws_new_mid_day_log.sh limit 2;
select count(*) from dws_new_mid_day_log.sh;

3.2 ADS 层

3.2.1 每日新增设备表

建表语句

drop table if exists ads_new_mid_count;
create external table ads_new_mid_count (
  `create_date` string,
  `new_mid_count` bigint
) 
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_new_mid_count';

插入数据

insert into table ads_new_mid_count 
select 
  '2020-05-11',
  count(*)
from dws_new_mid_day
where create_date='2020-05-11';

查看是否插入成功
```
select * from ads_new_mid_count;
```

3.2.2 ADS 层加载数据脚本

在 hadoop101 的 /home/zgl/bin/ 目录下创建脚本 ads_new_mid_count_log.sh。

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else 
  do_date=`date -d "-1 day" +%F`
fi

sql="
insert into table "$APP".ads_new_mid_count 
select 
  '$do_date',
  count(*)
from "$APP".dws_new_mid_day
where create_date='$do_date';
"

$hive -e "$sql"

给脚本添加执行权限
```
ads_new_mid_count_log.sh 2020-05-12
```
查看脚本执行结果
```
select * from ads_new_mid_count;
```

4. 需求三：用户留存主题

4.1 需求描述

**需求：**每天计算前1、2、3、4、7、14天的留存率。
分析： 假设今天是12日，统计前一天的留存率。
- 分母获取： 11日活跃表 left join 每日新增表，新增表 id 为 null 的为 11日的新增设备。
- 分子获取： 11日的新增 join 12日的活跃表，且新增日期是11日，活跃日期是12日。
- 留存率计算： 11日的新增设备且12日的活跃设备，与11日新增设备相比，计算出留存率。

4.2 DWS 层

4.2.1 DWS 层（每日留存用户明细表）

建表语句

drop table if exists dws_user_retention_day;
create external table dws_user_retention_day (
  `mid_id` string,
  `user_id` string,
  `version_code` string,
  `version_name` string,
  `lang` string,
  `source` string,
  `os` string,
  `area` string,
  `model` string,
  `brand` string,
  `sdk_version` string,
  `gmail` string,
  `height_width` string,
  `app_time` string,
  `net_work` string,
  `lng` string,
  `lat` string,
  `create_date` string,  -- 新增日期
  `retention_day` string  -- 截至当前日期留存天数
)
partitioned by(`dt` string)
stored as parquet
location '/warehouse/gmall/dws/dws_user_retention_day';

导入数据：(计算前一天的新用户访问留存明细)

insert overwrite table dws_user_retention_day
partition (dt='2020-05-12')
select 
  nm.mid_id,
  nm.user_id , 
  nm.version_code , 
  nm.version_name , 
  nm.lang , 
  nm.source, 
  nm.os, 
  nm.area, 
  nm.model, 
  nm.brand, 
  nm.sdk_version, 
  nm.gmail, 
  nm.height_width,
  nm.app_time,
  nm.net_work,
  nm.lng,
  nm.lat,
  nm.create_date,
  1 retention_day
from dws_uv_detail_day ud join dws_new_mid_day nm 
on ud.mid_id = nm.mid_id 
where ud.dt='2020-05-12' and nm.create_date=date_add('2020-05-12',-1);  -- 今日活跃 and 前一天新增

查询导入结果

select count(*) from dws_user_retention_day;

4.2.2 DWS 层（1，2，3，n 天留存用户明细表）

导入数据 (每天计算前 1，2，3，n 天的新用户访问留存明细)

insert overwrite table dws_user_retention_day
partition (dt='2020-05-12')
select 
  nm.mid_id,
  nm.user_id , 
  nm.version_code , 
  nm.version_name , 
  nm.lang , 
  nm.source, 
  nm.os, 
  nm.area, 
  nm.model, 
  nm.brand, 
  nm.sdk_version, 
  nm.gmail, 
  nm.height_width,
  nm.app_time,
  nm.net_work,
  nm.lng,
  nm.lat,
  nm.create_date,
  1 retention_day
from dws_uv_detail_day ud join dws_new_mid_day nm 
on ud.mid_id = nm.mid_id 
where ud.dt='2020-05-12' and nm.create_date=date_add('2020-05-12',-1)

union all 

select 
  nm.mid_id,
  nm.user_id , 
  nm.version_code , 
  nm.version_name , 
  nm.lang , 
  nm.source, 
  nm.os, 
  nm.area, 
  nm.model, 
  nm.brand, 
  nm.sdk_version, 
  nm.gmail, 
  nm.height_width,
  nm.app_time,
  nm.net_work,
  nm.lng,
  nm.lat,
  nm.create_date,
  2 retention_day
from dws_uv_detail_day ud join dws_new_mid_day nm 
on ud.mid_id = nm.mid_id 
where ud.dt='2020-05-12' and nm.create_date=date_add('2020-05-12',-2)

union all 

select 
  nm.mid_id,
  nm.user_id , 
  nm.version_code , 
  nm.version_name , 
  nm.lang , 
  nm.source, 
  nm.os, 
  nm.area, 
  nm.model, 
  nm.brand, 
  nm.sdk_version, 
  nm.gmail, 
  nm.height_width,
  nm.app_time,
  nm.net_work,
  nm.lng,
  nm.lat,
  nm.create_date,
  3 retention_day
from dws_uv_detail_day ud join dws_new_mid_day nm 
on ud.mid_id = nm.mid_id 
where ud.dt='2020-05-12' and nm.create_date=date_add('2020-05-12',-3);

查询导入结果

select retention_day, count(*) from dws_user_retention_day group by retention_day;

4.2.3 union 与 union all 区别

union 会将联合的结果集去重，效率较 union all 差。
union all 不会对结果集去重，所以效率较高。

4.3 ADS 层

4.3.1 留存用户数

建表语句

drop table if exists ads_user_retention_day_count;
create external table ads_user_retention_day_count (
  `create_date` string,
  `retention_day` string,
  `retention_count` bigint
)
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_user_retention_day_count/';

导入数据

insert into table ads_user_retention_day_count
select 
  create_date,
  retention_day,
  count(*) retention_count
from dws_user_retention_day 
where dt='2020-05-12'
group by create_date,retention_day;

查询导入结果

select * from ads_user_retention_day_count;

4.3.2 留存用户比率

建表语句

drop table if exists ads_user_retention_day_rate;
create external table ads_user_retention_day_rate (
  `stat_date` string,
  `create_date` string,
  `retention_day` string,
  `retention_count` bigint,
  `new_mid_count` bigint,
  `retention_ratio` decimal(10,2)
)
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_user_retention_day_rate/';

导入数据

insert into table ads_user_retention_day_rate
select 
  '2020-05-12',
  ur.create_date,
  ur.retention_day, 
  ur.retention_count, 
  nc.new_mid_count,
  ur.retention_count/nc.new_mid_count*100
from
(
  select
    create_date,
    retention_day,
    count(*) retention_count
  from dws_user_retention_day
  where dt='2020-05-12'
  group by create_date,retention_day
) ur join ads_new_mid_count nc on nc.create_date=ur.create_date;

查询导入结果

select * from ads_user_retention_day_rate;

5. 新数据准备

为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数，需要准备 2020-05-13、2020-05-21日的数据。

2020-05-13 数据准备

2.1 修改日志事件

dt.sh 2020-05-13

2.2 启动集群

cluster.sh start

2.3 生成日志数据

lg.sh

2.4 将 HDFS 数据导入 ODS 层

ods_log.sh 2020-05-13

2.5 将 ODS 层数据导入 DWD 层

dwd_start_log.sh 2020-05-13
dwd_base_log.sh 2020-05-13
dwd_event_log.sh 2020-05-13

2.6 将 DWD 层数据导入到 DWS 层

dws_uv_log.sh 2020-05-13

2.7 验证

select * from dws_uv_detail_day where dt='2020-05-13' limit 2;

2020-05-21 数据准备

3.1 修改日志事件

dt.sh 2020-05-21

3.2 启动集群

cluster.sh start

3.3 生成日志数据

lg.sh

3.4 将 HDFS 数据导入 ODS 层

ods_log.sh 2020-05-21

3.5 将 ODS 层数据导入 DWD 层

dwd_start_log.sh 2020-05-21
dwd_base_log.sh 2020-05-21
dwd_event_log.sh 2020-05-21

3.6 将 DWD 层数据导入到 DWS 层

dws_uv_log.sh 2020-05-21

3.7 验证

select * from dws_uv_detail_day where dt='2020-05-21' limit 2;

6. 需求四：沉默用户数

沉默用户： 指的是只在安装当天启动过，且启动时间是在一周前。

6.1 DWS 层

使用 dws_uv_detail_day 作为 DWS 层数据。

6.2 ADS 层

建表语句

drop table if exists ads_slient_count;
create external table ads_slient_count (
  `dt` string ,
  `slient_count` bigint
) 
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_slient_count';

导入数据

insert into table ads_slient_count
select 
  '2020-05-21' dt,
  count(*) slient_count
from 
(
  select mid_id
  from dws_uv_detail_day
  where dt<='2020-05-21'
  group by mid_id
  having count(*)=1 and min(dt) < date_add('2020-05-21', -7)
) t1;

查询导入结果
```
select * from ads_slient_count;
```

6.3 编写脚本

在 hadoop101 的 /home/zgl/bin/ 在创建脚本 ods_slient_log.sh

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else
  do_date=`date -d "-1 day" +%F`
fi

sql="
insert into table "$APP".ads_slient_count
select 
  '$do_date' dt,
  count(*) slient_count
from 
(
  select mid_id
  from "$APP".dws_uv_detail_day
  where dt<='$do_date'
  group by mid_id
  having count(*)=1 and min(dt) < date_add('$do_date', -7)
) t1; 
"

$hive -e "$sql"

增加脚本执行权限
```
chmod 777 ads_slient_log.sh
```
执行脚本
```
ads_slient_log.sh 2020-05-21
```
查询结果
```
select * from ads_slient_count;
```

7. 需求五：本周回流用户数

本周回流 = 本周活跃 - 本周新增 - 上周活跃

7.1 DWS 层

使用日活明细表 dws_uv_detail_day 作为 DWS 层数据。

7.2 ADS 层

建表语句

drop table if exists ads_back_count;
create external table ads_back_count (
  `dt` string,
  `wk_dt` string,
  `wastage_count` bigint
)
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_back_count';

导入数据

insert into table ads_back_count
select 
  '2020-05-21' dt,
  concat(date_add(next_day('2020-05-21','MO'),-7), '_', date_add(next_day('2020-05-21','MO'),-1)) wk_dt,
  count(*)
from
(
  select t1.mid_id
  from 
  (
    select  mid_id
    from dws_uv_detail_week
    where wk_dt=concat(date_add(next_day('2020-05-21','MO'),-7),'_',date_add(next_day('2020-05-21','MO'),-1))
  ) t1
  left join
  (
    select mid_id
    from dws_new_mid_day
    where create_date<=date_add(next_day('2020-05-21','MO'),-1) and create_date>=date_add(next_day('2020-05-21','MO'),-7)
  )t2
  on t1.mid_id=t2.mid_id
  left join
  (
      select  mid_id
      from dws_uv_detail_week
      where wk_dt=concat(date_add(next_day('2020-05-21','MO'),-7*2),'_',date_add(next_day('2020-05-21','MO'),-7-1))
  )t3
  on t1.mid_id=t3.mid_id
  where t2.mid_id is null and t3.mid_id is null
) t4;

查询结果
```
select * from ads_back_count;
```

7.3 编写脚本

在 hadoop101 的 /home/zgl/bin/ 目录下创建 ads_back_log.sh

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else
  do_date=`date -d "-1 day" +%F`
fi


sql="
insert into table "$APP".ads_back_count
select 
  '$do_date' dt,
  concat(date_add(next_day('$do_date','MO'),-7), '_', date_add(next_day('$do_date','MO'),-1)) wk_dt,
  count(*)
from
(
  select t1.mid_id
  from 
  (
    select  mid_id
    from "$APP".dws_uv_detail_week
    where wk_dt=concat(date_add(next_day('$do_date','MO'),-7),'_',date_add(next_day('$do_date','MO'),-1))
  ) t1
  left join
  (
    select mid_id
    from "$APP".dws_new_mid_day
    where create_date<=date_add(next_day('$do_date','MO'),-1) and create_date>=date_add(next_day('$do_date','MO'),-7)
  )t2
  on t1.mid_id=t2.mid_id
  left join
  (
      select  mid_id
      from "$APP".dws_uv_detail_week
      where wk_dt=concat(date_add(next_day('$do_date','MO'),-7*2),'_',date_add(next_day('$do_date','MO'),-7-1))
  )t3
  on t1.mid_id=t3.mid_id
  where t2.mid_id is null and t3.mid_id is null
) t4;
"

$hive -e "$sql"

给脚本添加执行权限
```
chmod 777 ads_back_log.sh
```
执行脚本
```
ads_back_log.sh 2020-05-21
```
查询结果
```
select * from ads_back_count;
```

8. 需求六：流失用户数

流失用户： 最近7天未登录的称之为流失用户。

8.1 DWS 层

使用日活明细表dws_uv_detail_day 作为 DWS 层数据。

8.2 ADS 层

建表语句

drop table if exists ads_wastage_count;
create external table ads_wastage_count( 
    `dt` string COMMENT '统计日期',
    `wastage_count` bigint COMMENT '流失设备数'
) 
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_wastage_count';

导入数据：

insert into table ads_wastage_count
select
     '2020-05-21',
     count(*)
from 
(
    select mid_id
from dws_uv_detail_day
    group by mid_id
    having max(dt)<=date_add('2020-05-21',-7)
)t1;

查询导入结果
```
select * from ads_wastage_count;
```

8.3 编写脚本

在 hadoop101 的 /home/zgl/bin/ 目录下创建 ads_wastage_log.sh

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else
  do_date=`date -d "-1 day" +%F`
fi

sql="
insert into table "$APP".ads_wastage_count
select
     '$do_date',
     count(*)
from 
(
    select mid_id
from "$APP".dws_uv_detail_day
    group by mid_id
    having max(dt)<=date_add('$do_date',-7)
)t1;
"

$hive -e "$sql"

给脚本添加执行权限
```
chmod 777 ads_wastage_log.sh
```
执行脚本
```
ads_wastage_log.sh 2020-05-21
```
查询结果
```
select * from ads_wastage_count;
```

9. 需求七：最近连续三周活跃用户数

最近3周连续活跃的用户：通常是周一对前3周的数据做统计，该数据一周计算一次。

9.1 DWS 层

使用周明细表 dws_uv_detail_week 作为 DWS 层数据。

9.2 ADS 层

建表语句

drop table if exists ads_continuity_wk_count;
create external table ads_continuity_wk_count(
  `dt` string,
  `wk_dt` string,
  `continuity_count` bigint
)
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_continuity_wk_count';

导入 2020-05-21 所在周的数据

insert into table ads_continuity_wk_count
select 
     '2020-05-21',
     concat(date_add(next_day('2020-05-21','MO'),-7*3),'_',date_add(next_day('2020-05-21','MO'),-1)),
     count(*)
from 
(
    select mid_id
    from dws_uv_detail_week
    where wk_dt>=concat(date_add(next_day('2020-05-21','MO'),-7*3),'_',date_add(next_day('2020-05-21','MO'),-7*2-1)) 
    and wk_dt<=concat(date_add(next_day('2020-05-21','MO'),-7),'_',date_add(next_day('2020-05-21','MO'),-1))
    group by mid_id
    having count(*)=3
)t1;

查询
```
select * from ads_continuity_wk_count;
```

9.3 编写脚本

在 hadoop101 的 /home/zgl/bin/ 下创建脚本：ads_continuity_wk_log.sh

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else
  do_date=`date -d "-1 day" +%F`
fi

sql="
insert into table "$APP".ads_continuity_wk_count
select 
     '$do_date',   concat(date_add(next_day('$do_date','MO'),-7*3),'_',date_add(next_day('$do_date','MO'),-1)),
     count(*)
from 
(
    select mid_id
    from "$APP".dws_uv_detail_week
    where wk_dt>=concat(date_add(next_day('$do_date','MO'),-7*3),'_',date_add(next_day('$do_date','MO'),-7*2-1)) 
    and wk_dt<=concat(date_add(next_day('$do_date','MO'),-7),'_',date_add(next_day('$do_date','MO'),-1))
    group by mid_id
    having count(*)=3
)t1;
"

$hive -e "$sql"

给脚本添加执行权限
```
chmod 777 ads_continuity_wk_log.sh
```
执行脚本
```
ads_continuity_wk_log.sh 2020-05-21
```
查看运行结果
```
select * from ads_continuity_wk_count;
```

10. 需求八：最近七天内连续三天活跃用户数

10.1 DWS 层

使用日活明细表 dws_uv_detail_day 作为 DWS 层数据。

10.2 ADS 层

建表语句

drop table if exists ads_continuity_uv_count;
create external table ads_continuity_uv_count( 
    `dt` string ,
    `wk_dt` string ,
    `continuity_count` bigint
) 
row format delimited fields terminated by '\t'
location '/warehouse/gmall/ads/ads_continuity_uv_count';

导入数据

insert into table ads_continuity_uv_count
select
    '2020-05-21',
    concat(date_add('2020-05-21',-6),'_','2020-05-21'),
    count(*)
from
(
    select mid_id
    from
    (
    select mid_id      
     from
     (
         select 
             mid_id,
             date_sub(dt,rank) date_dif
         from
         (
             select 
                 mid_id,
                 dt,
                 rank() over(partition by mid_id order by dt) rank
             from dws_uv_detail_day
             where dt>=date_add('2020-05-21',-6) and dt<='2020-05-21'
         )t1
     )t2 
     group by mid_id,date_dif
     having count(*)>=3
 )t3 
 group by mid_id
)t4;

查询结果：
```
select * from ads_continuity_uv_count;
```

10.3 编写脚本

在 hadoop101 的 /home/zgl/bin 目录下创建脚本： ads_continuity_uv_log.sh。

#!/bin/bash

APP=gmall
hive=/opt/module/hive-1.2.1/bin/hive

if [ -n "$1" ]; then
  do_date=$1
else
  do_date=`date -d "-1 day" +%F`
fi

sql="
insert into table "$APP".ads_continuity_uv_count
select
    '$do_date',
    concat(date_add('$do_date',-6),'_','$do_date'),
    count(*)
from
(
    select mid_id
    from
    (
    select mid_id      
     from
     (
         select 
             mid_id,
             date_sub(dt,rank) date_dif
         from
         (
             select 
                 mid_id,
                 dt,
                 rank() over(partition by mid_id order by dt) rank
             from "$APP".dws_uv_detail_day
             where dt>=date_add('$do_date',-6) and dt<='$do_date'
         )t1
     )t2 
     group by mid_id,date_dif
     having count(*)>=3
 )t3 
 group by mid_id
)t4;
"

$hive -e "$sql"

给脚本添加执行权限
```
chmod 777 ads_continuity_uv_log.sh
```
执行脚本
```
ads_continuity_uv_log.sh 2020-05-21
```
查看结果
```
select * from ads_continuity_uv_count;
```

你可能感兴趣的:(Hadoop相关项目总结)

使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
2024-2025 贡献的开源项目总结 dotNET跨平台开源
盘点2024-2025贡献的开源项目总结Intro借着统计贡献的时候盘点一下自己过去一年对别的开源项目合并的pullrequest，统计时间：从2024-04-01到2025-03-31，按PR合并的时间算PR总计:184,去掉自己仓库的PR对其他开源项目的PR总计:100,仓库数量:51，详细列表如下AllPRcontributions0xced/ChiselupdateMongoDbdrive
DeepSeek 实战项目：构建专业领域智能问答系统 XQR.小白 DeepSeek 实战项目精讲 python 人工智能
目录1.项目概述与背景2.环境准备与模型部署3.专业知识库构建5.交互式界面开发6.系统优化与扩展7.项目部署与运维项目总结与展望1.项目概述与背景在当今信息爆炸的时代，专业领域的知识获取面临着信息过载和检索效率低下的问题。本项目旨在利用DeepSeek模型构建一个专业领域的智能问答系统，帮助用户快速准确地获取所需信息。通过本项目，你将学习如何：部署和配置DeepSeek大语言模型构建专业领域知识
大模型时代的智能自动化测试实战指南 XQR.小白 python 人工智能
目录一、引言二、大模型赋能智能自动化测试2.1传统自动化测试的挑战2.2大模型带来的机遇2.3智能自动化测试架构三、智能测试用例生成实战3.1项目概述3.2系统架构3.3实现代码3.4使用示例四、智能API测试实战4.1项目概述4.2系统架构4.3实现代码五、总结与展望5.1项目总结5.2未来发展方向5.3鼓励读者实践一、引言在当今快速发展的软件开发领域，自动化测试已成为确保软件质量和加速交付流程
大模型时代的企业级应用架构创新实践 XQR.小白架构
目录一、引言二、大模型驱动的企业级应用架构变革2.1传统企业级应用架构的挑战2.2大模型带来的架构创新机遇2.3企业级大模型应用架构模式三、智能客服系统实战3.1项目概述3.2系统架构3.3实现代码四、智能流程自动化系统实战4.1项目概述4.2系统架构4.3实现代码五、总结与展望5.1项目总结5.2未来发展方向一、引言在当今数字化转型的浪潮中，企业面临着前所未有的挑战和机遇。随着大型语言模型（LL
国际物流杰信项目总结与面试 csdn_AF SSM杰信商务平台项目项目杂记项目总结面试
国际物流杰信项目面试总结1.面试时如何讲解项目？讲出三个层次，1）讲项目的背景，讲特色的业务2）讲业务的复杂度3）从业务角度牵扯出技术亮点每一层都要挖陷阱，让面试官问问题。从面试题中找出十个重点，把它们自己总结一段话，300~500字。综合所学的所有知识2.业务a)购销合同杰信和生产厂家要签订一个购销合同，购销合同包括三部分内容，包括合同主信息和多个货物信息和多个附件信息。合同和货物是一对多，货物
知识图谱应用项目总结
1国内外知识图谱项目国外：常识知识库：Cyc、WordNet、ConceptNet等。互联网知识图谱：主要有FreeBase、DBpedia、Schema、Wikidata、BableNet、MicrosofotConceptGraph，医疗领域LinkedLifeData等。国内：中文知识图谱OpenKG，CN-DBpedia，中医药知识图谱，阿里电商知识图谱、美团知识图谱、XLore(清华大学
MATLAB实现基于SOM自组织特征映射聚类可视化（含完整的程序和代码详解） nantangyuxi MATLAB matlab 聚类算法开发语言人工智能机器学习回归
目录MATLAB实现基于TOM自组织特征映射聚类可视化...1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...4项目应用领域...5项目效果预测图程序设计...6项目模型架构...8项目模型描述...8项目模型算法流程图设计...10项目结构设计...10项目部署与应用...10项目扩展...12项目应该注意事项...13项目未来改进方向...15项目总结与结论...
如和制作HTML项目总结 Auscy html 前端
一、项目概述‌项目名称‌：XXX网站/系统‌开发周期‌：202X年X月-X月‌核心目标‌：开发一个响应式网站，适配PC/移动端实现用户交互功能（如表单提交、动态内容加载）优化页面加载速度和SEO友好性二、技术栈‌核心语言‌：HTML5、CSS3、JavaScript‌辅助工具‌：编辑器：VSCode版本控制：Git调试工具：ChromeDevTools‌框架/库‌（可选）：Bootstrap、jQ
iOS开发之开源UI界面类项目总结 annco_yuan ios界面 ios开发 ui iphone
一些高效的开源类库http://yangping-account.iteye.com/blog/1144556UI界面类项目：Panoramagl——720全景展示PanoramaviewerlibraryforiPhone,iPadandiPodtouchMBProgressHUD——进度指示一种优雅的，半透明的进度显示效果。同时还提供了其他附加功能，比如显示完成信息并淡出。iCarousel—
MATLAB 实现 INFO-ELM（向量加权算法优化极限学习机）进行多输入单输出回归预测 nantangyuxi MATLAB 算法 matlab 回归神经网络开发语言 lstm cnn
以下是一个关于使用MASLAB实现UNFO-ELM（向量加权算法优化极限学习机）进行多输入单输出回归预测的详细设计项目示例。本项目将涵盖数据生成、UNFO-ELM算法的实现、ELM模型构建与训练过程、评估指标，以及未来改进方向和项目总结。项目概述本项目结合向量加权算法（UNFO）和极限学习机（ELM），用于多输入单输出回归预测。向量加权算法可以提高模型的预测性能，通过对输入特征加权优化来提升模型的
鱼皮的云图库学习项目总结 XQ丶YTY 学习
主要对项目一个思路进行一个梳理。对于用户模块只需要一个重点就是AOP切面变成以及前后端精度修补，后端因为用户ID使用的是Long类型并且使用雪花算法，所以到前端会有精度丢失。首先是AOP编程，先写一个@interface类不是interface类，里面定义一个mustrole变量用于后面赋值。重点是拥有@Aspect以及@Component的类类里面方法使用了注解@Around然后方法里面参数首先
软考高级信息系统项目管理师系列之五十一：项目收尾管理快乐骑行^_^ 软考高级信息系统项目管理师考试软考高级信息系统项目管理师系列五十一项目收尾管理
软考高级信息系统项目管理师系列之五十一：项目收尾管理一、项目收尾管理内容二、项目验收三、项目总结四、系统维护五、项目后评价项目收尾管理知识包括：项目验收工作、项目总结工作、系统维护工作、项目后评价工作。知识点涉及单项选择题，会涉及案例题。一、项目收尾管理内容项目验收：验收测试系统试运行系统文档验收项目终验项目总结：项目的总结会系统维护项目后评价二、项目验收项目验收是项目收尾管理中的首要环节，只有完
Python 爬虫实战：抓取下厨房美食菜谱浏览量，挖掘热门菜品西攻城狮北 python 爬虫实战案例下厨房
一、概述二、技术选型三、目标网页分析3.1数据定位3.2请求方式分析四、构造爬虫代码4.1安装必要的库4.2发送HTTP请求4.3解析网页内容4.4数据存储五、数据处理与分析5.1数据清洗5.2数据分析5.3数据可视化六、热门菜品挖掘七、总结与注意事项7.1项目总结7.2注意事项7.3拓展学习一、概述下厨房是一个受欢迎的美食分享平台，用户可以上传自己创作的美食菜谱，并查看其他用户的菜谱。菜谱的浏览
团体协作项目总结Git EvLast 杂谈应用开发 git 架构职场和发展
使用Git开放时候发现本地,有些代码并没有被拉取到本地仓库,又不想再commit一次,这时候我就想到了gitcommit--amend合并提交gitcommit--amend修改git提交记录用法详解可以将本次提交记录合并到上一次合并提交gitcommit--amendgitrebase-imaster^^//假设我们当前在master分支gitrebase-imaster^^来修改某一次的提交信
VS2022配置Qt环境人才程序员 QT高级教程 qt 开发语言 c语言 c++vscode ui vs
文章目录前言VS2022写Qt的好处下载插件前提条件离线下载在线安装配置VSForQt创建项目总结前言在许多开发环境中，VisualStudio2022（VS2022）和Qt都是非常重要的工具。VS2022是微软开发的一款强大的集成开发环境（IDE），广泛应用于Windows平台的应用程序开发。Qt则是一款跨平台的C++图形用户界面应用程序开发框架，被广泛用于开发具有友好用户界面的桌面应用程序。然
Python 爬虫实战：在 B 站动漫区抓取番剧弹幕数据，分析观众喜好西攻城狮北 python 爬虫实战案例 B 站
目录一、前言二、预备知识三、准备工作3.1安装必要的库3.2B站弹幕数据基本知识3.3选择一个番剧四、抓取番剧弹幕数据4.1获取视频的cid4.2通过cid获取弹幕数据4.3解析弹幕数据4.4保存弹幕数据五、分析观众喜好5.1数据清洗5.2词频统计5.3数据可视化六、总结与展望6.1项目总结6.2展望一、前言在互联网时代，数据分析成为了一项极具价值的技能。特别是在娱乐领域，如B站（哔哩哔哩）这样的
乐优商城项目总结——12.5 微信支付（生成支付链接，回调确认，检查支付状态和内网穿透）胡辣汤麻辣烫项目笔记 java
生成支付链接（用户点提交订单后）用户点了提交订单后该给他显示微信支付二维码了。生成步骤1controller接收的是订单编号/***创建支付链接**@paramorderId*@return*/@GetMapping("/url/{id}")publicResponseEntitycreatePayUrl(@PathVariable("id")LongorderId){returnResponse
02前端项目总结----axios二次封装和接口统一管理 Stella2521 前端 javascript
axios和接口统一管理axios二次封装api/request.js接口统一管理api/index.js跨域问题进度条的使用axios二次封装为什么要进行二次封装axios？-主要是为了请求拦截器和响应拦截器-请求拦截器：在发送请求之前可以处理一些业务-响应拦截器：当服务器数据返回以后处理一些业务api/request.js//对于已有的axios进行二次封装//引入axiosimportaxi
记个笔记：TEGG学习总结玛刻 TEGG 笔记 typescript
最近学习，初次接触到TEGG，下面内容是根据GITHUB上的npmmirror项目总结而出，记个笔记！！！。tegg将任务组件化，每个组件负责一个任务模块，在每个组件文件夹中需要定义个json文件夹。{"name":"cnpmcore-port","eggModule":{"name":"cnpmcorePort"}}@SingletonProto()语法糖全局单例语法糖，整个应用单例。@Sing
用 Hexo 搭建你的专属静态博客站点：Git + 宝塔 + Nginx 实战部署全流程慈云数据博客 linux git nginx 运维
在技术博客、个人成长记录、项目总结等场景中，自建博客网站是一件既有仪式感又极具实用价值的事。虽然WordPress功能强大，但对很多人来说太重了、维护成本也高。于是，Hexo成为了静态博客站点中的“轻量王者”——它基于Node.js，支持Markdown写作、主题丰富、速度极快，非常适合技术类内容展示。本文将完整介绍如何在一台Linux云服务器上部署一个基于Hexo+Git+Nginx的静态博客，
deepseek开源周的所有项目总结报告 LisaHusband 开源人工智能笔记 deepseek 业界资讯
DeepSeek于2025年2月24日至28日举办了为期五天的“开源周”活动，期间连续发布了五个开源项目，涵盖了AI底层算力优化与通信技术等多个领域。以下是对这五个项目的详细总结报告：1.FlashMLA（2月24日发布）FlashMLA是DeepSeek首个开源的代码库，针对NVIDIAHopper架构GPU（如H800）优化的高效多层注意力（MLA）解码内核，专为处理可变长度序列设计，适用于大
电商项目java经验_分布式电商系统项目总结耶律大石电商项目java经验
概述：淘淘商城是采用分布式架构部署的一个大型网上商城系统，类似于京东商城。本系统分前台系统和后台系统。前台系统主要负责商城的页面的显示功能，这里采用的面向服务的方式，pc端手机端只负责显示页面，业务逻辑都在服务层实现，客户端调用服务端接口来实现显示功能。在前台系统中主要分为：客户端：系统前台页面显示系统(portal，8082)。服务端系统：(1)rest系统(8081)：负责调用CMS系统的内容
个人项目总结：C++播放器脚本语言 Pixel_Panther c++
这个项目大概是我做的最有创新性的一个项目。由于我对音乐比较感兴趣，在收到项目要求后，我就想尝试把硬件播放音频的功能加入到项目中，并且最终完成了一个可以把编写的乐谱播放出来的脚本。除了算法的实现以外，我成功地把近期《操作系统》学习的线程和信号量引入了程序并实现了音符的同步与并行问题，最终完成了多音符同时播放的功能。一、项目的定位与规划我将这款脚本语言命名为“Essence”，目的是让音乐爱好者在发现
基于HTML5和CSS3实现3D旋转相册效果木木黄木木 html5 css3 3d
基于HTML5和CSS3实现3D旋转相册效果这里写目录标题基于HTML5和CSS3实现3D旋转相册效果项目介绍技术栈核心功能实现原理1.HTML结构2.CSS样式设计2.1基础样式设置2.2容器样式2.3图片样式3.JavaScript实现4.交互功能实现4.1触摸和鼠标拖拽4.2播放控制项目亮点技术难点解析项目总结项目介绍在这个项目中，我们将使用HTML5和CSS3的新特性来实现一个炫酷的3D旋
H5项目实践：视差滚动与图片瀑布流的实现木木黄木木 html5 前端 css3 html
H5项目实践：视差滚动与图片瀑布流的实现这里写目录标题H5项目实践：视差滚动与图片瀑布流的实现一、视差滚动效果实现1.项目概述2.技术实现2.1HTML结构设计2.2CSS核心技术3.性能优化二、图片瀑布流实现1.项目概述2.技术实现2.1布局设计2.2核心功能实现3.性能优化三、项目总结四、参考资源一、视差滚动效果实现1.项目概述视差滚动（ParallaxScrolling）是一种网页设计技巧，
hadoop相关面试题以及答案酷爱码编程学习 hadoop 大数据分布式
什么是Hadoop？它的主要组件是什么？Hadoop是一个开源的分布式计算框架，用于处理大规模数据的存储和计算。其主要组件包括HadoopDistributedFileSystem（HDFS）和MapReduce。解释HDFS的工作原理。HDFS采用主从架构，包括一个NameNode和多个DataNode。NameNode负责管理文件系统的命名空间和数据块的映射关系，DataNode负责存储实际数
html5炫酷3D数字时钟项目开发实践木木黄木木 html5 前端 html5 3d 前端
炫酷3D数字时钟项目开发实践这里写目录标题炫酷3D数字时钟项目开发实践项目概述技术栈核心技术实现1.3D翻转效果实现2.数字显示与翻转动画3.霓虹灯发光效果4.时间更新逻辑技术难点与解决方案1.3D翻转动画的流畅性2.数字更新的同步性3.发光效果的性能优化项目总结项目改进方向项目概述这是一个基于HTML5、CSS3和JavaScript实现的3D数字时钟项目。项目的主要特点是通过3D翻转动画来展示
基于跳表实现的轻量级KV存储引擎项目总结码云笔记后端 KV存储
项目介绍KV存储引擎众所周知，非关系型数据库redis，以及levedb，rockdb其核心存储引擎的数据结构就是跳表。本项目就是基于跳表实现的轻量级键值型存储引擎，使用C++实现。插入数据、删除数据、查询数据、数据展示、数据落盘、文件加载数据，以及数据库大小显示。在随机写读情况下，该项目每秒可处理啊请求数（QPS）:24.39w，每秒可处理读请求数（QPS）:18.41w项目存储文件main.c
IT项目管理第二章作业是努力站桩的奶酪呀~ java python
在管理具体项目时,项目管理团队应该根据具体需要裁剪()。A.组织过程资产B.组织结构C.组织文化D.事业环境因素在以下哪种组织中,项目经理能对项目资源进行最有力的控制?A.项目型组织B.项目指挥部组织C.强矩阵组织D.平衡式矩阵组织项目的技术工作已经全部完成,产品也通过了最终验收,接着应该开展以下哪一项工作?A.写项目总结B.遣散团队成员C.更新问题日志D.举办庆功宴在下列哪一种组织结构中,项目成
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

04 电商数仓(用户行为数据仓库 DWS/ADS层)

电商数仓(用户行为数据仓库 DWS/ADS层)

文章目录

1. 业务知识准备

1.1 业务术语

1.2 系统函数

1.2.1 collect_set 函数

1.2.2 日期处理函数

2. 需求一：用户活跃主题

2.1 DWS 层：服务数据层

2.1.1 每日活跃设备明细

2.1.2 每周活跃设备明细

2.1.3 每月活跃设备明细

2.1.4 DWS 层加载数据脚本

2.2 ADS 层：数据应用层

2.2.1 活跃设备数

2.2.2 ADS 层加载数据脚本

3. 需求二：用户新增主题

3.1 DWS 层

3.1.1 每日新增设备明细表

3.1.2 DWS 层加载数据脚本

3.2 ADS 层

3.2.1 每日新增设备表

3.2.2 ADS 层加载数据脚本

4. 需求三：用户留存主题

4.1 需求描述

4.2 DWS 层

4.2.1 DWS 层（每日留存用户明细表）

4.2.2 DWS 层 （1，2，3，n 天留存用户明细表）

4.2.3 union 与 union all 区别

4.3 ADS 层

4.3.1 留存用户数

4.3.2 留存用户比率

5. 新数据准备

6. 需求四：沉默用户数

6.1 DWS 层

6.2 ADS 层

6.3 编写脚本

7. 需求五：本周回流用户数

7.1 DWS 层

7.2 ADS 层

7.3 编写脚本

8. 需求六：流失用户数

8.1 DWS 层

8.2 ADS 层

8.3 编写脚本

9. 需求七：最近连续三周活跃用户数

9.1 DWS 层

9.2 ADS 层

9.3 编写脚本

10. 需求八：最近七天内连续三天活跃用户数

10.1 DWS 层

10.2 ADS 层

10.3 编写脚本

你可能感兴趣的:(Hadoop相关项目总结)

4.2.2 DWS 层（1，2，3，n 天留存用户明细表）