友培

大数据旅游项目(离线数仓实战)

文章目录

大数据旅游项目
- 1 项目分析
- - 1.1 项目分析流程图
- 2 项目前期准备
- - 2.1 hdfs权限验证
- 3 数仓前期准备
- - 3.1 本地创建对应账号（root权限）
  - 3.2 hdfs创建分层对应目录（root权限）
  - 3.3 修改hdfs分层目录所属用户（root权限）
  - 3.4 hive进行分库（root权限）
  - - 3.4.1 hive后台启动命令
    - 3.4.2 修改tmp目录权限
    - 3.4.3 为每一个用户安装hive
    - 3.4.4 修改权限
    - 3.4.5 每个用户配置该用户环境变量
    - 3.4.6 更改每个用户hive的临时目录
    - 3.4.7 修改hive权限
- 4 建立数据仓库
- - 4.1 每一个用户在hive创建每个库
  - - 4.1.1 报错问题
    - 4.1.2 创库语句
  - 4.2 ods层建表（ods权限）
  - - 4.2.1 ods_ddr
    - 4.2.2 ods_dpi
    - 4.2.3 ods_wcdr
    - 4.2.4 ods_oidd
    - 4.2.5 ods_usertag_m（用户画像表）
    - 4.2.6 ods_scenic_boundary
    - 4.2.7 ods_admincode
  - 4.3 dwi层建表（dwi权限）
  - - 4.3.1 dwi_res_regn_mergelocation_msk_d（位置数据融合表）
    - 4.3.2 dwi_staypoint_msk_d（停留点表）
  - 4.4 dim层建表（dim权限）
  - - 4.4.1 dim_admincode
    - 4.4.2 dim_bsid
    - 4.4.3 dim_geotag_grid
    - 4.4.4 dim_scenic_boundary
    - 4.4.5 dim_usertag_msk_m
    - 4.4.6 dim_scenic_grid
  - 4.5 dal_tour层建表（dal_tour权限）
  - - 4.5.1 dal_tour_city_tourist_msk_d
    - 4.5.2 dal_tour_city_day_index
    - 4.5.3 dal_tour_scenic_tourist_msk_d
    - 4.5.4 dal_tour_province_tourist_msk_d
- 5 数据集成
- - 5.1 ods数据集成，上传hdfs
  - 5.2 数据库数据准备
  - - 5.2.1 mysql建库
    - 5.2.2 创建usertag（用户表）并导入数据
    - 5.2.3 创建scenic_boundary（景区配置表）并导入数据
    - 5.2.4 创建admin_code（行政区配置表）并导入数据
  - 5.3 datax拉取数据
  - - 5.3.1 编写usertag_mysql_to_usertag_hive_ods.json
    - 5.3.2 hdfs创建数据归属目录
    - 5.3.3 执行导入数据代码（ods权限）
    - 5.3.4 编写scenic_boundary_mysql_to_scenic_boundary_hive_dim.json
    - 5.3.5 hdfs创建数据归属目录
    - 5.3.6 执行导入数据代码（ods权限）
    - 5.3.7 编写admin_code_mysql_to_admin_code_hive_dim.json
    - 5.3.8 hdfs创建数据归属目录
    - 5.3.9 执行导入数据代码（ods权限）
- 6 数据处理
- - 6.1 创建maven项目my_dwi_tour
  - 6.2 dim层数据处理（dim权限，脚本执行）
  - - 6.2.1 UserTagOdsToDIm
    - 6.2.2 AdminCodeOdsToDIm
    - 6.2.3 ScenicBoundaryOdsToDIm
    - 6.2.4 ScenicGridApp
  - 6.3 dwi层数据处理（dwi权限，脚本执行）
  - - 6.3.1 MerGeLocationApp
    - 6.3.2 dwi_staypoint_msk_d
  - 6.4 dal_tour层数据处理（dal_tour权限，脚本执行）
  - - 6.4.1 CityTouristApp
    - 6.4.2 CityTouristWideApp
    - 6.4.3 ScenicTouristApp
    - 6.4.4 ProvinceTouristApp
- 7 数据可视化

大数据旅游项目

1 项目分析

1.1 项目分析流程图

由于我们只负责数据从flume端拉来处理，所以纵观整个项目的架构，可以将数据处理分为四层，分别为ods（贴源层）、dwi（整合层）、dal_tour（旅游集市层）、dim（维表层），最终由dal_tour的结果存储在数据库便于数据展示

2 项目前期准备

2.1 hdfs权限验证

关闭hdfs
stop-all.sh

cd /usr/local/soft/hadoop-2.6.0/etc/hadoop
修改hdfs-site.xml


dfs.permissions
true


同步到所有节点
scp hdfs-site.xml node1:`pwd`
scp hdfs-site.xml node2:`pwd`

启动hadoop
start-all.sh

3 数仓前期准备

3.1 本地创建对应账号（root权限）

由于项目后期是具体责任到层，所以每一层会有专门的用户去访问工作，而在其他层这些用户只能阅读，甚至有时候练读都不可以

useradd ods
useradd dwi
useradd dim
useradd dal_tour

3.2 hdfs创建分层对应目录（root权限）

hadoop dfs -mkdir -p /daas/motl/ods/
hadoop dfs -mkdir -p /daas/motl/dwi/
hadoop dfs -mkdir -p /daas/motl/dim/
hadoop dfs -mkdir -p /daas/motl/dal_tour/


hadoop dfs -mkdir -p /user/ods/
hadoop dfs -mkdir -p /user/dwi/
hadoop dfs -mkdir -p /user/dim/
hadoop dfs -mkdir -p /user/dal_tour/

3.3 修改hdfs分层目录所属用户（root权限）

hadoop dfs -chmod 755 /user

hadoop dfs -chown ods:ods /daas/motl/ods/
hadoop dfs -chown dwi:dwi /daas/motl/dwi/
hadoop dfs -chown dim:dim /daas/motl/dim/
hadoop dfs -chown dal_tour:dal_tour /daas/motl/dal_tour/


hadoop dfs -chown ods:ods /user/ods/
hadoop dfs -chown dwi:dwi /user/dwi/
hadoop dfs -chown dim:dim /user/dim/
hadoop dfs -chown dal_tour:dal_tour /user/dal_tour/

3.4 hive进行分库（root权限）

3.4.1 hive后台启动命令

nohup hive --service metastore >> metastore.log 2>&1 &

3.4.2 修改tmp目录权限

hive需要存储临时文件

hadoop dfs -chmod 777 /tmp
hadoop dfs -chmod -R 755 /user

3.4.3 为每一个用户安装hive

cp -r /usr/local/soft/hive-1.2.1/ /home/ods/
cp -r /usr/local/soft/hive-1.2.1/ /home/dwi/
cp -r /usr/local/soft/hive-1.2.1/ /home/dim/
cp -r /usr/local/soft/hive-1.2.1/ /home/dal_tour/

3.4.4 修改权限

chown -R  ods:ods /home/ods/hive-1.2.1/
chown -R  dwi:dwi /home/dwi/hive-1.2.1/
chown -R  dim:dim /home/dim/hive-1.2.1/
chown -R  dal_tour:dal_tour /home/dal_tour/hive-1.2.1/

3.4.5 每个用户配置该用户环境变量

是为每一个用户，下面只是用ods用户举例，.bash_profile是隐藏文件用ls -a可以查看到

vim .bash_profile

export HIVE_HOME=/home/ods/hive-1.2.1
PATH=$PATH:$HOME/bin:$HIVE_HOME/bin

3.4.6 更改每个用户hive的临时目录

防止后面出现hive tmp的冲突，这里四个都有改，以dwi为例子

cd /home/dwi/hive-1.2.1/conf/
vim hive-site.xml

<property>
    <name>hive.querylog.locationname>
    <value>/home/dwi/hive-1.2.1/tmp/value>
    <description>Location of Hive run time structured log filedescription>
property>

3.4.7 修改hive权限

hadoop dfs -chmod 777 /user/hive/warehouse

如果这里显示Name node is in safe mode，则说明当前分布式系统处于安全模式下，下面代码可以脱离安全模式

hadoop dfsadmin -safemode leave

4 建立数据仓库

4.1 每一个用户在hive创建每个库

4.1.1 报错问题

这里应该会出现问题，java.lang.RuntimeException: Unable to create log directory /usr/local/soft/hive-1.2.1/tmp ，解决方法：切换root用户到hive里将tmp目录加权限

chmod 777 tmp/

4.1.2 创库语句

create database ods;
create database dwi;
create database dim;
create database dal_tour;

4.2 ods层建表（ods权限）

4.2.1 ods_ddr

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_ddr(
    mdn string comment '手机号码'  
    ,start_time string comment '业务时间'  
    ,county_id string comment '区县编码'  
    ,longi string comment '经度'  
    ,lati string comment '纬度'  
    ,bsid string comment '基站标识'  
    ,grid_id string comment '网格号'  
    ,biz_type string comment '业务类型'  
    ,event_type string comment '事件类型'  
    ,data_source string comment '数据源'  
) 
comment  'ddr'
PARTITIONED BY (
    day_id string comment '天分区'  
) 
ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_ddr';

/*增加分区*/
alter table ods.ods_ddr add if not exists partition(day_id='20180503') ;

4.2.2 ods_dpi

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_dpi(
    mdn string comment '手机号码'  
    ,start_time string comment '业务开始时间'  
    ,county_id string comment '区县编码'  
    ,longi string comment '经度'  
    ,lati string comment '纬度'  
    ,bsid string comment '基站标识'  
    ,grid_id string comment '网格号'  
    ,biz_type string comment '业务类型'  
    ,event_type string comment '事件类型'  
    ,data_source string comment '数据源'  
) 
comment  '位置数据融合表'
PARTITIONED BY (
    day_id string comment '天分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_dpi';

/*增加分区*/
alter table ods.ods_dpi add if not exists partition(day_id='20180503') location '/daas/motl/ods/ods_dpi/day_id=20180503';

4.2.3 ods_wcdr

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_wcdr (
    mdn string comment '手机号码'  
    ,start_time string comment '业务开始时间'  
    ,county_id string comment '区县编码'  
    ,longi string comment '经度'  
    ,lati string comment '纬度'  
    ,bsid string comment '基站标识'  
    ,grid_id string comment '网格号'  
    ,biz_type string comment '业务类型'  
    ,event_type string comment '事件类型'  
    ,data_source string comment '数据源'  
) 
comment  'wcdr'
PARTITIONED BY (
    day_id string comment '天分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_wcdr'; 

/*增加分区*/
alter table ods.ods_wcdr add if not exists partition(day_id='20180503') location '/daas/motl/ods/ods_wcdr/day_id=20180503';

4.2.4 ods_oidd

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_oidd(
    mdn string comment '手机号码'  
    ,start_time string comment '业务开始时间'  
    ,county_id string comment '区县编码'  
    ,longi string comment '经度'  
    ,lati string comment '纬度'  
    ,bsid string comment '基站标识'  
    ,grid_id string comment '网格号'  
    ,biz_type string comment '业务类型'  
    ,event_type string comment '事件类型'  
    ,data_source string comment '数据源'  
) 
comment  'oidd'
PARTITIONED BY (
    day_id string comment '天分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_oidd';

/*增加分区*/
alter table ods.ods_oidd add if not exists partition(day_id='20180503') location '/daas/motl/ods/ods_oidd/day_id=20180503';

4.2.5 ods_usertag_m（用户画像表）

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_usertag_m (
    mdn string comment '手机号大写MD5加密'  
    ,name string comment '姓名'  
    ,gender string comment '性别，1男2女'  
    ,age string comment '年龄'  
    ,id_number string comment '证件号码'  
    ,number_attr string comment '号码归属地'  
    ,trmnl_brand string comment '终端品牌'    
    ,trmnl_price string comment '终端价格'
    ,packg string comment '套餐'  
    ,conpot string comment '消费潜力'  
    ,resi_grid_id string comment '常住地网格'  
    ,resi_county_id string comment '常住地区县'  
) 
comment  '用户画像表'
PARTITIONED BY (
    month_id string comment '月分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_usertag_m'; 

/*增加分区*/
alter table ods.ods_usertag_m add if not exists partition(month_id='201805') ;

4.2.6 ods_scenic_boundary

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_scenic_boundary (
    scenic_id string comment '景区id'  
    ,scenic_name string comment '景区名称'  
    ,boundary string comment '景区边界'  
) 
comment  '景区配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_scenic_boundary';

4.2.7 ods_admincode

CREATE EXTERNAL TABLE IF NOT EXISTS ods.ods_admincode (
    prov_id string comment '省id'  
    ,prov_name string comment '省名称'  
    ,city_id string comment '市id'  
    ,city_name string comment '市名称'  
    ,county_id string comment '区县id'  
    ,county_name string comment '区县名称'  
    ,city_level string comment '城市级别，一级为1；二级为2...依此类推'  
    ,economic_belt string comment 'BJ为首都经济带、ZSJ为珠三角经济带、CSJ为长三角经济带、DB为东北经济带、HZ为华中经济带、HB为华北经济带、HD为华东经济带、HN为华南经济带、XB为西北经济带、XN为西南经济带'  
    ,city_feature1 string comment 'NL代表内陆、YH代表沿海'  
) 
comment  '行政区配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/ods/ods_admincode';

4.3 dwi层建表（dwi权限）

4.3.1 dwi_res_regn_mergelocation_msk_d（位置数据融合表）

CREATE EXTERNAL TABLE IF NOT EXISTS dwi.dwi_res_regn_mergelocation_msk_d (
    mdn string comment '手机号码'  
    ,start_time string comment '业务时间'  
    ,county_id string comment '区县编码'  
    ,longi string comment '经度'  
    ,lati string comment '纬度'  
    ,bsid string comment '基站标识'  
    ,grid_id string comment '网格号'  
    ,biz_type string comment '业务类型'  
    ,event_type string comment '事件类型'  
    ,data_source string comment '数据源'  
) 
comment  '位置数据融合表'
PARTITIONED BY (
    day_id string comment '天分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dwi/dwi_res_regn_mergelocation_msk_d';

4.3.2 dwi_staypoint_msk_d（停留点表）

CREATE EXTERNAL TABLE IF NOT EXISTS dwi.dwi_staypoint_msk_d (
    mdn string comment '用户手机号码'  
    ,longi string comment '网格中心点经度'  
    ,lati string comment '网格中心点纬度'  
    ,grid_id string comment '停留点所在电信内部网格号'  
    ,county_id string comment '停留点区县'  
    ,duration string comment '机主在停留点停留的时间长度（分钟）,lTime-eTime'  
    ,grid_first_time string comment '网格第一个记录位置点时间（秒级）'  
    ,grid_last_time string comment '网格最后一个记录位置点时间（秒级）'  
) 
comment  '停留点表'
PARTITIONED BY (
    day_id string comment '天分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/daas/motl/dwi/dwi_staypoint_msk_d';

4.4 dim层建表（dim权限）

4.4.1 dim_admincode

CREATE EXTERNAL TABLE IF NOT EXISTS dim.dim_admincode (
    prov_id string comment '省id'  
    ,prov_name string comment '省名称'  
    ,city_id string comment '市id'  
    ,city_name string comment '市名称'  
    ,county_id string comment '区县id'  
    ,county_name string comment '区县名称'  
    ,city_level string comment '城市级别，一级为1；二级为2...依此类推'  
    ,economic_belt string comment 'BJ为首都经济带、ZSJ为珠三角经济带、CSJ为长三角经济带、DB为东北经济带、HZ为华中经济带、HB为华北经济带、HD为华东经济带、HN为华南经济带、XB为西北经济带、XN为西南经济带'  
    ,city_feature1 string comment 'NL代表内陆、YH代表沿海'  
) 
comment  '行政区配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dim/dim_admincode';

4.4.2 dim_bsid

CREATE EXTERNAL TABLE IF NOT EXISTS dim.dim_bsid (
    bsid string comment '扇区编码'  
    ,bsc_longi string comment '基站经度'  
    ,bsc_lati string comment '基站纬度'  
    ,center_longi string comment '扇区中心点经度'  
    ,center_lati string comment '扇区中心点维度'  
    ,boundary string comment '扇区边界顶点坐标'  
    ,city_code string comment '城市区号'  
    ,country_id string comment '区县编码'  
    ,city_id string comment '城市编码'  
    ,prov_id string comment '省编码'  
) 
comment  '扇区配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dim/dim_bsid';

4.4.3 dim_geotag_grid

CREATE EXTERNAL TABLE IF NOT EXISTS dim.dim_geotag_grid (
    grid_id string comment '网格ID，500米级别'  
    ,center_longi string comment '中心点经度'  
    ,center_lati string comment '中心点纬度'  
    ,county_id string comment '区县id'   
    ,county_type string comment '区县类型，0郊区，1城区'  
    ,grid_type string comment '网格类型，详见网格类型码表'  
) 
comment  'gis网格配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS PARQUET
location '/daas/motl/dim/dim_geotag_grid';

4.4.4 dim_scenic_boundary

CREATE EXTERNAL TABLE IF NOT EXISTS dim.dim_scenic_boundary (
    scenic_id string comment '景区id'  
    ,scenic_name string comment '景区名称'  
    ,boundary string comment '景区边界'  
) 
comment  '景区配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dim/dim_scenic_boundary';

4.4.5 dim_usertag_msk_m

CREATE EXTERNAL TABLE IF NOT EXISTS dim.dim_usertag_msk_m (
    mdn string comment '手机号大写MD5加密'  
    ,name string comment '姓名'  
    ,gender string comment '性别，1男2女'  
    ,age string comment '年龄'  
    ,id_number string comment '证件号码'  
    ,number_attr string comment '号码归属地'  
    ,trmnl_brand string comment '终端品牌'    
    ,trmnl_price string comment '终端价格'
    ,packg string comment '套餐'  
    ,conpot string comment '消费潜力'  
    ,resi_grid_id string comment '常住地网格'  
    ,resi_county_id string comment '常住地区县'  
) 
comment  '用户画像表'
PARTITIONED BY (
    month_id string comment '月分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dim/dim_usertag_msk_m';

4.4.6 dim_scenic_grid

CREATE EXTERNAL TABLE IF NOT EXISTS dim.dim_scenic_grid (
    scenic_id string comment '景区id'  
    ,scenic_name string comment '景区名称'  
    ,grid string comment '网格编号'  
) 
comment  '景区网格配置表'
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dim/dim_scenic_grid';

4.5 dal_tour层建表（dal_tour权限）

4.5.1 dal_tour_city_tourist_msk_d

CREATE EXTERNAL TABLE IF NOT EXISTS dal_tour.dal_tour_city_tourist_msk_d (
    mdn string comment '手机号大写MD5加密'  
    ,source_county_id string comment '游客来源区县'  
    ,d_city_id string comment '旅游目的地市代码'  
    ,d_stay_time double comment '游客在该省停留的时间长度（小时）'  
    ,d_max_distance double comment '游客本次出游距离'  
) 
comment  '旅游应用专题数据城市级别-天'
PARTITIONED BY (
    day_id string comment '日分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/daas/motl/dal_tour/dal_tour_city_tourist_msk_d'; 

/*增加分区*/
alter table dal_tour.dal_tour_city_tourist_msk_d add if not exists partition(day_id='20180503') ;

4.5.2 dal_tour_city_day_index

CREATE EXTERNAL TABLE IF NOT EXISTS dal_tour.dal_tour_city_day_index (
    d_city_id string comment '旅游目的地市代码'  
    ,d_city_name string comment '旅游目的地市名'  
    ,o_city_id string comment '旅游来源地地市代码'  
    ,o_city_name string comment '旅游来源地地市名'  
    ,o_province_id string comment '旅游来源地地省代码'  
    ,o_province_name string comment '旅游来源地省名'  
    ,number_attr string comment '号码归属地'  
    ,d_distance_section string comment '出游距离'
    ,d_stay_time int comment '停留时间按小时'
    ,gender string comment '性别'
    ,trmnl_brand string comment '终端品牌'
    ,pckg_price int comment '套餐'
    ,conpot int comment '消费潜力'
    ,age int comment '年龄'
    ,only_pt int comment '电信游客量'
) 
comment  '旅游应用专题数据城市级别-天-宽表'
PARTITIONED BY (
    day_id string comment '日分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/daas/motl/dal_tour/dal_tour_city_day_index';

4.5.3 dal_tour_scenic_tourist_msk_d

CREATE EXTERNAL TABLE IF NOT EXISTS dal_tour.dal_tour_scenic_tourist_msk_d (
    mdn string comment '游客手机号码'  
    ,source_city_id string comment '游客来源城市'  
    ,d_scenic_id string comment '旅游目的地景区代码'  
    ,d_scenic_name string comment '旅游目的地景区名'
    ,d_arrive_time string comment '游客进入景区的时间'  
    ,d_stay_time double comment '游客在该景区停留的时间长度（小时）'  
) 
comment  '旅游应用专题数据景区级别-天'
PARTITIONED BY (
    day_id string comment '日分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'  
location '/daas/motl/dal_tour/dal_tour_scenic_tourist_msk_d'; 

/*增加分区*/
alter table  dal_tour.dal_tour_scenic_tourist_msk_d add if not exists partition(day_id='20180503')

4.5.4 dal_tour_province_tourist_msk_d

CREATE EXTERNAL TABLE IF NOT EXISTS dal_tour.dal_tour_province_tourist_msk_d (
    mdn string comment '手机号大写MD5加密'  
    ,source_county_id string comment '游客来源区县'  
    ,d_province_id string comment '旅游目的地省代码'  
    ,d_stay_time double comment '游客在该省停留的时间长度（小时）'  
    ,d_max_distance double comment '游客本次出游距离'  
) 
comment  '旅游应用专题数据省级别-天'
PARTITIONED BY (
    day_id string comment '日分区'  
) 
ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
location '/daas/motl/dal_tour/dal_tour_province_tourist_msk_d'; 

/*增加分区*/
alter table dal_tour.dal_tour_province_tourist_msk_d  add if not exists partition(day_id='20180503') location '/daas/motl/dal/tour/dal_tour_province_tourist_msk_d/day_id=20180503';

5 数据集成

5.1 ods数据集成，上传hdfs

这边省略了flume数据采集的功能，因为运用flume采集数据会很慢，因而这边直接给数据,注意切换到数据所在目录执行代码，为了方便可以把原来创建的文件全部删除，直接put所有文件

hdfs dfs -rmr /daas/motl/ods/*

hdfs dfs -put * /daas/motl/ods

上传完成后发现权限不对，因为刚才使用root用户传的，因而进一步修改权限，-R表示递归修改

hadoop dfs -chown -R ods:ods /daas/motl/ods/*

5.2 数据库数据准备

5.2.1 mysql建库

5.2.2 创建usertag（用户表）并导入数据

数据被放在了/root/data下

DROP TABLE IF EXISTS `usertag`;
CREATE TABLE `usertag` (
    mdn varchar(255) 
    ,name varchar(255) 
    ,gender varchar(255) 
    ,age int(10)
    ,id_number varchar(255) 
    ,number_attr varchar(255) 
    ,trmnl_brand varchar(255) 
    ,trmnl_price varchar(255) 
    ,packg varchar(255) 
    ,conpot varchar(255)
    ,resi_grid_id varchar(255)
    ,resi_county_id varchar(255)
)  ENGINE=InnoDB DEFAULT CHARSET=utf8;

/*导入数据*/
LOAD DATA LOCAL INFILE '/root/data/usertag.txt' INTO TABLE usertag FIELDS TERMINATED BY ',' ;

5.2.3 创建scenic_boundary（景区配置表）并导入数据

CREATE TABLE  scenic_boundary (
    scenic_id varchar(255)   ,
    scenic_name varchar(255)  ,
    boundary text 
) ;

/*导入数据*/
 LOAD DATA LOCAL INFILE '/root/data/scenic_boundary.txt' INTO TABLE scenic_boundary FIELDS TERMINATED BY '|' ;

5.2.4 创建admin_code（行政区配置表）并导入数据

CREATE TABLE admin_code (
    prov_id varchar(255)  
    ,prov_name varchar(255)  
    ,city_id varchar(255) 
    ,city_name varchar(255)  
    ,county_id varchar(255)  
    ,county_name varchar(255)  
    ,city_level varchar(255)  
    ,economic_belt varchar(255)   
    ,city_feature1 varchar(255)  
) ;

/*导入数据*/
 LOAD DATA LOCAL INFILE '/root/data/ssxdx.txt' INTO TABLE admin_code FIELDS TERMINATED BY ',' ;

5.3 datax拉取数据

5.3.1 编写usertag_mysql_to_usertag_hive_ods.json

放在/home/ods 目录下

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://master:3306/tour"
                                ],
                                "table": [
                                    "usertag"
                                ],
                            }
                        ],
                        "column": ["*"],
                        "password": "123456",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://master:9000",
                        "fileType": "text",
                        "path": "/daas/motl/ods/ods_usertag_m/month_id=${month_id}",
                        "fileName": "data",
                        "column": [
                            {
                                "name": "mdn",
                                "type": "STRING"
                            },
                            {
                                "name": "name",
                                "type": "STRING"
                            },
                            {
                                "name": "gender",
                                "type": "STRING"
                            },
                            {
                                "name": "age",
                                "type": "INT"
                            },
                            {
                                "name": "id_number",
                                "type": "STRING"
                            },
                            {
                                "name": "number_attr",
                                "type": "STRING"
                            },
                            {
                                "name": "trmnl_brand",
                                "type": "STRING"
                            },
                            {
                                "name": "trmnl_price",
                                "type": "STRING"
                            },
                            {
                                "name": "packg",
                                "type": "STRING"
                            },
                            {
                                "name": "conpot",
                                "type": "STRING"
                            },
                            {
                                "name": "resi_grid_id",
                                "type": "STRING"
                            },
                            {
                                "name": "resi_county_id",
                                "type": "STRING"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "\t"
                    }
                }
            }
        ],
        "setting": {
            "errorLimit": {
                "percentage": 0,
                "record": 0
            },
            "speed": {
                "channel": 4,
                "record": 1000
            }
        }
    }
}

5.3.2 hdfs创建数据归属目录

hdfs dfs -mkdir -p /daas/motl/ods/ods_usertag_m/month_id=201805

5.3.3 执行导入数据代码（ods权限）

datax.py -p "-Dmonth_id=201805" usertag_mysql_to_usertag_hive_ods.json

5.3.4 编写scenic_boundary_mysql_to_scenic_boundary_hive_dim.json

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://master:3306/tour"
                                ],
                                "table": [
                                    "scenic_boundary"
                                ],
                            }
                        ],
                        "column": ["*"],
                        "password": "123456",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://master:9000",
                        "fileType": "text",
                        "path": "/daas/motl/ods/ods_scenic_boundary",
                        "fileName": "data",
                        "column": [
                            {
                                "name": "scenic_id",
                                "type": "STRING"
                            },
                            {
                                "name": "scenic_name",
                                "type": "STRING"
                            },
                            {
                                "name": "boundary",
                                "type": "STRING"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "\t"
                    }
                }
            }
        ],
        "setting": {
            "errorLimit": {
                "percentage": 0,
                "record": 0
            },
            "speed": {
                "channel": 1,
                "record": 1000
            }
        }
    }
}

5.3.5 hdfs创建数据归属目录

hdfs dfs -mkdir -p /daas/motl/ods/ods_scenic_boundary

5.3.6 执行导入数据代码（ods权限）

datax.py scenic_boundary_mysql_to_scenic_boundary_hive_dim.json

5.3.7 编写admin_code_mysql_to_admin_code_hive_dim.json

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://master:3306/tour"
                                ],
                                "table": [
                                    "admin_code"
                                ],
                            }
                        ],
                        "column": ["*"],
                        "password": "123456",
                        "username": "root"
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://master:9000",
                        "fileType": "text",
                        "path": "/daas/motl/ods/ods_admincode",
                        "fileName": "data",
                        "column": [
                            {
                                "name": "prov_id",
                                "type": "STRING"
                            },
                            {
                                "name": "prov_name",
                                "type": "STRING"
                            },
                            {
                                "name": "city_id",
                                "type": "STRING"
                            },
                            {
                                "name": "city_name",
                                "type": "STRING"
                            },
                            {
                                "name": "county_id",
                                "type": "STRING"
                            },
                            {
                                "name": "county_name",
                                "type": "STRING"
                            },
                            {
                                "name": "city_level",
                                "type": "STRING"
                            },
                            {
                                "name": "economic_belt",
                                "type": "STRING"
                            },
                            {
                                "name": "city_feature1",
                                "type": "STRING"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "\t"
                    }
                }
            }
        ],
        "setting": {
            "errorLimit": {
                "percentage": 0,
                "record": 0
            },
            "speed": {
                "channel": 1,
                "record": 1000
            }
        }
    }
}

5.3.8 hdfs创建数据归属目录

hdfs dfs -mkdir -p /daas/motl/ods/ods_admincode

5.3.9 执行导入数据代码（ods权限）

datax.py admin_code_mysql_to_admin_code_hive_dim.json

6 数据处理

6.1 创建maven项目my_dwi_tour

具体代码如下，git拉取

https://gitee.com/xiaoyoupei/my_dwi_tour.git

6.2 dim层数据处理（dim权限，脚本执行）

6.2.1 UserTagOdsToDIm

UserTagOdsToDIm，主要的功能就是将ods层的用户画像表导入dim层，对数据进行脱敏，下面是集群提交脚本

#!/usr/bin/env bash

month_id=$1

spark-submit \
--class com.shujia.dim.UserTagOdsToDIm \
--master yarn-client \
--jars common-1.0.jar \
dim-1.0.jar \
${month_id}

6.2.2 AdminCodeOdsToDIm

AdminCodeOdsToDIm，主要的功能是将ods层的行政区配置表导入dim层

#!/usr/bin/env bash

spark-submit \
--class com.shujia.dim.AdminCodeOdsToDIm \
--master yarn-client \
dim-1.0.jar

6.2.3 ScenicBoundaryOdsToDIm

ScenicBoundaryOdsToDIm，主要的功能是将ods层的景区配置表导入dim层

#!/usr/bin/env bash

spark-submit \
--class com.shujia.dim.ScenicBoundaryOdsToDIm \
--master yarn-client \
dim-1.0.jar

6.2.4 ScenicGridApp

ScenicGridApp，景区网格配置表，主要的功能是用于匹配所有景区所的网格

#!/usr/bin/env bash

spark-submit \
--class com.shujia.dim.ScenicGridApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 2G \
--executor-cores 2 \
--jars common-1.0.jar  \
dim-1.0.jar

6.3 dwi层数据处理（dwi权限，脚本执行）

6.3.1 MerGeLocationApp

MerGeLocationApp(位置融合表)，主要是将ods层的数据进行整合脱敏处理

#!/usr/bin/env bash

day_id=$1

spark-submit \
--class com.shujia.dwi.MerGeLocationApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 2G \
--executor-cores 4 \
--jars common-1.0.jar  \
dwi-1.0.jar \
${day_id}

6.3.2 dwi_staypoint_msk_d

dwi_staypoint_msk_d(停留点表)，主要是将MerGeLocationApp表进一步处理数据

#!/usr/bin/env bash

day_id=$1

spark-submit \
--class com.shujia.dwi.StayPointApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 4G \
--executor-cores 1 \
--jars common-1.0.jar  \
--conf spark.network.timeout=10000s \
dwi-1.0.jar \
${day_id}

6.4 dal_tour层数据处理（dal_tour权限，脚本执行）

6.4.1 CityTouristApp

CityTouristApp，旅游应用专题数据城市级别-天，主要功能

本表主要思路是搞清楚两个要求：

1、判断最大的出游距离是否大于10KM
2、判断总的停留时间是否大于3个小时

#!/usr/bin/env bash

day_id=$1

spark-submit \
--class com.shujia.tour.CityTouristApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 4G \
--executor-cores 1 \
--jars common-1.0.jar  \
dal_tour-1.0.jar \
${day_id}

6.4.2 CityTouristWideApp

CityTouristWideApp，旅游应用专题数据城市级别-天-宽表，主要功能是将实际需求进行整理抽离出需求字段制作宽表，方便直接拉取

#!/usr/bin/env bash

day_id=$1

spark-submit \
--class com.shujia.tour.CityTouristWideApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 4G \
--executor-cores 1 \
--jars common-1.0.jar  \
dal_tour-1.0.jar \
${day_id}

6.4.3 ScenicTouristApp

ScenicTouristApp，旅游应用专题数据景区级别-天，主要功能是应用旅游应用专题数据景区级别

#!/usr/bin/env bash

day_id=$1

spark-submit \
--class com.shujia.tour.ScenicTouristApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 2G \
--executor-cores 2 \
--jars common-1.0.jar  \
dal_tour-1.0.jar \
${day_id}

6.4.4 ProvinceTouristApp

ProvinceTouristApp省游客计算，主要功能是计算省游客数据

#!/usr/bin/env bash
#!/usr/bin/env bash
#***********************************************************************************
# **  文件名称: ProvinceTouristAppRun.sh
# **  创建日期: 2021年3月18日
# **  编写人员: xiaoyoupei
# **  输入信息:
# **  输出信息:
# **
# **  功能描述:市游客计算
# **  处理过程:
# **  Copyright(c) 2016 TianYi Cloud Technologies (China), Inc.
# **  All Rights Reserved.
#***********************************************************************************

#***********************************************************************************
#==修改日期==|===修改人=====|======================================================|
#
#***********************************************************************************

#获取脚本所在目录
shell_home="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"

#进入脚本目录
cd $shell_home

day_id=$1

spark-submit \
--class com.shujia.tour.ProvinceTouristApp \
--master yarn-client \
--num-executors 2 \
--executor-memory 4G \
--executor-cores 1 \
--jars common-1.0.jar  \
dal_tour-1.0.jar \
${day_id}

7 数据可视化

利用可视化的工具进行数据展示，这里选用的是FineBi（linux版），显示一部分，具体的使用操作finebi官网有详细的说明

你可能感兴趣的:(大数据——实战项目,数据仓库,hive,flume,hdfs,hadoop)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
shell脚本实现Hive库表迁移 docsz hive Linux shell
1、获取hive所有库的建表语句#获取hive所有库的建表语句#!/bin/bashmkdir-p~/hive/tables/tablesDDL#获取库名hive-e"showdatabases;">~/hive/databases.txtsed-i'1,3d'~/hive/databases.txtsed-i'$d'~/hive/databases.txtcat~/hive/databases.
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
debian 安装 mysql5.7 你会忘记吃饭吗 debian 运维
cd/usr/local/src:wgethttps://downloads.mysql.com/archives/get/p/23/file/mysql-server_5.7.29-1debian10_amd64.deb-bundle.tartar-xvfxx.tarcdxx:执行dpkg-imysql-community-client_5.7.29-1debian10_amd64.deb返回S
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在