讲文明的喜羊羊拒绝pua

大数据架构师——音乐数据中心平台离线数仓综合项目（三）

文章目录

音乐数据中心平台离线数仓综合项目
- 第二个业务：机器详细信息统计
- - 需求
  - 模型设计
  - 数据处理流程
  - - 1. 将数据导入MySQL业务库
    - 2. 使用Sqoop工具抽取数据到Hive ODS层
    - 3. 使用SparkSQL对ODS层数据进行ETL清洗
  - 使用Azkaban配置任务流
  - - 1. 脚本准备
    - 2. 编写 Azkaban 各个Job组成任务流
    - 3. 清空数据
    - 4. 提交Azkaban作业
  - 使用Superset数据可视化
- 第三个业务：日活跃用户统计
- - 需求
  - 模型设计
  - 数据处理流程
  - - 1. 将数据导入MySQL业务库
    - 2. 使用Sqoop抽取mysql数据到ODS层
    - 3. 使用SparkSQL对ODS层数据进行清洗
  - 使用Azkaban配置任务流
  - - 1. 脚本准备
    - 2. 编写Azkaban各个Job组成任务流
    - 3. 清空数据
    - 4. 提交Azkaban作业
  - 使用Superset数据可视化

音乐数据中心平台离线数仓综合项目

第二个业务：机器详细信息统计

需求

根据两个业务系统中的数据统计机器基础详细信息，这两个业务系统对应的关系型数据库分别是 ycak 和 ycbk。
ycak 库中有两张机器相关的数据库表如下：
- machine_baseinfo：机器基本信息表，记录机器的系统版本、歌库版本、UI版本、最近登录时间等相关信息。
- machine_local_info：机器位置信息日全量表，记录机器所在的省市县及详细地址、运行时间和销售时间等相关信息。
ycbk 库中有六张表，分别是：
- machine_admin_map：机器客户映射资料表
- machine_store_map：机器门店映射关系表
- machine_store_info：门店信息全量表
- province_info：机器省份日全量表
- city_info：机器城市日全量表
- area_info：机器区县日全量表

注意：所有的机器信息来自于machine_baseinfo机器基本信息表与machine_admin_map机器客户映射资料表。

模型设计

完成以上机器详细信息统计，数据是分别存在两个业务系统库中，需要通过ODS将数据从关系型数据库抽取到Hive ODS层。
根据需求，针对机器进行分析，在数仓中我们构建“机器”主题，具体数据分层如下：

ODS 层：

EDS 层：

在Hive中创建ODS层对应的表：

USE `music`;
-- 1. TO_YCAK_MAC_D 机器基本信息表
CREATE EXTERNAL TABLE `TO_YCAK_MAC_D` (
    `MID` int,
    `SRL_ID` string,
    `HARD_ID` string,
    `SONG_WHSE_VER` string,
    `EXEC_VER` string,
    `UI_VER` string,
    `IS_ONLINE` string,
    `STS` int,
    `CUR_LOGIN_TM` string,
    `PAY_SW` string,
    `LANG` int,
    `SONG_WHSE_TYPE` int,
    `SCR_TYPE` int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_MAC_D';

-- 2. TO_YCAK_MAC_LOC_D 机器位置信息表
CREATE EXTERNAL TABLE `TO_YCAK_MAC_LOC_D` (
    `MID` int,
    `PRVC_ID` int,
    `CTY_ID` int,
    `PRVC` string,
    `CTY` string,
    `MAP_CLSS` string,
    `LON` string,
    `LAT` string,
    `ADDR` string,
    `ADDR_FMT` string,
    `REV_TM` string,
    `SALE_TM` string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_MAC_LOC_D';

-- 3. TO_YCBK_MAC_ADMIN_MAP_D 机器客户映射资料表
CREATE EXTERNAL TABLE `TO_YCBK_MAC_ADMIN_MAP_D` (
    `MID` int,
    `MAC_NM` string,
    `PKG_NUM` int,
    `PKG_NM` string,
    `INV_RATE` double,
    `AGE_RATE` double,
    `COM_RATE` double,
    `PAR_RATE` double,
    `DEPOSIT` double,
    `SCENE_PRVC_ID` string,
    `SCENE_CTY_ID` string,
    `SCENE_AREA_ID` string,
    `SCENE_ADDR` string,
    `PRDCT_TYPE` string,
    `SERIAL_NUM` string,
    `HAD_MPAY_FUNC` int,
    `IS_ACTV` int,
    `ACTV_TM` string,
    `ORDER_TM` string,
    `GROUND_NM` string
) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCBK_MAC_ADMIN_MAP_D';

-- 4. TO_YCBK_MAC_STORE_MAP_D 机器门店映射关系表
CREATE EXTERNAL TABLE `TO_YCBK_MAC_STORE_MAP_D` (
    `STORE_ID` int,
    `MID` int,
    `PRDCT_TYPE` int,
    `ADMINID` int,
    `CREAT_TM` string
) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCBK_MAC_STORE_MAP_D';

-- 5. TO_YCBK_STORE_D 门店信息表
CREATE EXTERNAL TABLE `TO_YCBK_STORE_D` (
    `ID` int,
    `STORE_NM` string,
    `TAG_ID` string,
    `TAG_NM` string,
    `SUB_TAG_ID` string,
    `SUB_TAG_NM` string,
    `PRVC_ID` string,
    `CTY_ID` string,
    `AREA_ID` string,
    `ADDR` string,
    `GROUND_NM` string,
    `BUS_TM` string,
    `CLOS_TM` string,
    `SUB_SCENE_CATGY_ID` string,
    `SUB_SCENE_CATGY_NM` string,
    `SUB_SCENE_ID` string,
    `SUB_SCENE_NM` string,
    `BRND_ID` string,
    `BRND_NM` string,
    `SUB_BRND_ID` string,
    `SUB_BRND_NM` string
) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCBK_STORE_D';

-- 6. TO_YCBK_PRVC_D 机器省份日全量表
CREATE EXTERNAL TABLE `TO_YCBK_PRVC_D` (
    `PRVC_ID` int,
    `PRVC` string
) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCBK_PRVC_D';

-- 7. TO_YCBK_CITY_D 机器城市日全量表
CREATE EXTERNAL TABLE `TO_YCBK_CITY_D` (
    `PRVC_ID` int,
    `CTY_ID` int,
    `CTY` string
) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCBK_CITY_D';

-- 8. TO_YCBK_AREA_D 机器区县日全量表
CREATE EXTERNAL TABLE `TO_YCBK_AREA_D` (
    `CTY_ID` int,
    `AREA_ID` int,
    `AREA` string
) ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCBK_AREA_D';

-- 9. TW_MAC_BASEINFO_D 机器基础信息日全量表
CREATE EXTERNAL TABLE `TW_MAC_BASEINFO_D` (
    `MID` int,
    `MAC_NM` string,
    `SONG_WHSE_VER` string,
    `EXEC_VER` string,
    `UI_VER` string,
    `HARD_ID` string,
    `SALE_TM` string,
    `REV_TM` string,
    `OPER_NM` string,
    `PRVC` string,
    `CTY` string,
    `AREA` string,
    `ADDR` string,
    `STORE_NM` string,
    `SCENCE_CATGY` string,
    `SUB_SCENCE_CATGY` string,
    `SCENE` string,
    `SUB_SCENE` string,
    `BRND` string,
    `SUB_BRND` string,
    `PRDCT_NM` string,
    `PRDCT_TYP` int,
    `BUS_MODE` string,
    `INV_RATE` double,
    `AGE_RATE` double,
    `COM_RATE` double,
    `PAR_RATE` double,
    `IS_ACTV` int,
    `ACTV_TM` string,
    `PAY_SW` int,
    `PRTN_NM` string,
    `CUR_LOGIN_TM` string
) PARTITIONED BY (data_dt string)
ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TW_MAC_BASEINFO_D';

以上建模中，处理ODS层的各个表结构之外，EDS层TW_MAC_BASEINFO_D 表在对应的DM层也要一张表对应，这里DM层在mysql中有对应的tm_mac_baseinfo_d 表，以上各个表之间的数据流转过程如下：

数据处理流程

1. 将数据导入MySQL业务库

在MySQL中分别创建 ycak、ycbk 数据库，将 ycak.sql、ycbk.sql 分别运行在对应的库下，将数据导入到业务库中。

create database ycak default character set utf8;
create database ycbk default character set utf8;

2. 使用Sqoop工具抽取数据到Hive ODS层

在 node03 上执行 sqoop 导入数据脚本，将 MySQL 中的表数据导入到 Hive 数仓中，脚本内容如下：

#!/bin/bash
ssh hadoop@node03 > /tmp/logs/music_project/machine-info.log 2>&1 <<aabbcc
hostname
source /etc/profile

# ycak
## machine_baseinfo 	==>> 	TO_YCAK_MAC_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table machine_baseinfo --target-dir /user/hive/warehouse/music.db/TO_YCAK_MAC_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## machine_local_info 	==>> 	TO_YCAK_MAC_LOC_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table machine_local_info --target-dir /user/hive/warehouse/music.db/TO_YCAK_MAC_LOC_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'

# ycbk
## machine_admin_map	==>> 	TO_YCBK_MAC_ADMIN_MAP_D
sqoop import --connect jdbc:mysql://node01:3306/ycbk?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table machine_admin_map --target-dir /user/hive/warehouse/music.db/TO_YCBK_MAC_ADMIN_MAP_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## machine_store_map	==>> 	TO_YCBK_MAC_STORE_MAP_D
sqoop import --connect jdbc:mysql://node01:3306/ycbk?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table machine_store_map --target-dir /user/hive/warehouse/music.db/TO_YCBK_MAC_STORE_MAP_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## machine_store_info	==>> 	TO_YCBK_STORE_D
sqoop import --connect jdbc:mysql://node01:3306/ycbk?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table machine_store_info --target-dir /user/hive/warehouse/music.db/TO_YCBK_STORE_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## province_info		==>> 	TO_YCBK_PRVC_D
sqoop import --connect jdbc:mysql://node01:3306/ycbk?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table province_info --target-dir /user/hive/warehouse/music.db/TO_YCBK_PRVC_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## city_info	==>> 	TO_YCBK_CITY_D
sqoop import --connect jdbc:mysql://node01:3306/ycbk?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table city_info --target-dir /user/hive/warehouse/music.db/TO_YCBK_CITY_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## area_info	==>> 	TO_YCBK_AREA_D
sqoop import --connect jdbc:mysql://node01:3306/ycbk?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table area_info --target-dir /user/hive/warehouse/music.db/TO_YCBK_AREA_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'

aabbcc

echo "all done!"

3. 使用SparkSQL对ODS层数据进行ETL清洗

对应的数据处理文件：GenerateTwMacBaseinfoD.scala，本地运行该程序并查看结果：

至此，我们得到了机器基础信息日全量表。
将工程打包并上传到服务器。

使用Azkaban配置任务流

1. 脚本准备

① mysql 数据抽取到 Hive ODS 层的脚本 1_extract_mysqldata_to_ods.sh
② 处理 8 张 ODS 层表数据，得到机器基本信息表的脚本 2_generate_tw_mac_baseinfo.sh

#!/bin/bash
currentDate=`date -d today +"%Y%m%d"`
if [ x"$1" = x ]; then
	echo "====使用自动生成的今天日期===="
else
	echo "====使用 Azkaban 传入的日期===="
	currentDate=$1
fi
echo "日期为: $currentDate"
ssh hadoop@node01 > /tmp/logs/music_project/machine-info.log 2>&1 <<aabbcc
hostname
cd /bigdata/install/spark-2.3.3-bin-hadoop2.7/bin
./spark-submit --master yarn --class com.yw.musichw.eds.machine.GenerateTwMacBaseinfoD \
    /bigdata/data/music_project/musicwh-1.0.0-SNAPSHOT-jar-with-dependencies.jar $currentDate
exit
aabbcc

echo "all done!"

2. 编写 Azkaban 各个Job组成任务流

新建 machine-info.flow，内容如下：

nodes:
  - name: Job1_ExtractMySQLDataToODS
    type: command
    config:
      command: sh 1_extract_mysqldata_to_ods.sh

  - name: Job2_GenerateTwMacBaseinfo
    type: command
    config:
      command: sh 2_generate_tw_mac_baseinfo.sh ${mydate}
    dependsOn:
      - Job1_ExtractMySQLDataToODS

将以上2个脚本文件、 machine-info.flow 与 flow20.project 压缩生成 zip 文件 machine-info.zip

3. 清空数据

由于前面我们在本地已经将整个数据处理流程跑过一次，现在 hive 和 mysql 中已经存在数据。在提交作业执行前，先清除掉 hive 和 mysql 中的数据。
在 node03 节点，编写脚本 vim drop_machine_tables.sql，内容如下：

drop table `music`.`to_ycak_mac_d`;
drop table `music`.`to_ycak_mac_loc_d`;
drop table `music`.`to_ycbk_area_d`;
drop table `music`.`to_ycbk_city_d`;
drop table `music`.`to_ycbk_mac_admin_map_d`;
drop table `music`.`to_ycbk_mac_store_map_d`;
drop table `music`.`to_ycbk_prvc_d`;
drop table `music`.`to_ycbk_store_d`;
drop table `music`.`tw_mac_baseinfo_d`;

执行命令：hive -f drop_machine_tables.sql ，删除表。由于这些都是外部表，真正的数据还在 HDFS，所以还需要删除相关的数据。
然后重新创建 hive 表，编写脚本 vim create_machine_tables.sql，内容在前面模型设计这一小节。
执行命令 hive -f create_machine_tables.sql，创建表。

4. 提交Azkaban作业

启动Azkaban服务，并在 Azkaban 的 web server ui界面创建项目，然后上传项目 zip 文件machine-info.zip

查看任务，配置任务参数，并执行

执行成功后，最终结果保存到了 mysql 表中

使用Superset数据可视化

添加数据表：依次点击 Data → Datasets → 添加，添加“song_result”库下的表“tm_mac_baseinfo”。
修改表中对应字段显示名称：

编辑图表《各省份机器数量日统计》：

编辑图表《机器详细信息日统计》：
最终效果：

第三个业务：日活跃用户统计

需求

每天统计最近7日活跃用户的详细信息。
如果计算用户日活情况，需要获取对应的每天用户登录信息，用户登录信息被记录在“ycak”业务库下的“user_login_info”表中，这张表将用户每天登录系统，登出系统的信息记录下来，我们可以将这张表的信息每天增量的抽取到ODS层中，然后把用户的基本信息每天全量抽取到ODS层，然后获取每天活跃的用户信息，进而计算统计出7日用户活跃情况。
这里用户的基本信息包含了四类注册用户的数据，存储在“ycak”业务库中，分别是：
- user_wechat_baseinfo：微信注册用户
- user_alipay_baseinfo：支付宝注册用户
- user_qq_baseinfo：QQ注册用户
- user_app_baseinfo：App注册用户

模型设计

将业务需要到的数据表通过 Sqoop 抽取到 ODS 层数据。根据业务我们在数仓中构建“用户”主题，具体数据分层如下：

ODS：

EDS：

在Hive中创建ODS层对应的表：

USE `music`;
-- 1. TO_YCAK_USR_D 微信用户日全量表
CREATE EXTERNAL TABLE `TO_YCAK_USR_D` (
    `UID` int,
    `REG_MID` int,
    `GDR` string,
    `BIRTHDAY` string,
    `MSISDN` string,
    `LOC_ID` int,
    `LOG_MDE` int,
    `REG_TM` string,
    `USR_EXP` string,
    `SCORE` int,
    `LEVEL` int,
    `WX_ID` string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_USR_D';

-- 2. TO_YCAK_USR_ALI_D 支付宝用户日全量表
CREATE EXTERNAL TABLE `TO_YCAK_USR_ALI_D` (
    `UID` int,
    `REG_MID` int,
    `GDR` string,
    `BIRTHDAY` string,
    `MSISDN` string,
    `LOC_ID` int,
    `LOG_MDE` int,
    `REG_TM` string,
    `USR_EXP` string,
    `SCORE` int,
    `LEVEL` int,
    `USR_TYPE` string,
    `IS_CERT` string,
    `IS_STDNT` string,
    `ALY_ID` string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_USR_ALI_D';

-- 3. TO_YCAK_USR_QQ_D QQ用户日全量表
CREATE EXTERNAL TABLE `TO_YCAK_USR_QQ_D` (
    `UID` int,
    `REG_MID` int,
    `GDR` string,
    `BIRTHDAY` string,
    `MSISDN` string,
    `LOC_ID` int,
    `LOG_MDE` int,
    `REG_TM` string,
    `USR_EXP` string,
    `SCORE` int,
    `LEVEL` int,
    `QQID` string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_USR_QQ_D';

-- 4. TO_YCAK_USR_APP_D APP用户信息日全量表
CREATE EXTERNAL TABLE `TO_YCAK_USR_APP_D` (
    `UID` int,
    `REG_MID` int,
    `GDR` string, 
    `BIRTHDAY` string,
    `MSISDN` string,
    `LOC_ID` int,
    `REG_TM` string,
    `USR_EXP` string,
    `LEVEL` int,
    `APP_ID` string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_USR_APP_D';

-- 5. TO_YCAK_USR_LOGIN_D 用户登录数据日增量表
CREATE EXTERNAL TABLE `TO_YCAK_USR_LOGIN_D` (
    `ID` int,
    `UID` int,
    `MID` int,
    `LOGIN_TM` string,
    `LOGOUT_TM` string,
    `MODE_TYPE` int
) PARTITIONED BY (`data_dt` string)
ROW FORMAT DELIMITED  FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TO_YCAK_USR_LOGIN_D';

-- 6. TW_USR_BASEINFO_D 活跃用户基础信息日增量表
CREATE EXTERNAL TABLE `TW_USR_BASEINFO_D` (
    `UID` int,
    `REG_MID` int,
    `REG_CHNL` string,
    `REF_UID` string,
    `GDR` string,
    `BIRTHDAY` string,
    `MSISDN` string,
    `LOC_ID` int,
    `LOG_MDE` string,
    `REG_DT` string,
    `REG_TM` string,
    `USR_EXP` string,
    `SCORE` int,
    `LEVEL` int,
    `USR_TYPE` string,
    `IS_CERT` string,
    `IS_STDNT` string
) PARTITIONED BY (`data_dt` string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
LOCATION 'hdfs://node01/user/hive/warehouse/music.db/TW_USR_BASEINFO_D';

以上表模型中，最终获取7日用户活跃信息从EDS层“TW_USR_BASEINFO_D”表统计得到，这里将统计到的7日活跃用户情况存放在DM层，通过 SparkSQL 直接将结果存放在“user_7days_active”表中，提供查询展示。
以上各个表之间的数据流转关系如下：

数据处理流程

1. 将数据导入MySQL业务库

第二个业务中已经创建了 ycak 数据库，将里面的数据表删除，然后重新执行 ycak.sql 脚本文件。

2. 使用Sqoop抽取mysql数据到ODS层

在 node03 上执行 sqoop 导入数据脚本，将 MySQL 中的表数据导入到 Hive 数仓中
针对用户注册的4张表，进行全量的导入，脚本 1_extract_mysqldata_to_ods.sh 内容如下：

#!/bin/bash
ssh hadoop@node03 > /tmp/logs/music_project/user-info.log 2>&1 <<aabbcc
hostname
source /etc/profile

# ycak
## user_wechat_baseinfo 	==>> 	TO_YCAK_USR_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table user_wechat_baseinfo --target-dir /user/hive/warehouse/music.db/TO_YCAK_USR_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## user_alipay_baseinfo 	==>> 	TO_YCAK_USR_ALI_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table user_alipay_baseinfo --target-dir /user/hive/warehouse/music.db/TO_YCAK_USR_ALI_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## user_qq_baseinfo 	==>> 	TO_YCAK_USR_QQ_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table user_qq_baseinfo --target-dir /user/hive/warehouse/music.db/TO_YCAK_USR_QQ_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'
## user_app_baseinfo 	==>> 	TO_YCAK_USR_APP_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table user_app_baseinfo --target-dir /user/hive/warehouse/music.db/TO_YCAK_USR_APP_D/ --delete-target-dir --num-mappers 1 --fields-terminated-by '\t'

aabbcc

echo "all done!"

针对用户登录信息表，进行增量导入，脚本 2_incr_extract_mysqldata_to_ods.sh 内容如下：

#!/bin/bash
currentDate=`date -d today +"%Y%m%d"`
if [ x"$1" = x ]; then
  echo "====没有导入数据的日期，输入日期===="
  exit
else
  echo "====使用导入数据的日期 ===="
  currentDate=$1
fi
echo "日期为 : $currentDate"

# 查询hive ODS层表 to_ycak_usr_login_d 中目前存在的最大的ID
result=`ssh hadoop@node03 "source /etc/profile;hive -e 'select max(id) from music.to_ycak_usr_login_d'" | grep _c0 -A 1`
maxId=`echo ${result} | awk "{print \\$2}"`
if [ x"${maxId}" = xNULL ]; then
  maxId=0
fi
echo "Hive ODS层表 TO_YCAK_USR_LOGIN_D 最大的ID是${maxId}"

ssh hadoop@node03 > /tmp/logs/music_project/user-login-info.log 2>&1 <<aabbcc
hostname
source /etc/profile

## user_login_info 	==>> 	TO_YCAK_USR_LOGIN_D
sqoop import --connect jdbc:mysql://node01:3306/ycak?dontTrackOpenResources=true\&defaultFetchSize=10000\&useCursorFetch=true\&useUnicode=yes\&characterEncoding=utf8 --username root --password 123456 --table user_login_info --target-dir /user/hive/warehouse/music.db/TO_YCAK_USR_LOGIN_D/data_dt=${currentDate} --num-mappers 1 --fields-terminated-by '\t' --incremental append --check-column id --last-value ${maxId}

# 更新Hive 分区
hive -e 'alter table music.to_ycak_usr_login_d add partition(data_dt=${currentDate})'

exit
aabbcc

echo "all done!"

3. 使用SparkSQL对ODS层数据进行清洗

对应的处理数据的scala文件：GenerateTwUsrBaseinfoD.scala，本地运行该程序并查看结果：

将工程打包并上传到服务器。

使用Azkaban配置任务流

1. 脚本准备

① 4 张用户注册信息的 mysql 表数据，全量抽取到 Hive ODS 层的脚本 1_extract_mysqldata_to_ods.sh
② 1张用户登录信息的 mysql 表数据，全量抽取到 Hive ODS 层的脚本 2_incr_extract_mysqldata_to_ods.sh
③ 根据 ODS 层表数据，得到用户基本信息表的脚本 3_generate_tw_usr_baseinfo_d.sh

#!/bin/bash
currentDate=`date -d today +"%Y%m%d"`
if [ x"$1" = x ]; then
	echo "====使用自动生成的今天日期===="
else
	echo "====使用 Azkaban 传入的日期===="
	currentDate=$1
fi
echo "日期为: $currentDate"
ssh hadoop@node01 > /tmp/logs/music_project/user-info.log 2>&1 <<aabbcc
hostname
cd /bigdata/install/spark-2.3.3-bin-hadoop2.7/bin
./spark-submit --master yarn --class com.yw.musichw.eds.user.GenerateTwUsrBaseinfoD \
    /bigdata/data/music_project/musicwh-1.0.0-SNAPSHOT-jar-with-dependencies.jar $currentDate
exit
aabbcc

echo "all done!"

2. 编写Azkaban各个Job组成任务流

编写 user-info.flow，内容如下：

nodes:
  - name: Job1_ExtractMySQLDataToODS
    type: command
    config:
      command: sh 1_extract_mysqldata_to_ods.sh
      command.1: sh 2_incr_extract_mysqldata_to_ods.sh ${mydate}

  - name: Job2_GenerateTwUsrBaseinfo
    type: command
    config:
      command: sh 3_generate_tw_usr_baseinfo_d.sh ${mydate}
    dependsOn:
      - Job1_ExtractMySQLDataToODS

将以上3个脚本文件、 user-info.flow 与 flow20.project 压缩生成 zip 文件 user-info.zip

3. 清空数据

在 node03 节点，编写脚本 vim drop_user_tables.sql，内容如下：

drop table `music`.`to_ycak_usr_ali_d`;
drop table `music`.`to_ycak_usr_app_d`;
drop table `music`.`to_ycak_usr_d`;
drop table `music`.`to_ycak_usr_login_d`;
drop table `music`.`to_ycak_usr_qq_d`;
drop table `music`.`tw_usr_baseinfo_d`;

执行命令：hive -f drop_user_tables.sql ，删除表。由于这些都是外部表，真正的数据还在 HDFS，所以还需要删除相关的数据。
然后重新创建 hive 表，编写脚本 vim create_user_tables.sql，内容在前面模型设计这一小节。
执行命令 hive -f create_user_tables.sql，创建表。

4. 提交Azkaban作业

启动Azkaban服务，并在 Azkaban 的 web server ui界面创建项目，然后上传项目 zip 文件user-info.zip

查看任务，配置任务参数，并执行

执行成功后，最终结果保存到了 mysql 表中

使用Superset数据可视化

添加数据表：依次点击 Data → Datasets → 添加，添加“song_result”库下的表“user_7days_active”。

修改表中对应字段显示名称：

处理结果中的空值，例如处理生日如果为空，则显示无信息，“数据源”->“数据表”，找到列标签中对应的生日列，表达式处理空值

case when BIRTHDAY is null then '无信息' when BIRTHDAY = 'null' then '无信息' else BIRTHDAY end

case when REG_DT is null then '无信息' when REG_DT = 'null' then '无信息' else REG_DT end

编辑图表《日活跃用户Top100信息》：

最终展示图表：

你可能感兴趣的:(大数据,大数据,hive,hadoop,Azkaban,Superset)

深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
Hive 整合 Spark 全教程（Hive on Spark）字节全栈_rJF hive spark hadoop
hadoop.proxyuser.luanhao.groups*hadoop.proxyuser.luanhao.groups*2）HDFS配置文件配置hdfs-site.xmldfs.namenode.http-addressBigdata00:9870dfs.namenode.secondary.http-addressBigdata00:9868dfs.replication13）YARN配
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
spark和python的区别_Spark入门(Python) weixin_39934257 spark和python的区别
Spark是第一个脱胎于该转变的快速、通用分布式计算范式，并且很快流行起来。Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为Hadoop之上的特殊系统。Spark使用内存缓存来提升性能，因此进行交互式分析也足够快速(就如同使用Python解释器，与集群进行交互一样)。缓存同时提升了迭代算法的性能，这使得Spark非常适合数据理
spark python入门_python pyspark入门篇 weixin_39686634 spark python入门
一.环境介绍：1.安装jdk7以上2.python2.7.113.IDEpycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-hadoop2
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
安装HBase-2.4.12 (hadoop3.3.1) 不饿同学大数据 hbase big data hadoop
1.下载https://www.apache.org/dyn/closer.lua/hbase/2.4.12/hbase-2.4.12-bin.tar.gz节点角色配置节点MasterZooKeeperRegionServernode001yesyesyesnode002backupyesyesnode003noyesyes2.解压下载的文件，并切换到新创建的目录。(base)[root@node
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
Hadoop--HA架构详解娘子，出来看上帝 Hadoop Hadoop 大数据 HA
一、HA架构工作背景HDFS集群中的nameNode存在单点故障因素。对于只有一个nameNode工作的集群来说，一旦nameNode出现意外情况，会导致整个集群无法工作，直到nameNode重新启动。为了解决上述问题，Hadoop给出了高容错，高可用的HA方案：一个HDFS集群至少存在两个nameNode，一个nameNode处在active（主）状态，其他nameNode处在standby（备
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
守护每一比特的安全——探索基于差分隐私的MySQL数据脱敏之道墨夶数据库学习资料2 安全 mysql 数据库
在当今数字化时代，随着互联网和大数据技术的发展，数据的价值愈发凸显。然而，随之而来的个人隐私泄露风险也日益增加，成为社会广泛关注的问题之一。特别是在医疗、金融等领域，如何既能充分利用海量数据资源推动行业发展，又能有效保护用户隐私不被侵犯，成为了亟待解决的重要课题。本文将深入探讨一种创新的数据安全共享方案——基于差分隐私（DifferentialPrivacy,DP）的MySQL数据库实现方法，旨在
12.udp 就很对 udp 网络协议网络
12.udp**1.UDP特性****2.UDP编程框架（C/S模式）****3.UDP发送接收函数****4.UDP编程练习**1.UDP特性连接特性：无链接，通信前无需像TCP那样建立连接。可靠性：不可靠，不保证数据按序到达、不保证数据无丢失或重复。数据传输：适合传输大数据，但实际传输受网络MTU等因素限制。2.UDP编程框架（C/S模式）服务器端流程：创建套接字：调用socket()函数，参
开发者交流平台项目部署到阿里云服务器教程独自破碎E 阿里云服务器云计算 java 后端开发语言
本文使用PuTTY软件在本地Windows系统远程控制Linux服务器；其中，Windows系统为Windows10专业版，Linux系统为CentOS7.664位。1.工具软件的准备maven：https://archive.apache.org/dist/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.tar.gztomcat：https
hive表指定分区字段搜索_Hive学习-Hive基本操作（建库、建表、分区表、写数据）... weixin_39710660 hive表指定分区字段搜索
hive简单认识Hive是建立在HDFS之上的数据仓库，所以Hive的数据全部存储在HDFS上。Hive的数据分为两部分，一部分是存在HDFS上的具体数据，一部分是描述这些具体数据的元数据信息，一般Hive的元数据存在MySQL上。Hive是类SQL语法的数据查询、计算、分析工具，执行引擎默认的是MapReduce，可以设置为Spark、Tez。Hive分内部表和外部表，外部表在建表的同时指定一个
hive 分区表select全部数据_【Hive教程】（六）HIVE分区表 (静态分区+动态分区) weixin_39658318 hive 分区表select全部数据
分区表分区表在实际企业中用途非常广，首先一个案例体验一下分区表的作用:假设我每天都要往HIVE表中插入一万条数据。经过一年的时间，我里面已经有365万条数据。现在我需要查询某个日期的数据，我select*fromtablenamewheredata=”20180101″,那么hive一般会扫描整个表内容，会消耗很多时间。如果引入partition概念。以日期作为分区字段，相同日期的数据在同一个分区
【hadoop学习之路】Hive HQL 语句实现查询新世纪debug战士 hadoop学习之路 hive
目录表数据表1students_data.txt表2course.txt实验步骤结论表数据表1students_data.txt21434,Sara,F,21,20,73,classC41443,Mary,M,19,30,90,classA43333,Dery,F,20,40,85,classB45454,Mary,F,22,10,91,classA14634,Henry,M,18,50,56,c
【大数据入门核心技术-Hive】（十一）HiveSQL数据分区 forest_long 大数据技术入门到21天通关大数据 hive hadoop 数据仓库 hdfs
目录一、分区的概念二、创建分区1）静态分区1、单分区测试2、多分区测试2)动态分区3、动态分区和静态分区混合使用三、分区的其它操作1、恢复分区2、归档分区3、交换分区四、分区数据查询1、单分区数据查询2、多分区数据查询方法1：通过union方法2：通过or一、分区的概念数据分区的概念以及存在很久了，通常使用分区来水平分散压力，将数据从物理上移到和使用最频繁的用户更近的地方，以及实现其目的。hive
本地Apache Hive的Linux服务器集群复制数据到SQL Server数据库的分步流程 weixin_30777913 数据库数据仓库 hive sqlserver
我们已经有安装ApacheHive的Linux服务器集群，它可以连接到一个SQLServerRDS数据库，需要在该Linux服务器上安装配置sqoop，然后将Hive中所有的表数据复制到SQLServerRDS数据库。以下是分步指南，用于在Linux服务器上安装配置Sqoop并将Hive表数据迁移至SQLServerRDS：1.安装Sqoop步骤：下载Sqoop前往ApacheSqoop下载页面，
设计转换Apache Hive的HQL语句为Snowflake SQL语句的Python程序方法 weixin_30777913 python 数据仓库 hive sql
首先，根据以下各类HQL语句的基本实例和官方文档记录的这些命令语句各种参数设置，得到各种HQL语句的完整实例，然后在Snowflake的官方文档找到它们对应的SnowflakeSQL语句，建立起对应的关系表。在这个过程中要注意HQL语句和SnowflakeSQL语句的区别，比如Hive可以给单个用户加权限，但是Snowflake数据仓库是RBAC，也就是基于角色的权限控制，所以HQL语句中给用户加
windows注册表详解 ywwow 计算机科学与技术 windows microsoft system 磁盘 dos 网络
偶尔得转点文章。空格键坏了，想用修改键盘映射的方法来代替一下，于是就找到了注册表。然后在不断的搜索中，发现了这篇有点收藏价值的文章，转过来保存下。windows注册表详解http://blog.donews.com/converter/archive/2004/09/16/100404.aspx注册表对有的人还是比较陌生的，因为现在第三方软件太多了，如优化大师、魔法兔子等等，但个人觉得改善系统的第
毕设开源 python大数据旅游数据分析可视化系统(源码分享) bee_dc 毕业设计毕设大数据
文章目录0前言1课题背景2数据处理3数据可视化工具3.1django框架介绍3.2ECharts4Django使用echarts进行可视化展示（mysql数据库）4.1修改setting.py连接mysql数据库4.2导入数据4.3使用echarts可视化展示5实现效果5.1前端展示5.2后端展示6最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到
Python正则表达式指南 weixin_33755554 python
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1.正则表达式基础1.1.简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不
大数据“超能力”：数据安全和隐私该如何保障？大数据在线云静思园大数据数据安全数据隐私英特尔
一人人都喜欢超级英雄。不论是超人还是钢铁侠，又或者是小蜘蛛和绿巨人，几乎每一个超级英雄漫画及电影的粉丝，都曾为其不公遭遇打抱不平：“他们明明是在用超能力做好事，拯救人类的，为什么电影里的政府和平民会这么蠢，总对他们缺乏信任，满是提防。”这就是所谓的“叶公好龙”了，因为当你身边真出现了个能把卡车当皮球一样抛来抛去的人时，你的反应恐怕也好不到哪儿去，可能也巴不得有政府出面，逼他接受《超级英雄注册法案》
HDFS总结 ChenJieYaYa Hadoop hdfs hadoop big data
基于前面的学习与配置，相信对于HDFS有了一定的了解HDFS概述1.什么是HDFSHadoopDistributedFileSystem：分步式文件系统HDFS是Hadoop体系中数据存储管理的基础HDFS是基于流数据模式访问和处理超大文件的需求而开发的1.流式数据：将数据序列化为字节流来存储，这样不会破坏文件的结构和内容，而且字节流直接存储在磁盘上，可以分片或分块2.当超大规模的文件本身就已经超
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: 361942420@qq.com
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情