江湖人称涛哥

企业级大数据项目【2】数仓-流量域ODS-DWD开发篇

1数仓整体说明

什么数仓：一个面向分析的，反映历史变化的数据仓库；
数仓的技术手段：
1)传统数仓一般都是采用关系型数据库软件；

2)大数据领域中则尚无一站式解决方案，通常需要用到很多技术组件来实现不同环节：

使用HDFS做存储
使用 spark、mapreduce 作为底层计算引擎
使用hive或者sparksql，作为sql引擎
另外，还有impala/presto纯内存运算引擎，kylin，clickhouse 等各类组件

1.1技术选型

数据采集：flume
存储平台：hdfs
基础设施：hive
运算引擎：mapreduce/spark
资源调度：yarn
任务调度：azkaban/oozie
元数据管理：atlas（或自研系统）
OLAP引擎：kylin/presto （或clickhouse）
前端界面：superset（或自研javaweb系统）

1.2分层设计

分层原因

数据仓库中的数据表，往往是分层管理、分层计算的；
所谓分层，具体来说，就是将大量的数据表按照一定规则和定义来进行逻辑划分；

ADS层：应用服务层
DWS层：数仓服务（service/summary）层（轻度聚合）
DWD层：数仓明细层
ODS层：操作数据（最原始的数据）层 – 贴源层
DIM层：存储维表

ODS层：对应着外部数据源ETL到数仓体系之后的表！
DWD层：数仓明细层；一般是对ODS层的表按主题进行加工和划分；本层中表记录的还是明细数据； DWS层：数仓服务层； ADS层：
应用层，主要是一些结果报表！

分层的意义：数据管理更明晰！运算复用度更高！需求开发更快捷！便于解耦底层业务（数据）变化！

分层详解
ODS层
数据内容：存放flume采集过来的原始日志
存储格式：以json格式文本文件存储
存储周期：3个月

DWD层
数据内容：对ODS层数据做ETL处理后的扁平化明细数据
存储格式：以orc / parquet文件格式存储
存储周期：6个月

DWS层
数据内容：根据主题分析需求，从DWD中轻度聚合后的数据
存储格式：以ORC/PARQUET文件格式存储
存储周期：1年

ADS层
数据内容：根据业务人员需求，从DWS计算出来的报表
存储格式：以ORC/PARQUET文件格式存储
存储周期：3年

DIM层
存储各种维表

1.3模型设计

ODS层
与原始日志数据保持完全一致
我们有APP端日志，PC端日志，微信小程序端日志，分别对应ODS的三个表
ODS.ACTION_APP_LOG
ODS.ACTION_WEB_LOG
ODS.ACTION_WXAPP_LOG

建表时，一般采用外部表；
表的数据文件格式：跟原始日志文件一致
分区：按天分区（视数据量和计算频度而定，如数据量大且需每小时计算一次，则可按小时粒度分区）

DWD层
建模思想

通常是对ODS层数据进行精细化加工处理
不完全星型模型
事实表中，不是所有维度都按维度主键信息存储（维度退化）

地域维度信息：年月日周等时间维度信息，这些维度信息，基本不会发生任何改变，并且在大部分主题分析场景中，都需要使用，直接在事实表中存储维度值
页面信息：页面类别信息，频道信息，业务活动信息，会员等级信息等，可能发生缓慢变化的维度信息，事实表中遵循经典理论存储维度主键，具体维度值则在主题分析计算时临时关联

事实表

app_event_detail：    APP-Event事件明细表
web_event_detail：   WEB-Event事件明细表
wxapp_event_detail： 小程序-Event事件明细表

维度表

coupon_info
ad_info
campain_info
lanmu_info
page_info
page_type
pindao_info
promotion_location
huodong_info
miaosha_info
product
product_detail
product_type
shop_info
tuangou_info
user_info

DWS层
建模思想

主题建模
维度建模

最主要思路：按照分析主题，"汇总"各类数据成大宽表
也有一些做法是，将DWS层的表设计成“轻度聚合表”

主要表模型

流量会话聚合天/月表
日新日活维度聚合表
事件会话聚合天/月表
访客连续活跃区间表

新用户留存维度聚合表
运营位维度聚合表
渠道拉新维度聚合表
访客分布维度聚合表

用户事件链聚合表（支撑转化分析，高级留存分析等）
……更多

2埋点日志采集

2.1概述

埋点日志在本项目中，有3大类：

App端行为日志
PC web端行为日志
微信小程序端行为日志

日志生成在了公司的N台（5台）日志服务器中，现在需要使用flume采集到HDFS

2.2需求

3类日志采集后要分别存储到不同的hdfs路径
日志中的手机号、账号需要脱敏处理（加密）
不同日期的数据，要写入不同的文件夹，且分配应以事件时间为依据
因为日志服务器所在子网跟HDFS集群不在同一个网段，需要中转传输

2.3方案设计

2.4具体实现

上游配置文件

a1.sources = r1
a1.channels = c1
a1.sinks = k1 k2


a1.sources.r1.channels = c1
a1.sources.r1.type = TAILDIR
a1.sources.r1.filegroups = g1 g2
a1.sources.r1.filegroups.g1 = /opt/data/logdata/app/event.*
a1.sources.r1.filegroups.g2 = /opt/data/logdata/wx/event.*
a1.sources.r1.headers.g1.datatype = app
a1.sources.r1.headers.g2.datatype = wx
a1.sources.r1.batchSize = 100

a1.sources.r1.interceptors = i1
a1.sources.r1.interceptors.i1.type = cn.doitedu.flume.interceptor.EventTimeStampInterceptor$EventTimeStampInterceptorBuilder
a1.sources.r1.interceptors.i1.headerName = timestamp
a1.sources.r1.interceptors.i1.timestamp_field = timeStamp
a1.sources.r1.interceptors.i1.to_encrypt_field = account


a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/data/flumedata/file-channel/checkpoint
a1.channels.c1.dataDirs = /opt/data/flumedata/file-channel/data


a1.sinks.k1.channel = c1
a1.sinks.k1.type = avro
a1.sinks.k1.hostname = hdp02.doitedu.cn
a1.sinks.k1.port = 41414
a1.sinks.k1.batch-size = 100


a1.sinks.k2.channel = c1
a1.sinks.k2.type = avro
a1.sinks.k2.hostname = hdp03.doitedu.cn
a1.sinks.k2.port = 41414
a1.sinks.k2.batch-size = 100

# 定义sink组及其配套的sink处理器
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 1
a1.sinkgroups.g1.processor.maxpenalty = 10000

下游配置文件

a1.sources = r1
a1.channels = c1
a1.sinks = k1

a1.sources.r1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 41414
a1.sources.r1.batchSize = 100

a1.channels.c1.type = file
a1.channels.c1.checkpointDir = /opt/data/flumedata/file-channel/checkpoint
a1.channels.c1.dataDirs = /opt/data/flumedata/file-channel/data

a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hdp01.doitedu.cn:8020/logdata/%{datatype}/%Y-%m-%d/
a1.sinks.k1.hdfs.filePrefix = DoitEduData
a1.sinks.k1.hdfs.fileSuffix = .log
a1.sinks.k1.hdfs.rollInterval = 60
a1.sinks.k1.hdfs.rollSize = 268435456
a1.sinks.k1.hdfs.rollCount = 0
a1.sinks.k1.hdfs.batchSize = 100
a1.sinks.k1.hdfs.codeC = gzip
a1.sinks.k1.hdfs.fileType = CompressedStream
a1.sinks.k1.hdfs.useLocalTimeStamp = false

拦截器类开发

3ODS层详细设计

3.1ODS层功能

ODS：操作数据层

主要作用：直接映射操作数据（原始数据），数据备份；
建模方法：与原始数据结构保持完全一致
存储周期：相对来说，存储周期较短；视数据规模，增长速度，以及业务的需求而定；对于埋点日志数据ODS层存储，通常可以选择3个月或者半年；存1年的是土豪公司（或者确有需要，当然，也有可能是数据量很小）

3.2数据规模

假如：公司用户规模1000万
平均日活400万
平均每天每个用户访问1.2次
每个用户平均每次访问时长10分钟
按经验，每个用户平均每 5~10 秒产生一条事件

则每次访问，将产生10分钟60秒/10 = 60条事件日志
则，每天产生的日志总条数： 400万1.2*60条 = 28800 *万=2.88亿条日志

每条日志大小平均为0.5k，则每日增量日志大小为：
28800万0.5k = 288005M= 144G
每月累积增量为：144G*30 = 4.3T
假如要存储1年的数据量，则1年的累计存储量为：51.6T
考虑，增长趋势：预估每月增长20%
则1年的累计存储量为：接近100T

注：在这里也可以估算实时流式计算中的数据量，假如最高峰值时，每秒同时在线人数有10万，则在此峰值期间，每秒将有2万条日志产生

3.3数据采集

采集源：KAFKA
TOPIC：app_log, wx_log,web_log
采集工具：FLUME

4ODS层开发手册

4.1日志数据

4.1.1日志数据类型

4.1.2入库要求

原始日志格式

普通文本文件，JSON数据格式，导入hive表后，要求可以很方便地select各个字段

分区表
外部表

4.2创建外部表

4.2.1Json数据的hvie解析
由于原始数据是普通文本文件，而文件内容是json格式的一条一条记录
在创建hive表结构进行映射时，有两种选择：
1.将数据视为无结构的string
2.将数据按json格式进行映射（这需要外部工具包JsonSerde 的支持）
本项目采用方案2来进行建表映射

@Deprecated

下载第三方JsonSerde工具包
JsonSerde 的 github 地址：https://github.com/rcongiu/Hive-JSON-Serde
JsonSerde 的 jar下载地址：http://www.congiu.net/hive-json-serde/
下载 json-serde-1.3.7-jar-with-dependencies.jar 并上传到 Hive的/lib库目录下

如果需要，也可以把本jar包安装到本地maven库

bin\mvn install:install-file -Dfile=d:/json-serde.1.3.8.jar
-DgroupId=“org.openx.data” -DartifactId=json-serde -Dversion=“1.3.8” -Dpackaging=jar

使用HIVE内置JsonSerDe
在hive3.0中，直接用hive内置的JsonSerDe也很方便

ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.JsonSerDe’ 官方文档：
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-JSON

4.2.2知识补充：hive建表完整写法

create table t3(
id    int,
name  string
)
PARTITIONED BY (dt string)
ROW FORMAT SERDE 
'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
WITH SERDEPROPERTIES (   
    'field.delim'=',',   
    'line.delim'='\n'
)
STORED AS INPUTFORMAT 
    'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 
    'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
TBLPROPERTIES(
    'EXTERNAL'='TRUE',
    'comment'='this is a ods table',
    'orc.compress'='snappy'
)
;

4.2.3app事件日志建表

drop table if exists ods.app_event_log;
create external table ods.app_event_log
(
account         string,           
appId           string,           
appVersion      string,           
carrier         string,           
deviceId        string,           
deviceType      string,           
eventId         string,           
ip              string,           
latitude        double,           
longitude       double,           
netType         string,           
osName          string,           
osVersion       string,           
properties      map,                            
releaseChannel  string,           
resolution      string,           
sessionId       string,           
`timeStamp`       bigint  
)   
partitioned by (y string,m string,d string)
row format serde 'org.apache.hive.hcatalog.data.JsonSerDe'
stored as textfile
;

4.2.4web事件日志

drop table if exists ods.web_event_log;
create external table ods.web_event_log(

// TODO 自己补上

)
partitioned by (y string,m string,d string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
stored as textfile;


4.2.5wxapp事件日志
drop table if exists ods.wxapp_event_log;
create external table ods.wxapp_event_log(
//  TODO 自己补上
)
partitioned by (y string,m string,d string)
row format serde 'org.openx.data.jsonserde.JsonSerDe'
stored as textfile;

4.3日志数据入库

4.3.1入库命令

load  data  inpath  ‘/pa/th’  into  table  ods.app_event_log  partition (y=’2020’,m=’06’,d=’22’);
load  data  inpath  ‘/pa/th’  into  table  ods.web_event_log  partition (y=’2020’,m=’06’,d=’22’);
load  data  inpath  ‘/pa/th’  into  table  ods.wxapp_event_log  partition (y=’2020’,m=’06’,d=’22’);

4.3.2脚本开发

5DIM层维表数据

用户信息，在业务系统的mysql数据库中
产品信息，在业务系统的mysql数据库中
活动信息，团购信息，秒杀信息等，在业务系统的mysql数据库中
频道，栏目信息，向app前端开发组发出需求，请求提供

6DWD层详细设计

6.1数据位置

6.2技术选型

由于本层数据ETL的需求较为复杂，用hive sql实现非常困难
因而此环节将开发spark程序来实现

6.3需求分析

清洗过滤
1，去除json数据体中的废弃字段（前端开发人员在埋点设计方案变更后遗留的无用字段）：
2，过滤掉json格式不正确的（脏数据）
3，过滤掉日志中缺少关键字段（deviceid/properties/eventid/sessionid 缺任何一个都不行）的记录！
4，过滤掉日志中不符合时间段的记录（由于app上报日志可能的延迟，有数据延迟到达）
~~5，对于web端日志，过滤爬虫请求数据（通过useragent标识来分析）~~
数据解析
将json打平，解析成扁平格式

注：properties字段不用扁平化，转成Map类型存储即可

SESSION分割
1，对于web端日志，按天然session分割，不需处理
2，对于app日志，由于使用了会话保持策略，导致app进入后台很长时间后，再恢复前台，依然是同一个session，不符合session分析定义，需要按事件间隔时间切割（业内通用：30分钟）
3，对于wx小程序日志，与app类似，session有效期很长，需要按事件间隔时间切割（业内通用：30分钟）

数据规范处理

Boolean字段，在数据中有使用1/0/-1标识的，也有使用true/false表示的，统一为Y/N/U
字符串类型字段，在数据中有空串，有null值，统一为null值
日期格式统一, 2020/9/2 2020-9-2 2020-09-02 都统一成 YYYY-MM-dd
小数类型，统一成decimal
字符串，统一成string
时间戳，统一成bigint
……

数据集成
1，将日志中的GPS经纬度坐标解析成省、市、县（区）信息；（为了方便后续的地域维度分析）
2，将日志中的IP地址解析成省、市、县（区）信息；（为了方便后续的地域维度分析）

注：app日志和wxapp日志，有采集到的用户事件行为时的所在地gps坐标信息
web日志则无法收集到用户的gps坐标，但可以收集到ip地址
gps坐标可以表达精确的地理位置，而ip地址只能表达准确度较低而且精度较低的地理位置

ID_MAPPING（全局用户标识生成）

为每一个用户每一条访问记录，标识一个全局唯一ID
(给匿名访问记录，绑定到一个id上）

选取合适的用户标识对于提高用户行为分析的准确性有非常大的影响，尤其是漏斗、留存、Session 等用户相关的分析功能。

因此，我们在进行任何数据接入之前，都应当先确定如何来标识用户。

新老访客标记
新访客，标记为1
老访客，标记为0

保存结果
最后，将数据输出为parquet格式，压缩编码用snappy

注：parquet和orc都是列式存储的文件格式，两者对于分析运算性的读取需求，都有相似优点
在实际性能测试中（读、写、压缩性能），ORC略优于PARQUET

此处可以选择orc，也可以选择parquet，选择parquet的理由则是，parquet格式的框架兼容性更好，比如impala支持parquet，但不支持orc

6.4关键设计

GPS地理位置解析
gps坐标数据形如： (130.89892350983459, 38.239879283598)
怎样才能解析为地理位置：河北省，石家庄市，裕华区

GEOHASH编码介绍

Geohash编码是一种地理位置编码技术，它可将一个gps坐标（含经、纬度）点，转化为一个字符串；

wx3y569
wx3y569

通过编码后得到的字符串，表达的是：包含被编码gps坐标点的一个矩形范围；

GEOHASH编码原理

在地球经纬度范围内，不断通过二分来划分矩形范围，通过观察gps坐标点所落的范围，来反复生成0/1二进制码。

在满足精度要求后，将所得的二进制编码通过base32编码技术转成字符串码，如下所示：

GEOHASH码的精度

字符串长度越长，表达的精度越高，矩形范围越小，越逼近原gps坐标点；
相反，长度越短，表达的精度越低，矩形范围越大；
geohash码的精确度对应表格：

GEOHASH编码工具包

gps坐标 转码成 geohash编码，这个算法不需要自己手写，有现成的工具包

maven依赖坐标：


    ch.hsr
    geohash
    1.3.0

api调用示例：

String geohashcode = GeoHash.withCharacterPrecision(45.667, 160.876547, 6).toBase32();

高德地图开放API

IP地址地理位置解析
ip地址数据形如：202.102.36.87
怎样才能解析为地理位置：江苏省，南京市，电信
通过算法是无法从ip地址算出地理位置的
需要ip和地理位置映射字典才有可能做到，类似如下数据：

IP查找算法

将字典中的起始ip和结束ip，都设法转成整数，这样，ip地址段就变成了整数段
接下来，将未知区域的ip按照相同方法转换成整数，则能相对方便地查找到字典数据了
具体的搜索算法，可以使用二分查找算法

IP地理位置处理工具包

开源工具包ip2region（含ip数据库）

项目地址： https://gitee.com/lionsoul/ip2region

使用方法
引入jar包依赖：

org.lionsoul ip2region 1.7.2

Api调用代码
// 初始化配置参数
val config = new DbConfig
// 构造搜索器,dbFile是ip地址库字典文件所在路径
val searcher = new DbSearcher(config, “initdata/ip2region.db”)
// 使用搜索器,调用查找算法获取地理位置信息
val block = searcher.memorySearch(“39.99.177.94”)
println(block)

6.5难点设计ID_MAPPING

在登录状态下，日志中会采集到用户的登录id（account），可以做到用户身份的精确标识；
而在匿名状态下，日志中没有采集到用户的登录id

如何准确标识匿名状态下的用户，是一件棘手而又重要的事情；

困难原因
在事件日志中，对用户能产生标识作用的字段有：

app日志中，有deviceid，account
web日志中，有cookieid，ip，account
wxapp日志中，有openid，account

在现实中，一个用户，可能处于如下极其复杂的状态：

登录状态访问app
匿名状态访问app
登录状态访问web
匿名状态访问web
登录状态访问wx小程序
匿名状态访问wx小程序
一个用户可能拥有不止一台终端设备
一台终端设备上可能有多个用户使用
一个用户可能一段时间后更换手机
……

备选方案（了解）
1，只使用设备 ID

适用场景

适合没有用户注册体系，或者极少数用户会进行多设备登录的产品，如工具类产品、搜索引擎、部分小型电商等。
这也是绝大多数数据分析产品唯一提供的方案。

局限性

同一用户在不同设备使用会被认为不同的用户，对后续的分析统计有影响。
不同用户在相同设备使用会被认为是一个用户，也对后续的分析统计有影响。
但如果用户跨设备使用或者多用户共用设备不是产品的常见场景的话，可以忽略上述问题。

2，关联设备 ID 和登录 ID（一对一）

适用场景

成功关联设备 ID 和登录 ID 之后，用户在该设备 ID 上或该登录 ID 下的行为就会贯通，被认为是一个 全局 ID 发生的。在进行事件、漏斗、留存等用户相关分析时也会算作一个用户。

关联设备 ID 和登录 ID 的方法虽然实现了更准确的用户追踪，但是也会增加复杂度。
所以一般来说，我们建议只有当同时满足以下条件时，才考虑进行 ID 关联：

需要贯通一个用户在一个设备上注册前后的行为。
需要贯通一个注册用户在不同设备上登录之后的行为。

局限性

一个设备 ID 只能和一个登录 ID 关联，而事实上一台设备可能有多个用户使用。
一个登录 ID 只能和一个设备 ID 关联，而事实上一个用户可能用一个登录 ID 在多台设备上登录。

3，关联设备 ID 和登录 ID（多对一）

适用场景

一个用户在多个设备上进行登录是一种比较常见的场景，比如 Web 端和 App 端可能都需要进行登录。支持一个登录 ID 下关联多设备 ID 之后，用户在多设备下的行为就会贯通，被认为是一个ID 发生的。

局限性

一个设备 ID 只能和一个登录 ID 关联，而事实上一台设备可能有多个用户使用。
一个设备 ID 一旦跟某个登录 ID 关联或者一个登录 ID 和一个设备 ID 关联，就不能解除（自动解除）。
而事实上，设备 ID 和登录 ID 的动态关联才应该是更合理的。

4，关联设备 ID 和登录 ID（动态修正）
基本原则，与方案3相同

修正之处，一个设备ID被绑定到某个登陆ID（A）之后，如果该设备在后续一段时间（比如一个月内）被一个新的登陆ID（B）更频繁使用，则该设备ID会被调整至绑定登陆ID（B）

咱们项目中，就采用最复杂的方案4

7DWD开发手册

7.1Maven知识扩展

父子工程
父工程的pom中会包含module定义：

子工程的pom中会有parent定义：

依赖继承
父工程中引入的依赖，所有子工程都会自动继承

依赖管理
父工程通过dependencyManagement声明依赖的相关属性（版本），但并不会真正引入依赖；
子工程在引入dependencyManagement所声明的依赖时，不需要指定版本，直接继承dependencyManagement中声明的版本！

属性定义
通过properties标签可以声明自定义属性（属性名、属性值）
在pom中的别的地方就可以用${属性名}来引用属性的值！

传递依赖的排除
如果我们直接引入了依赖A/B/C，都有传递依赖D，而且对D依赖的版本各不相同！就有可能在运行时产生依赖冲突！可以通过排除掉一些传递依赖来避免冲突！

7.2项目工程搭建

创建一个父工程；
父工程中引入公共的依赖和插件；

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cn.doitedu</groupId>
    <artifactId>data_tiger</artifactId>
    <packaging>pom</packaging>
    <version>1.0-SNAPSHOT</version>
    <modules>
        <module>dataware</module>
        <module>userprofile</module>
        <module>recommend</module>
        <module>streamingprocess</module>
        <module>common</module>
    </modules>

    <dependencies>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.11</artifactId>
            <version>2.2.0</version>
        </dependency>

        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.12</version>
        </dependency>

    </dependencies>

    <pluginRepositories>
        <pluginRepository>
            <id>ali-plugin</id>
            <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
            <snapshots>
                <enabled>true</enabled>
            </snapshots>
        </pluginRepository>
    </pluginRepositories>


    <build>
        <plugins>
            <!-- 指定编译java的插件 -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.5.1</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>

            <!-- 指定编译scala的插件 -->
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.2.2</version>
                <executions>
                    <execution>
                        <goals>
                            <goal>compile</goal>
                            <goal>testCompile</goal>
                        </goals>
                        <configuration>
                            <args>
                                <arg>-dependencyfile</arg>
                                <arg>${
     project.build.directory}/.scala_dependencies</arg>
                            </args>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

        </plugins>
    </build>
</project>

然后在父工程中创建各个子工程；

编写demo代码，测试工程；
项目的码云git地址：

https://gitee.com/hunter_d/doyiee.git

7.3Git版本协作管理

Git插件配置
机器上装好了git客户端

idea上的git插件，修改了git程序的本地安装目录

然后在idea中，通过settings->plugin ，搜索gitee插件，并安装

项目拉取

项目的git地址： https://gitee.com/hunter_d/doit12_yiee.git

以后，每当服务器上的项目有更新，本地可以通过pull命令来拉取、同步

7.4工具代码开发

IP地址地理位置解析

String ip = "202.102.36.87";

DbConfig config = new DbConfig();

// 加载ip字典库文件为一个字节数组
File file = new File("initdata\\ip2region.db");
RandomAccessFile ra = new RandomAccessFile(file, "r");
byte[] b = new byte[(int)file.length()];
ra.readFully(b);

// 构造一个ip2region搜索器
DbSearcher dbSearcher = new DbSearcher(config, b);
DataBlock block = dbSearcher.memorySearch(ip);
String region = block.getRegion();

System.out.println(region);

GPS坐标地理位置解析

val geo = GeoHash.geoHashStringWithCharacterPrecision(lat,lng,6)这里插入代码片

时间戳解析

将时间戳解析成年月日时分秒，本处理需求也可以在入仓后用sql进行处理

7.5IdBind绑定评分计算

步骤：
1.加载T日日志数据，抽取 设备id、登录账号、会话id、时间戳
2.根据设备id+登录账号account分组，计算每个设备上每个登录账号的登陆次数（评分）
3.加载T-1日的绑定评分结果
4.将T日评分表  full join  T-1日评分表，根据情况进行取值
原则：两边都有，分数累加；
      T-1有，T无，则分数衰减；

代码片段，完整代码见项目工程

object IdBind {
     
  def main(args: Array[String]): Unit = {
     

    Logger.getLogger("org").setLevel(Level.WARN)
    val spark = SparkSession.builder()
      .config("spark.sql.shuffle.partitions","2")
      .enableHiveSupport() // 开启hive整合支持（同时，需要引入spark-hive的依赖；引入hadoop和hive的配置文件）
      .appName("地理位置知识库加工")
      .master("local")
      .getOrCreate()

    // 加载T日日志数据
    val logDf = spark.read.table("ods17.app_action_log").where("dt='2020-10-07'")
    logDf.createTempView("logdf")

    // 计算T日的 设备->账号  绑定得分
    val loginCnts = spark.sql(
      """
        |
        |select
        |deviceid,
        |if(account is null or trim(account)='',null,account) as account,
        |-- count(distinct sessionid) as login_cnt,
        |min(timestamp) as first_login_ts,
        |count(distinct sessionid)*100 as bind_score
        |from logdf
        |group by deviceid,account
        |
        |""".stripMargin)
    loginCnts.createTempView("today")

    println("当天评分结果")
    loginCnts.show(100)

    // 加载 T-1的 绑定得分  （从hive的绑定评分表中加载）
    // val bindScorePre = spark.read.parquet("dataware/data/idbind/output/day01")
    val bindScorePre = spark.read.table("dwd17.id_account_bind").where("dt='2020-10-06'")

    println("历史评分结果")
    bindScorePre.show(100)
    bindScorePre.createTempView("yestoday")

    // 全外关联两个绑定得分表
    // 并将结果写入hive表的当天分区（T-1日分区就无用了）
    val combined = spark.sql(
      """
        |
        |insert into table dwd17.id_account_bind partition(dt='2020-10-07')
        |
        |select
        |if(today.deviceid is null,yestoday.deviceid,today.deviceid) as deviceid,
        |if(today.account is null,yestoday.account,today.account) as account,
        |if(yestoday.first_login_ts is not null,yestoday.first_login_ts,today.first_login_ts) as first_login_ts,
        |-- if(today.account is null,yestoday.login_cnt,today.login_cnt+yestoday.login_cnt) as login_cnt,
        |if(today.account is null,yestoday.bind_score*0.9,today.bind_score+if(yestoday.bind_score is null,0,yestoday.bind_score)) as bind_score
        |from
        |  today
        |full join
        |  yestoday
        |on today.deviceid=yestoday.deviceid and today.account=yestoday.account
        |
        |""".stripMargin)

    spark.close()

  }

}

7.6ODS_2_DWD ETL主程序开发

7.6.1逻辑设计

加载数据

从hive仓库的ods表读取源数据
从hive仓库读取维表geohash字典，并进行广播
从hive仓库读取全局用户id表，并进行广播
从hdfs读取ip地理位置字典，并进行广播

清洗，集成

将每行数据封装成case class
按照要求进行过滤
提取gps，从geohash字典匹配省市区信息
如果gps匹配失败，则提取ip地址匹配省市区信息
如果account为空，则根据deviceid，去全局guid字典匹配account

新老访客标记
session切割

7.6.2完整代码

代码片段，完整代码见项目工程

package cn.doitedu.dwetl

import java.text.SimpleDateFormat
import java.util.UUID

import ch.hsr.geohash.GeoHash
import cn.doitedu.dwetl.beans.AppLogBean
import cn.doitedu.dwetl.utils.Row2AppLogBean
import org.apache.commons.lang3.StringUtils
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{
     FSDataInputStream, FileStatus, FileSystem, Path}
import org.apache.log4j.{
     Level, Logger}
import org.apache.spark.SparkFiles
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{
     DataFrame, Dataset, Row, SparkSession}
import org.lionsoul.ip2region.{
     DbConfig, DbSearcher}

/**
 * @author 涛哥
 * @nick_name "deep as the sea"
 * @contact qq:657270652 wx:doit_edu
 * @site www.doitedu.cn
 * @date 2021-01-14
 * @desc ods层app端行为日志数据，处理为dwd明细表
 *
 *   目标表建表语句
 CREATE TABLE dwd.event_app_detail (
    account         String                ,
    appid           String                ,
    appversion      String                ,
    carrier         String                ,
    deviceid        String                ,
    devicetype      String                ,
    eventid         String                ,
    ip              String                ,
    latitude        Double                ,
    longitude       Double                ,
    nettype         String                ,
    osname          String                ,
    osversion       String                ,
    properties      Map    ,
    releasechannel  String                ,
    resolution      String                ,
    sessionid       String                ,
    `timestamp`     BIGINT                ,
    newsessionid    String                ,
    country         String                ,
    province        String                ,
    city            String                ,
    region          String                ,
    guid            String                ,
    isnew           String
  )
  PARTITIONED BY (dt string)
  STORED AS parquet
  TBLPROPERTIES("parquet.compress"="snappy")
  ;

 *
 */
object EventAppLog2DwdTable {
     

  def main(args: Array[String]): Unit = {
     

    if(args.size<3){
     
      println(
        """
          |
          |wrong number of parameters
          |usage:
          | args(0) :  T-1日
          | args(1) :  T日
          | args(2) :  T+1日
          |
          |""".stripMargin)
    }

    val DT_PRE = args(0)
    val DT_CUR = args(1)
    val DT_NEXT = args(2)



    //Logger.getLogger("org").setLevel(Level.FATAL)

    val spark = SparkSession.builder()
      .appName("ods层app端行为日志数据，处理为dwd明细表")
      //.master("local[*]")
      .enableHiveSupport()
      .getOrCreate()

    import spark.implicits._

    /**
     * 加载各种字典数据，并广播
     */
    // 1.geohash字典
    val geodf: Dataset[Row] = spark.read.parquet("/dicts/geodict")
    val geomap = geodf.rdd.map(row => {
     
      val geohash: String = row.getAs[String]("geohash")
      val province: String = row.getAs[String]("province")
      val city: String = row.getAs[String]("city")
      val region: String = row.getAs[String]("region")
      (geohash, (province, city, region))
    }).collectAsMap()
    val bc1 = spark.sparkContext.broadcast(geomap)


    // 2.ip2region.db字典
    /*

        // 添加缓存文件
        spark.sparkContext.addFile("/dicts/ip2region/ip2region.db")
        // 在算子中使用缓存文件
        geodf.rdd.map(row=>{
          val path = SparkFiles.get("ip2region.db")
          new DbSearcher(new DbConfig(),path)

        })
    */

    // 自己读文件，存入一个字节数组，并广播
    val fs = FileSystem.get(new Configuration())
    val path = new Path("/dicts/ip2region/ip2region.db")
    // 获取文件的长度（字节数）
    val statuses: Array[FileStatus] = fs.listStatus(path)
    val len = statuses(0).getLen


    // 将字典文件，以字节形式读取并缓存到一个字节buffer中
    val in: FSDataInputStream = fs.open(path)
    val buffer = new Array[Byte](len.toInt)
    in.readFully(0, buffer)

    val bc2 = spark.sparkContext.broadcast(buffer)


    // 3.设备账号关联评分字典
    // val relation = spark.read.table("dwd.device_account_relation").where("dt='2021-01-10'")
    //d01,c01,1000
    //d01,c02,800
    // 上面的数据，需要加工成：  d01,c01  加工逻辑：求分组top1
    val relation = spark.sql(
      s"""
        |
        |select
        |    deviceid,
        |    account
        |   from
        |      (
        |         select
        |          deviceid,
        |          account,
        |          row_number() over(partition by deviceid order by score desc,last_time desc) as rn
        |         from dwd.device_account_relation
        |         where dt='${DT_CUR}'
        |      ) o
        |where rn=1
        |
        |""".stripMargin)

    val relationMap = relation.rdd.map(row => {
     
      val deviceid = row.getAs[String]("deviceid")
      val account = row.getAs[String]("account")
      (deviceid, account)
    }).collectAsMap()
    val bc3 = spark.sparkContext.broadcast(relationMap)


    // 3.历史设备、账号标识（用户判断新老访客）
    val ids = spark.read.table("dwd.device_account_relation")
      .where(s"dt='${DT_PRE}' ")
      .selectExpr("explode (array(deviceid,account)) as id")
      .map(row=>row.getAs[String]("id")).collect().toSet
    val bc4 = spark.sparkContext.broadcast(ids)




    /**
     * 加载T日的ODS日志表数据
     */
    val ods = spark.read.table("ods.event_app_log").where(s"dt='${DT_CUR}'")

    val beanRdd = ods.rdd.map(row => {
     
      Row2AppLogBean.row2AppLogBean(row)
    })


    /**
     * 根据规则清洗过滤
     */
    val filtered: RDD[AppLogBean] = beanRdd.filter(bean => {
     
      var flag = true
      // deviceid/properties/eventid/sessionid
      if (!StringUtils.isNotBlank(bean.deviceid) && bean.properties != null && StringUtils.isNotBlank(bean.eventid) && StringUtils.isNotBlank(bean.sessionid)) flag = false

      // 判断数据的时间是否正确
      val sdf = new SimpleDateFormat("yyyy-MM-dd")
      val validStart = sdf.parse(s"${DT_CUR}").getTime
      val validEnd = sdf.parse(s"${DT_NEXT}").getTime
      if (bean.timestamp < validStart || bean.timestamp >= validEnd) flag = false

      flag
    })


    /**
     * session分割，添加新的newsessionid字段
     */
    val sessionSplitted: RDD[AppLogBean] = filtered.groupBy(bean => bean.sessionid).flatMapValues(iter => {
     

      val sortedEvents = iter.toList.sortBy(bean => bean.timestamp)
      var tmpSessionId = UUID.randomUUID().toString
      for (i <- 0 until sortedEvents.size) {
     
        sortedEvents(i).newsessionid = tmpSessionId
        if (i < sortedEvents.size - 1 && sortedEvents(i + 1).timestamp - sortedEvents(i).timestamp > 30 * 60 * 1000) tmpSessionId = UUID.randomUUID().toString
      }

      sortedEvents
    }).map(_._2)

    //sessionSplitted.toDF.show(100,false)

    // 验证切割效果
    /*sessionSplitted.toDF.createTempView("tmp")
    spark.sql(
      """
        |
        |select
        |sessionid,count(distinct newsessionid) as cnt
        |from tmp
        |group by sessionid
        |having count(distinct newsessionid) >1
        |
        |""".stripMargin).show(100,false)*/


    /**
     * 集成数据（地理位置）
     */
    val aread: RDD[AppLogBean] = sessionSplitted.mapPartitions(iter => {
     

      val geoDict: collection.Map[String, (String, String, String)] = bc1.value
      val ip2RegionDb: Array[Byte] = bc2.value

      val searcher = new DbSearcher(new DbConfig(), ip2RegionDb)

      iter.map(bean => {
     

        // 定义临时记录变量
        var country: String = "UNKNOWN"
        var province: String = "UNKNOWN"
        var city: String = "UNKNOWN"
        var region: String = "UNKNOWN"

        // 查询GEO字典获取省市区信息
        try {
     
          val lat = bean.latitude
          val lng = bean.longitude
          val geo = GeoHash.geoHashStringWithCharacterPrecision(lat, lng, 5)
          val area = geoDict.getOrElse(geo, ("UNKNOWN", "UNKNOWN", "UNKNOWN"))
          country = "CN"
          province = area._1
          city = area._2
          region = area._3
        } catch {
     
          case e: Exception => e.printStackTrace()
        }

        // 如果在geo字典中查询失败，则用ip地址再查询一次
        if ("UNKNOWN".equals(province)) {
     
          val block = searcher.memorySearch(bean.ip)

          // 中国|0|上海|上海市|电信
          try {
     
            val split = block.getRegion.split("\\|")
            country = split(0)
            province = split(2)
            city = split(3)
          } catch {
     
            case e: Exception => e.printStackTrace()
          }
        }

        bean.country = country
        bean.province = province
        bean.city = city
        bean.region = region

        bean
      })
    })

    /**
     * guid绑定生成，新老访客标记
     */
    val guided: RDD[AppLogBean] = aread.mapPartitions(iter => {
     

      val deviceBindAccountDict = bc3.value

      // guid绑定
      iter.map(bean => {
     
        var guid: String = null

        // 如果该条数据中，有登录账号，则直接用该登录账号作为这条数据的全局用户标识
        if (StringUtils.isNotBlank(bean.account)) {
     
          guid = bean.account
        }
        // 如果该条数据中，没有登录账号，则用设备id去关联账号表中查找默认的账号，作为guid
        else {
     
          val findedAccount = deviceBindAccountDict.getOrElse(bean.deviceid, null)
          // 如果查询到的结果为不为null，则用查询到的account作为guid，否则用deviceid作为guid
          if(findedAccount != null) guid = findedAccount else guid=bean.deviceid
        }

        bean.guid = guid

        bean
      })

    })

    /**
     * 新老访客
     */
    val result = guided.mapPartitions(iter=>{
     

      val idSet = bc4.value

      iter.map(bean=>{
     
        var isnew = "1"
        if(idSet.contains(bean.deviceid) || idSet.contains(bean.account)) isnew = "0"

        bean.isnew = isnew

        bean
      })

    }).toDF()



    /**
     * 保存结果到目标表
     */
    result.createTempView("result")
    spark.sql(
      """
        |
        |insert into table dwd.event_app_detail partition(dt='2021-01-10')
        |select
        |account            ,
        |appid              ,
        |appversion         ,
        |carrier            ,
        |deviceid           ,
        |devicetype         ,
        |eventid            ,
        |ip                 ,
        |latitude           ,
        |longitude          ,
        |nettype            ,
        |osname             ,
        |osversion          ,
        |properties         ,
        |releasechannel     ,
        |resolution         ,
        |sessionid          ,
        |timestamp          ,
        |newsessionid       ,
        |country            ,
        |province           ,
        |city               ,
        |region             ,
        |guid               ,
        |isnew
        |
        |from result
        |
        |""".stripMargin)



    spark.close()

  }

}

你可能感兴趣的:(数据仓库,大数据,spark,hive,用户画像)

【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【Spark征服之路-3.7-Spark-SQL核心编程（六）】 qq_46394486 spark sql ajax
数据加载与保存：通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet加载数据：spark.read.load是加载数据的通用方法。如果读取不同格式的数据，可以对不同的数据格式进行设定。spark.read.format("…")[.option("…")].
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
Spark RDD 之 Partition 博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式？对比细粒度模式SparkRDD的task数量是由什么决定的？一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
【学术会议投稿】Vue.js组件开发实战：从零构建高效可复用组件小周不想卷艾思科蓝学术会议投稿 vue.js
【IEEE出版|会后3-4个月EI检索】第三届云计算、大数据应用与软件工程国际学术会议(CBASE2024）_艾思科蓝_学术一站式服务平台更多学术会议请看：https://ais.cn/u/nuyAF3目录引言一、Vue.js组件开发基础二、构建高效可复用组件三、Vue.js组件的高级特性四、Vue.js的优点与缺点Vue.js的优点Vue.js的缺点引言在现代前端开发中，Vue.js凭借其简洁的
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
女性职业新趋势：揭秘未来高薪热门行业氧惠爱高省
女生在职业选择上拥有广阔的空间，尤其是在当前快速发展的社会背景下，一些行业不仅成为了高薪热门，还提供了多样化的职业路径。以下是一些可能成为女生高薪热门选择的行业：➤推荐网购返利app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。科技与互联网行业人工智能与大数据：随着人工智能和大数据技术的广泛应用，相
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
防不胜防!第六届研究所老姜（姜新宁）算力3.0亏损被骗曝光,巨额损失真相令人胆寒心惊！大盛律道
数字经济十选五投资诈骗套路频出，投资者股民的“钱袋子”多有损失，以投资理财获取大数据数字经济投资算法为由，将投资者的积蓄收入囊中，成为不法分子常用的诈骗手段之一。为守护好投资者的“钱袋子”，小编持续开展曝光数字经济诈骗行动，维护“投资者”合法权益。近年来，股市波动不断，投资者们无不渴望找到稳健的投资途径。而一些不法分子趁机利用第六届研究所荐股群的手段，设下重重陷阱，致使投资者损失惨重。骗子冒充姜新
数据仓库是什么，一文读懂数据仓库设计步骤 Leo.yuan 数据数据仓库大数据人工智能数据库信息可视化
目录一、数据仓库：干啥用的？1.数据仓库是啥？2.数据仓库有啥大用？二、设计之前：准备啥？1.搞清楚业务要啥2.摸清数据家底3.划好仓库边界三、概念设计：搭框架1.定好主题域2.分清维度和事实3.画出概念模型四、逻辑设计：定细节1.设计维度表和事实表2.想好怎么存数据3.定好安全规矩五、物理设计：落地实施1.选好数据库软件2.优化数据库性能3.部署上线六、实施与测试：跑起来1.ETL：灌数据2.全
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方