江湖人称涛哥

企业级大数据项目【4】数仓-业务域ODS-DWD-ADS开发篇

1概要说明

业务域的数据来自业务系统的数据库
通过sqoop（或datax）抽取到数仓的ods层
在ods层对有需要的表进行增量合并，字段选择，反范式话，形成dwd明细层表
在明细层基础上，进行各类主题的数据统计、分析
课程中，主要分析的主题有：

交易域分析
营销域分析
会员域分析
物流域分析
仓储域分析
供应域分析
…

什么是业务系统：
公司向用户提供业务功能的系统，比如
京东：京东商城！
头条：头条网站
这一类系统，通常都是web系统，简单来说，分为：
界面（浏览器网页）+后端（web服务）+存储（mysql数据库）

2Sqoop数据抽取工具

2.1基本概念

sqoop 是 apache 旗下一款“Hadoop中的各种存储系统（HDFS、HIVE、HBASE）和关系数据库（mysql、oracle、sqlserver等）服务器之间传送数据”的工具。

核心的功能有两个：

导入（迁入）
导出（迁出）

导入数据：MySQL，Oracle 导入数据到 Hadoop 的 HDFS、HIVE、HBASE 等数据存储系统
导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等 Sqoop 的本质还是一个命令行工具，和 HDFS，Hive 相比，并没有什么高深的理论。

底层工作机制
将导入或导出命令翻译成 MapReduce 程序来实现
在翻译出的 MapReduce 中主要是对InputFormat 和 OutputFormat 进行定制

2.2使用实例

sqoop import \
--connect jdbc:mysql://h3:3306/ry \
--username root \
--password haitao.211123 \
--hive-import \
--hive-table yiee_dw.doit_jw_stu_base4  \
--as-textfile \
--fields-terminated-by ',' \
--compress   \
--compression-codec gzip \
--split-by stu_id \
--null-string '\\N' \
--null-non-string '\\N' \
--hive-overwrite  \
--query 'select stu_id,stu_name,stu_age,stu_term from doit_jw_stu_base where stu_createtime>"2019-09-24 23:59:59" and stu_sex="1" and $CONDITIONS'  \
--target-dir '/user/root/tmp'   \
-m 2

3DataX数据抽取工具

3.1简介

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。

官网地址：https://github.com/alibaba/DataX

3.2核心架构

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。
Writer： Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。
Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题

核心模块介绍：
DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。

DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。

切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。

每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。

DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0

DataX调度流程：
举例来说，用户提交了一个DataX作业，并且配置了20个并发，目的是将一个100张分表的mysql数据同步到odps里面。DataX的调度决策思路是：
DataXJob根据分库分表切分成了100个Task。
根据20个并发，DataX计算共需要分配4个TaskGroup。
4个TaskGroup平分切分好的100个Task，每一个TaskGroup负责以5个并发共计运行25个Task。

3.3DataX支持的数据通道

DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入，目前支持数据如下图，详情请点击：
https://github.com/alibaba/DataX/blob/master/introduction.md

3.4DataX基本使用

1，官网下载datax包，之后解压；
2，编写json配置文件，配置文件结构如下：

{
    "job": {
        "content": [

                "reader": {
                },
                "writer": {
               }
        ],
        "setting": {
            "speed": {
                "channel": "1"
            }
        }
    }
}

具体的reader，writer参数官网有说明。

3，执行 python datax.py xx.json

4，调优，主要是调整channel，byte，record参数，不过具体性能还是取决于源端数据库的表是否适合切分，是否有合适的切分字段，切分字段最好为数字。

3.5DataX实战配置

从mysql抽取数据到hdfs

{
    "setting": {},
    "job": {
        "setting": {
            "speed": {
                "channel": 2
            }
        },
        "content": [
            {
                "reader": {
                    "name": "mysqlreader",
                    "parameter": {
                        "username": "root",
                        "password": "ABC123abc.123",
                        "column": [
                            "id",
                            "name",
						"gender",
						"addr"
                        ],
                        "splitPk": "id",
                        "connection": [
                            {
                                "table": [
                                    "demo1"
                                ],
                                "jdbcUrl": [
     "jdbc:mysql://doitedu01:3306/dataxtest?useUnicode=true&characterEncoding=utf8"
                                ]
                            }
                        ]
                    }
                },
                "writer": {
                    "name": "hdfswriter",
                    "parameter": {
                        "defaultFS": "hdfs://doitedu01:8020",
                        "fileType": "orc",
                        "path": "/user/hive/warehouse/test.db/stu/",
                        "fileName": "stu",
                        "column": [
                            {
                                "name": "id",
                                "type": "INT"
                            },
                            {
                                "name": "name",
                                "type": "STRING"
                            },
                            {
                                "name": "age",
                                "type": "INT"
                            },
                            {
                                "name": "gender",
                                "type": "STRING"
                            },
                            {
                                "name": "addr",
                                "type": "STRING"
                            }
                        ],
                        "writeMode": "append",
                        "fieldDelimiter": "\t",
                        "compress":"NONE"
                    }
                }
            }
        ]
    }
}

4数据抽取策略

本层直接对接DATAX/SQOOP从业务库抽取过来的各类数据表

实体表
实体表小表（品类信息表，活动信息表，优惠券信息表等），每天抽取过来一份全量（或者一周、一月）
实体表大表（商品信息表），每天抽取过来一份增量数据

事实表
订单相关表
优惠券领取使用记录表
秒杀订阅记录表

每天都会抽取一份增量数据

总原则
小表——全量抽取
大表——增量抽取

5ODS 设计开发

5.1主要表模型

商品信息（主要信息、详情信息、类目信息、属性信息、商品相册信息）
用户信息（主要信息、附加信息、会员等级信息）
订单信息及购物车相关（主要信息、详情信息、物流信息、评论信息）
内容管理（话题，文章，评论）
营销管理（优惠券、代金券、活动规则、主题推荐）

5.2增量合并

策略
为了便于后续的统计分析方便，用增量抽取策略抽取过来的增量数据，都要每天进行滚动合并

合并的技术手段：
1）方便起见，可以使用 sqoop merge命令进行
2）如果有特别情况，可以自己写spark程序来实现
3）直接用hive的sql来实现（分组top1模式或者 JOIN模式）

增量合并实战

bin/sqoop codegen \
--connect jdbc:mysql://impala01:3306/sqooptest \
--username root \
--password ABC123abc.123 \
--table stu \
--bindir /opt/apps/code/stu \
--class-name Stu \
--fields-terminated-by ","

bin/sqoop merge \
--new-data /sqoopdata/stu1 \
--onto /sqoopdata/stu0 \
--target-dir /sqoopdata/stu_all \
--jar-file /opt/apps/code/stu/Stu.jar \
--class-name Stu \
--merge-key id

5.3拉链表

5.3.1概念介绍
以订单表为例，表中90%的数据基本不会随着时间而变化，只有最近一段时间内的数据会有变化
对于这种类型的表，我们往往需要保存好每一条数据的每一天的状态

方案1：
可以每天保存一份全量表，并长期存储，这样可以实现每天状态的保存，也方便查询任何一天中数据的状态；
弊端：由于表中90%的数据都不会变化，因此，各天的全量表，其实大量数据都是相同的，存储冗余度太高

方案2：
使用拉链表模型，来实现每条数据每天状态的变化情况
优点：既能保留每天状态，又比较节省存储空间
弊端：使用、查询的时候，略增加了一点复杂性

拉链表查询举例：比如查询2020-07-05日的所有订单数据

select  *  from  zipper  where  and start_dt<='2020-07-05' and end_dt>='2020-07-05'

5.3.2拉链表开发

整体流程
核心逻辑

T-1日拉链表 LEFT JOIN T日增量 (对能关联上的数据进行拉链表的end_dt做封闭)
UNION ALL
T日增量 (生成start_dt=T , end_dt = 9999-12-31)

6DWD层设计开发

本层主要表类型：

存储各业务表的全量快照
存储各业务表的拉链表

6.1订单明细宽表: oms_order

核心事实表：
oms_order_info
oms_order_item

关联维度表：
pms_product
pms_product_category
ums_member

6.2购物车明细宽表 oms_cart

6.3优惠券使用明细表 sms_coupon

6.4秒杀活动订阅明细表 sms_promotion

7DWS层设计开发

本层主要处理：
按照维度建模的思想，按各主题，将核心事实表关联需要的维度表，得到宽表

7.1订单明细宽表：dws.oms_order_detail

假如有如下报表统计需求：

核心度量：

GMV金额（GMV包含所有已提交订单）
实付金额（已付款的金额）
优惠券抵扣金额（一些订单中会有使用优惠券）
促销折扣金额
积分抵扣金额

主要维度：

时段（小时段，日，周，月，季，…）
品类
品牌
会员等级
订单类型（普通订单，团购订单，秒杀订单）
订单来源（pc，app，微信小程序，H5）
促销活动

我们可以做一张dws层的宽表，来支撑这个统计需求

7.2订单数量、人数、单价、复购分析

dws.oms_order_and_return

核心度量：

订单单数
订单人数
取消单数
取消人数
退货单数（统计口径：按退单申请日作为时间条件）
退货人数
退货件数

主要维度：

时段（小时段，日，周，月，季，…）
会员等级
订单类型（普通订单，团购订单，秒杀订单）
订单来源（pc，app，微信小程序，H5）

设计一张DWS层的服务表：订单表 + 退货申请记录表

7.3购物车分析dws表 dws.oms_cart_detail

7.4优惠券领取数量，使用数量，使用人数分析

核心度量：

优惠券领取数量
优惠券使用数量
优惠券领取金额
优惠券使用金额
优惠券使用人数

主要维度：

时段（小时段，日，周，月，季，…）
会员等级
优惠券类型

使用到的表：  sms_coupon  实体描述表 （优惠券信息表）
              sms_coupon_history   操作事务表（优惠券领取使用记录表）

7.5秒杀订阅人数，成单数，成单金额多维度分析

核心度量：

秒杀订阅人数
秒杀成单单数
秒杀成单金额

主要维度：

时段（小时段，日，周，月，季，…）
会员等级
秒杀活动场次

使用到的表：  sms_flash_promotion_log  操作事务表 （秒杀订阅通知记录）
              oms_order_item   操作事务表（订单商品详情记录）
              ums_member    实体表（用户信息表）
              sms_flash_promotion_session 实体表（秒杀场次信息）

7.6用户消费统计画像表

需求说明
给用户打上一些消费相关（下单、退货、金额、客单价）的统计数据标签

drop table if exists ads_user_order_tag;
create table ads_user_order_tag(
user_id                        bigint     ,--用户
first_order_time               string     ,--首单日期
last_order_time                string     ,--末单日期
first_order_ago                bigint     ,--首单距今时间
last_order_ago                 bigint     ,--末单距今时间
month1_order_cnt               bigint     ,--近30天下单次数
month1_order_amt               double     ,--近30天购买金额（总金额）
month2_order_cnt               bigint     ,--近60天购买次数
month2_order_amt               double     ,--近60天购买金额
month3_order_cnt               bigint     ,--近90天购买次数
month3_order_amt               double     ,--近90天购买金额
max_order_amt                  double     ,--最大订单金额
min_order_amt                  double     ,--最小订单金额
total_order_cnt                bigint     ,--累计消费次数（不含退拒）
total_order_amt                double     ,--累计消费金额（不含退拒）
total_coupon_amt               double     ,--累计使用代金券金额
user_avg_order_amt             double     ,--平均订单金额（含退拒）
month3_user_avg_amt            double     ,--近90天平均订单金额（含退拒）
common_address                 string     ,--常用收货地址
common_paytype                 string     ,--常用支付方式
month1_cart_cnt_30                bigint     ,--最近30天加购次数
month1_cart_goods_cnt_30          bigint     ,--最近30天加购商品件数
month1_cart_cancel_cnt         bigint        ,--最近30天取消商品件数
dw_date                        string         ,计算日期
) partitioned by
(dt string)
;

该表的计算，需要用到3张源表： 订单表，退拒货申请记录表，购物车表


《详见项目代码》

计算方案

代码实现

7.7用户商品退拒画像分析

需求说明

drop table if exists ads_user_profile_reject_tag;
create table ads_user_profile_reject_tag(
user_id                           bigint      ,-- 用户
p_sales_cnt                       bigint      ,-- 不含退拒商品购买数量
p_sales_amt                       double      ,-- 不含退拒商品购买的商品总价
p_sales_cut_amt                   double      ,-- 不含退拒实付金额（扣促销减免）
h_sales_cnt                       bigint      ,-- 含退拒购买数量
h_sales_amt                       double      ,-- 含退拒购买金额
h_sales_cut_amt                   double      ,-- 含退拒购买金额（扣促销减免）
return_cnt                        bigint      ,-- 退货商品数量
return_amt                        double      ,-- 退货商品金额
dw_date                            bigint      
) partitioned by (dt string)
stored as parquet
;

计算方案

从 oms_order_item  关联   oms_order_return_apply
得到 如下数据：

订单，商品，商品价格，购买数量，实付金额，是否退货，退货件数，退货的金额

代码实现

7.8用户购物偏好画像分析

需求说明

drop table if exists ads_user_profile_favor_tag;
create table ads_user_profile_favor_tag(
user_id                             bigint      ,-- 用户
common_first_cat                  bigint      ,-- 最常购买一级类目名称
common_second_cat                 bigint      ,-- 最常购买二级类目名称
common_third_cat                  bigint       ,--最常购买三级类目名称
most_brand_id                   bigint         ,--最常购买的品牌
second_brand_id                   bigint       ,--第二多购买的品牌
third_brand_id                   bigint         ,--第三多购买的品牌	
third_brand_id                   bigint         ,--最喜欢的颜色
dw_date                             bigint      
) partitioned by (dt string)
stored as parquet
;

最核心的要点是，收集到用户的每一次购买的行为记录
计算方案

代码实现

STM32 —— 嵌入式系统、通用计算机系统、物联网三层架构 Exhausted、 stm32 单片机 stm32 嵌入式硬件物联网架构
目录一、嵌入式系统的概念二、通用计算机系统与嵌入式系统的比较用途硬件软件性能与功耗开发与维护三、嵌入式系统与物联网的关系四、物联网的三层架构1.感知层（PerceptionLayer）2.网络层（NetworkLayer）3.应用层（ApplicationLayer）三层架构的协作流程一、嵌入式系统的概念嵌入式系统一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及应用程序等4部分组成，并且分为
麒麟V10 arm cpu aarch64 下编译 RocketMQ-Client-CPP 2.2.0 eamon100 Linux操作系统 java-rocketmq rocketmq c++
国产自主可控服务器需要访问RocketMQ消息队列，最新的C++SDK是2020年发布的rocketmq-client-cpp-2.2.0这个版本支持TLS模式。用默认的版本安装遇到一些问题，记录一下。下载Releases·apache/rocketmq-client-cpp·GitHubhttps://github.com/apache/rocketmq-client-cpp/releases操
2021-06-15 C逆序存入数组的元素智者知已应修善业 c语言算法经验分享笔记 c++
缘由编程，逆序存入数组的元素_编程语言-CSDN问答#defineN7main(){staticinta[N]={12,9,16,5,7,2,l},k,s;for(k=0;k
基于协同过滤推荐算法的景点票务数据系统（python-计算机毕设）计算机程序设计(接毕设) 推荐算法机器学习毕业设计 python 人工智能
摘要IABSTRACTII第1章引言1研究背景及意义1研究背景1研究意义1国内外研究现状2智慧旅游3旅游大数据3研究内容4本章小结4第2章相关技术概述5基于内容的推荐算法5基于内容的推荐算法原理5基于内容的推荐算法实现5协同过滤推荐算法6协同过滤算法原理6协同过滤算法实现7SpringBoot框架9SpringBoot简介9SpringBoot特性10SpringBoot工作原理10Vue.js框
SpringBoot测试：@SpringBootTest与MockMvc的实战应用程序媛学姐 Spring 全家桶 Java spring boot 后端 java
文章目录引言一、SpringBoot测试基础1.1测试环境配置1.2测试目录结构二、@SpringBootTest注解详解2.1基本用法与配置选项2.2不同WebEnvironment模式的应用场景三、MockMvc实战应用3.1MockMvc基本使用方法3.2高级请求构建和响应验证四、模拟服务层与依赖4.1使用@MockBean模拟服务4.2测试异常处理和边界情况五、测试最佳实践5.1测试数据准
S32K144外设实验（三）：ADC单通道连续采样（中断）上层精灵的赞美诗 #S32K144的外设基础实验单片机 stm32 嵌入式硬件 eclipse mcu 笔记
这次的实验比较简单，主要目的就是验证一下ADC的中断功能，思路是使用软件触发ADC的连续单通道采样，将采样值通过串口发送到上位机观察数是否正确。其实官方并不推荐使用中断的方式，这种方式会占用大量的CPU资源，笔者安排这篇文章的主要目的是在使用ADC中断的时候发现了个容易忽略的问题，如下图：笔者配置了ADC通道12的连续转换并使能了通道中断，关键的点就在中断这里，通过查看SDK中的代码发现，配置后的
2.2[frontEnd]ESLint CQU_JIAKE 前端 java
ESLint是一个开源的JavaScript和TypeScript代码质量和代码风格检查工具。它可以帮助开发者检测代码中的问题（如语法错误、潜在的错误、不一致的代码风格等），从而提高代码质量和可维护性。主要功能检测语法错误：ESLint可以检测代码中的语法错误，例如未关闭的括号、缺少分号等。代码风格检查：ESLint可以强制代码风格的一致性，例如：缩进风格（2空格或4空格）。引号类型（单引号或双引
Chapter 8: Advanced Template Metaprogramming in C++__《C++ Templates》notes 郭涤生 c/c++c++算法开发语言笔记
AdvancedTemplateMetaprogramminginC++1.KeyConcepts&CodeExplanations1.1SFINAE(SubstitutionFailureIsNotAnError)1.2`constexpr`andCompile-TimeComputation1.3TypeTraits1.4VariadicTemplateswithRecursion1.5C++
Python第六章01：列表（lsit）定义语法苹果.Python.八宝粥 python 开发语言
#列表（list）的定义语法#基本语法：#字面量：#[元素1，元素2，元素3，元素4，......]#定义变量#变量名称=[元素1，元素2，元素3，元素4，......]#定义空列表#变量名称=[]#变量名称=list[]#列表内的每一个数据，称之为元素#1.以[]作为标识#2.列表内每一个元素直接用，逗号隔开#3.列表可以一次存储多个数据，且可以为不同的数据类型，支持嵌套。#定义一个列表my_l
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
巨人学术搜索官网入口，免费参考文献论文及学术搜索引擎黄豆匿zlib 学习方法
巨人学术搜索自2024年上线以来，迅速成为学术界不可或缺的重要工具，尤其受到研究人员、教师及学生的青睐。这款专注于学术领域的专业搜索引擎，覆盖了自然科学、人文科学、社会科学等多个学科领域，整合了国内外众多主流数据库，包括维普、万方、Elsevier、WebofScience等，为用户提供了期刊论文、学位论文、专利、图书、预印本等多种类型资源的精准检索服务。与普通搜索引擎相比，巨人学术搜索的优势在于
31天Python入门——第5天:循环那些事儿安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.while循环1.1while循环的嵌套1.2补充学习:print函数2.for循环2.1range函数2.2for循环2.3continue和break以及return2.4for循环的嵌套3.补充学习3.1enumerate函数3.2zip函数3.3不要在遍历列表的过程中删除元素循环是编程语言常见的一种流程控制所谓循环就是反复的执行一段代码我们人类语言要让别人反
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
C++20 的 `std::remove_cvref`：简化类型处理的利器码事漫谈 C++20 c++20
文章目录1.`std::remove_cvref`是什么？2.示例代码3.为什么需要`std::remove_cvref`？4.实现原理5.使用场景6.注意事项7.总结在C++20中，标准库引入了许多新特性，其中std::remove_cvref是一个非常实用的类型特征工具，它极大地简化了类型处理的复杂性。1.std::remove_cvref是什么？std::remove_cvref是一个模板结
C#基于MVC模式实现TCP三次握手，附带简易日志管理模块风，停下 C#设计模式网络协议 c#mvc tcp/ip
C#基于MVC模式实现TCP三次握手1Model1.1ServerModel1.2ClientModel1.3配置参数模块1.4日志管理模块1.4.1数据结构1.4.1日志管理工具类1.4.1日志视图展示1.4.1.1UcLogManage.cs1.4.1.2UcLogManage.Designer.cs2视图（View）2.1ViewServer2.1.1ViewServer.cs2.1.1Vi
什么是联盟营销？2025新手怎么入局联盟营销？跨境知识搬运工 facebook 大数据
联盟营销为商家和营销人员提供了一个低成本、高效益的合作平台，同时也让消费者能够享受更多的优惠和产品推荐。那么，什么是联盟营销？如何入局联盟营销，尤其是对于新手来说，又该如何开始这项业务？本文将详细介绍这些问题，并帮助你了解如何顺利入局联盟营销。一、什么是联盟营销？联盟营销是一种基于成果的合作营销模式。在这种模式下，商家与联盟营销者（即“推广者”或“发布者”）合作，推广其产品或服务。联盟营销者通过推
什么是联盟营销？2025新手怎么入局联盟营销？纯干苹果派人工智能大数据
联盟营销为商家和营销人员提供了一个低成本、高效益的合作平台，同时也让消费者能够享受更多的优惠和产品推荐。那么，什么是联盟营销？如何入局联盟营销，尤其是对于新手来说，又该如何开始这项业务？本文将详细介绍这些问题，并帮助你了解如何顺利入局联盟营销。一、什么是联盟营销？联盟营销是一种基于成果的合作营销模式。在这种模式下，商家与联盟营销者（即“推广者”或“发布者”）合作，推广其产品或服务。联盟营销者通过推
async和 await 的基本使用怀男孩前端 javascript 开发语言
目录1.async/await是什么？2.async/await基本语法3.async函数和await的特点3.1async函数的特点3.2async函数的特点代码演示3.3await的特点4.try/catch捕获错误1.async/await是什么？async/await是一种用于处理异步操作的Promise语法糖。(语法糖:更易读、更简洁或更符合人类思维习惯而设计的一种语法方式)通过使用as
STM32 SPI总线驱动CH376T实现U盘/TF卡读写全解析—SPI通信、命令集与文件操作（下） | 零基础入门STM32第七十五步触角01010001 STM32入门教程（100步）stm32 驱动开发单片机嵌入式硬件物联网
主题内容教学目的/扩展视频CH376芯片重点课程电路原理，跳线设置，切换U盘和TF卡。手册分析。驱动程序。调用常用函数。会调用现有函数操作U盘即可。师从洋桃电子，杜洋老师文章目录1.引言2.硬件连接3.驱动程序分析3.1SPI通信机制4.CH376命令集详解4.1常用命令表4.2命令使用示例5.初始化程序解析6.数据读写函数实现6.1写数据到文件6.2从文件读取数据7.应用示例：U盘状态检测8.扩
流式编程 JDK8 Stream的简单使用方法介绍桔仔 java jdk stream
JDK8Stream文章目录JDK8Stream概念特点代码简洁多核友好示例foreach方式Stream方式流程操作特性常用操作符具体用法一、流的创建1.1使用Collection下的stream()和parallelStream()方法。1.2使用Arrays中的stream()方法，将数组转成流。1.3使用Stream中的静态方法：of()、iterate()、generate()。1.4使
固态电池行业深度研究报告：技术变革与市场展望萧十一郎@ 知识科普大数据人工智能
目录一、引言1.1研究背景与目的1.2研究方法与数据来源二、固态电池概述2.1定义与分类2.1.1定义2.1.2分类2.2工作原理2.3发展历程三、固态电池技术优势与挑战3.1技术优势3.1.1高安全性3.1.2高能量密度3.1.3长循环寿命3.2技术挑战3.2.1离子电导率低3.2.2固-固界面问题3.2.3锂枝晶生长3.2.4成本高昂四、固态电池材料体系与技术路线4.1固态电解质材料4.1.1
编译时报错“LNK2019 无法解析的外部符号”的可能原因及其解决办法烟锁池塘柳0 程序设计与编程语言 c++
在VS2022中运行C++程序的时候，有时候会遇到这样的问题：1>（源文件名称）.obj:errorLNK2019:无法解析的外部符号"public:__cdecl（函数名(参数列表)）"(??0（函数名与乱码）@@QEAA@XZ)，函数main中引用了该符号1>项目路径\x64\Debug\可执行程序名.exe:fatalerrorLNK1120:1个无法解析的外部命令遇到这种问题，可以说是很难
【数学建模】模糊综合评价模型详解、模糊集合论简介烟锁池塘柳0 数学建模数学建模
模糊综合评价模型详解文章目录模糊综合评价模型详解1.模糊综合评价模型概述2.模糊综合评价的基本原理2.1基本概念2.2评价步骤3.模糊综合评价的数学模型3.1数学表达3.2模糊合成运算4.模糊综合评价的应用领域5.模糊综合评价的优缺点5.1优点5.2缺点6.模糊综合评价的实现步骤7.模糊综合评价在实际项目中的应用案例8.结论参考资料1.模糊综合评价模型概述模糊综合评价法(FuzzyComprehe
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
前端面经真题解析10-字节/抖音电商/前端/超详细记录浪里个浪zxf 前端面试前端
文章目录1.自我介绍2.介绍下自己的项目3.看你项目里面用了axios,说下请求拦截和响应拦截怎么做？4.说下项目里面前后端交互过程及设计？5.怎么处理切换分页请求数据的，优化手段？6.说下你爬取别人网站数据的时候，别人如果设置了拦截，你的解决方案是？7.你说下http请求的refer字段？**Origin字段：****Referer字段：****Host字段****区别：**8.看你做了路由懒加
SAP之顾问篇 FF.5电子银行对账单 SAP圣父 SAP
直接上干货一.配置财务会计→银行会计核算→业务往来→支付交易→电子银行对账单→进行电子银行对账单的全局设置1.创建科目符号例:ZS012.对科目符号分配科目给ZS01设置总账科目3.创建过账规则码例:Z0014.定义过账规则给Z001设置借贷方过账代码，借贷方科目5.创建业务类型例:ZT016.对过账规则分配外部事务类型给ZT01设置外部交易码(※2)，设置过账规则:Z0017.对事务类型分配银行
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
详解Springboot的启动流程凭君语未可面试 spring boot 后端 java
在Redis中实现分布式锁1.主入口与SpringApplication.run()2.准备阶段3.创建应用上下文（ApplicationContext）4.Bean定义加载与上下文刷新5.EmbeddedWebServer的启动（针对Web应用）6.ApplicationRunner和CommandLineRunner执行7.应用启动完成总结1.主入口与SpringApplication.run
前端面经分享（25/03/19） CreatorRay 前端面试前端面试
北京一家做协同办公软件出海的公司，技术一面，20k-40k，要求3-5年详细聊了一下上家公司的项目上家公司的项目是不做了吗，离职原因是什么，你觉得公司的这个产品怎么样在做AI类的业务时，作为前端感觉跟常规业务有什么区别详细聊了一下上上家公司的项目细节讲一下项目里用编辑器做了什么事遇到过什么难解决的问题项目里提供的UI自动化的功能是怎么做的聊了一下写博客的事情有没有了解过浏览器底层的东西最近在研究或
如何根据电机功率选择空气开关和接触器 LaoZhangGong123 产品研发经验分享电机功率空气开关断路器功率匹配
一、和配电箱设计有关的电工知识1、开关，熔断器，交流接触器和热元件的选型参数1)、刀开关的额定电流按电动机额定电流的1.5～3倍选择。2)、空气开关的额定电流按电动机额定电流的1～2倍选择。空气开关的瞬时脱钩电流等于其10倍的额定电流。在冷态条件下，1小时脱钩电流值等于其1.3倍的额定电流。3)、熔丝按电动机额定电流的1.5～2.5倍选择。熔断器的额定电流按大于或等于熔丝额定电流选择。4)、交流接
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

企业级大数据项目【4】数仓-业务域ODS-DWD-ADS开发篇

1概要说明

2Sqoop数据抽取工具

2.1基本概念

2.2使用实例

3DataX数据抽取工具

3.1简介

3.2核心架构

3.3DataX支持的数据通道

3.4DataX基本使用

3.5DataX实战配置

4数据抽取策略

5ODS 设计开发

5.1主要表模型

5.2增量合并

5.3拉链表

6DWD层设计开发

6.1订单明细宽表: oms_order

6.2购物车明细宽表 oms_cart

6.3优惠券使用明细表 sms_coupon

6.4秒杀活动订阅明细表 sms_promotion

7DWS层设计开发

7.1订单明细宽表：dws.oms_order_detail

7.2订单数量、人数、单价、复购分析

7.3购物车分析dws表 dws.oms_cart_detail

7.4优惠券领取数量，使用数量，使用人数分析

7.5秒杀订阅人数，成单数，成单金额多维度分析

7.6用户消费统计画像表

7.7用户商品退拒画像分析

7.8用户购物偏好画像分析

你可能感兴趣的:(企业级大数据项目【4】数仓-业务域ODS-DWD-ADS开发篇)