林子茗

尚硅谷-离线数仓-笔记

一、数仓建模理论

第一章数仓概述

1.1 数仓概念

数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据，借助数据仓库的分析能力，企业可从数据中获得宝贵的信息进而改进决策。同时，随着时间的推移，数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。

数据仓库（ Data Warehouse ），是为企业所有决策制定过程，提供所有系统数据支持的战略集合。

通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等。

数据仓库，并不是数据的最终目的地，而是为数据最终的目的地做好准备。这些准备包括对数据的：清洗，转义，分类，重组，合并，拆分，统计等等。

1.2 数仓的主要功能

存储（可回溯）【会保留历史数据，区别于业务数据库】
管理【以合理的组织结构存储，使用效率高】
分析（可快速查询）【为企业决策、提高效益提供支持】

1.3 数仓核心架构

第二章数仓建模

1.1 关系建模

用实体关系（Entity Relationship，ER）模型来描述企业业务，并用规范化的方式表示出来，在范式理论上符合3NF。

实体: 现实存在的物体。
关系: 两个实体之间的关系。例如1对1，1对N，N对N

1对1的实体对应关系可以通过外键来进行设置

1对N和N对N的实体对应关系可以通过中间表来进行设置

三范式

第一范式：属性不可切割

例如：

商品 –> 商品数量

5台电脑应改为电脑 5
第二范式：不能存在部分函数依赖

错误：a, b 两列为联合主键，c 依赖于主键，d依赖于a

应改为：a, b, c 一张表，a, d 一张表
第三范式：不能存在传递函数依赖

有传递依赖：学号->系名->系主任

应改为：学号、系名一张表；系名、系主任一张表

商品	–>	商品	数量
5台电脑	应改为	电脑	5

1.3 对比

	关系建模	维度建模
侧重点	写的强一致性和消除冗余存储	业务查询的便捷
场景	RDMS(Relational Database Management System)关系数据库管理系统	大数据分析

做笔记速度太慢，放弃了！

第五章

数仓分层的好处
1. 复杂问题简单化
2. 减少重复开发
3. 脱敏，隔离原始数据

DWS层

DWS层建模

需求驱动

DWS层表命名规则

dws层命名规则: dws_数据域_统计粒度_业务过程_统计周期（1d/nd/td）

构建指标体系

构建指标体系的主要意义：为了指标定义标准化，避免指标歧义和重复定义

需求要根据指标体系来提，每一个需求落实到一个派生指标上。

原子指标
- 业务过程 -->提交订单
- 度量值 -->订单金额
- 聚合逻辑 -->sum求和
  
  上面以订单总额为例
派生指标=原子指标 + 统计周期+业务限定+统计粒度 +数据来源
衍生指标：在一个或多个派生指标的基础上，通过各种逻辑运算复合而成的

拿到需求：1.提炼派生指标 --》2.派生指标去重 --》3.根据派生指标创建DWS层表

例子：

导数思路

首日：比每日复杂，必须是动态分区！

表名: dws_数据域_粒度_业务_周期

①分析dws表所需要的字段来源
		哪些是要统计的指标：  dwd
		哪些是对指标补充的维度:  dim
		
②编写sql

select
		字段
from
(
select
	粒度,dt,
	--  聚合的每个指标的含义和细微差别  例如  单数，单次等之类的
	聚合函数(聚合指标)
from dwd_业务
where  dt <= '2020-06-14'
group by 粒度,
-- dwd中事实发生的日期
    dt
    ) t1
    left join
    (
    	select
    		xxx
    	from dim_维度
    	where dt='2020-06-14'
    )t2
   on xxx

每日：处理当天产生的事实，静态分区即可！

dws (聚合）–> dws

从dws_细粒度中进一步聚合得到 dws_粗粒度的条件

/*
总结: 什么情况下可以从dws_细粒度中 进一步聚合得到 dws_粗粒度?
在当前的项目中:  退单可以。 退单的单位以商品为单位进行退单，业务的粒度和统计的粒度是一样的!
              下单不可以。 下单的单位以订单为单位下单，业务的粒度和统计的粒度是不一样的!
*/
在下单过程中： 下单数和下单次数 是一回事。
在退单的过程中: 退单数和退单次数就不是一回事!
		退单的基本单位是以商品为单位统计!

退单数：退单的商品，所存在的订单个数  
退单次数，申请了几次退单操作。 退单操作以商品为单位进行退单的，退单次数，就是申请退单的次数!

Hive On Spark中合并小文件

  <property>
    <name>hive.merge.sparkfilesname>
    <value>truevalue> 
    <description>Merge small files at the end of a Spark DAG Transformationdescription>
  property>
  <property>
    <name>hive.merge.size.per.taskname>
    <value>256000000value> 
    <description>Size of merged files at the end of the jobdescription>
  property>

DWS统计n天(n>1) 建表两种思路

/*1.若统计的天数较少，可在字段尾标标记*/
CREATE EXTERNAL TABLE dws_trade_user_order_nd
(
    `user_id`                    STRING COMMENT '用户id',
    `order_count_7d`             BIGINT COMMENT '最近7日下单次数',
    `order_num_7d`               BIGINT COMMENT '最近7日下单商品件数',
    `order_original_amount_7d`   DECIMAL(16, 2) COMMENT '最近7日下单原始金额',
    `activity_reduce_amount_7d`  DECIMAL(16, 2) COMMENT '最近7日下单活动优惠金额',
    `coupon_reduce_amount_7d`    DECIMAL(16, 2) COMMENT '最近7日下单优惠券优惠金额',
    `order_total_amount_7d`      DECIMAL(16, 2) COMMENT '最近7日下单最终金额',
    `order_count_30d`            BIGINT COMMENT '最近30日下单次数',
    `order_num_30d`              BIGINT COMMENT '最近30日下单商品件数',
    `order_original_amount_30d`  DECIMAL(16, 2) COMMENT '最近30日下单原始金额',
    `activity_reduce_amount_30d` DECIMAL(16, 2) COMMENT '最近30日下单活动优惠金额',
    `coupon_reduce_amount_30d`   DECIMAL(16, 2) COMMENT '最近30日下单优惠券优惠金额',
    `order_total_amount_30d`     DECIMAL(16, 2) COMMENT '最近30日下单最终金额'
) COMMENT '交易域用户粒度订单最近n日汇总事实表';

/*2.若统计天数太多，用一个专门的字段来标记统计天数比较好，不会造成表太宽*/
CREATE EXTERNAL TABLE dws_trade_user_order_nd
(
    `user_id`                 STRING COMMENT '用户id',
    `order_count`             BIGINT COMMENT '最近n日下单次数',
    `order_num`               BIGINT COMMENT '最近n日下单商品件数',
    `order_original_amount`   DECIMAL(16, 2) COMMENT '最近n日下单原始金额',
    `activity_reduce_amount`  DECIMAL(16, 2) COMMENT '最近n日下单活动优惠金额',
    `coupon_reduce_amount`    DECIMAL(16, 2) COMMENT '最近n日下单优惠券优惠金额',
    `order_total_amount`      DECIMAL(16, 2) COMMENT '最近n日下单最终金额',
    `recent_days_n`			  INT COMMENT '最近n日说明'
) COMMENT '交易域用户粒度订单最近n日汇总事实表';

ADS层

导数套路

insert overwrite table ads_user_change
-- 查出截止到今天导数之前的表中的数据
select * from ads_user_change
-- union all就是直接拼接 ，union拼接后去重(group by )
--union all
-- 保证幂等性
union
-- 今天要导入到表中的数据
select
        '2020-06-15',20,40;

数据集复制3份

如何把一个数据集复制3份，且每一份分别添加1，7，30

-- 第一种: 笛卡尔积
select
    dt,  user_churn_count,
             user_back_count,
            recent_days
from (select dt,
             user_churn_count,
             user_back_count
      from ads_user_change
     ) t1
join
     (select explode(`array`(1,7,30)) recent_days )
        t2;

-- 第二种： lateral view(原理就是笛卡尔积)
select dt,
             user_churn_count,
             user_back_count,
            recent_days
      from ads_user_change
    lateral view   explode(`array`(1,7,30)) t2 as  recent_days;



select 1 recent_days
    union all
 select   7 recent_days
    union all
 select   30 recent_days ;

7.2.1 ads_traffic_stats_by_channel

业务说明

/*名词解释
	访客： 设备，主键mid_id
	跳出率： 跳出会话数 / 会话总数 * 100
	跳出会话： 如果一个会话仅仅有一次页面的访问，这种会话称为跳出的会话
*/

导数语句

/*导数套路，基本都按这种方法导，一定要掌握
*/
insert overwrite table ads_traffic_stats_by_channel
     select * from ads_traffic_stats_by_channel
     union
-- 如何把一个数据集复制为3份，再在后面拼上一列 recent_days
 explain select
       '2020-06-14' dt,
       recent_days,
       channel,
       count(distinct mid_id) uv_count,
       bigint(avg(during_time_1d) / 1000) avg_duration_sec,
       bigint(avg(page_count_1d)) avg_page_count,
       count(*) sv_count,
       cast(sum(`if`(page_count_1d = 1,1,0)) / count(*) * 100 as  decimal(16, 2)) bounce_rate
from dws_traffic_session_page_view_1d
    -- 第二步
lateral view explode(`array`(1,7,30)) tmp as recent_days
-- 第一步: 取最近30天的数据集
 -- Hive中自动开启 谓词下推(能先过滤的，一定是提前执行)的优化
 -- 按照分区表过滤，属于 tablescan operator，和from一起执行
where dt>date_sub('2020-06-14',30)
    -- 第三步:
    and  dt > date_sub('2020-06-14',recent_days)
group by channel,recent_days;

报表数据导出

建几张表：ADS层有几张表，当前库(gmall_report)下就建几张表
库中的表，字段如何去设计？

表中的数据是为了保存ADS层中的数据，因此ADS层表的字段有哪些，gmall_report库下表中的字段需要和它一一对应。
Mysql中的表和Hive的区别在于Mysql中的表通常都有主键，如何确定哪些字段作为主键？

主键：最主要的功能是防止数据重复，为了保证数据的唯一性

在设计表的时候，粒度也是为了体现唯一性。

举例：表中的粒度是一个用户是一行，意味着每一行都是一个唯一的用户

所以，根据要导出表的粒度就可以确定Mysql中的主键！

举例说明：

ads_traffic_stats_by_channel的粒度：一天中一个渠道在一个统计周期(1,7,30)的各种指标是一行。

主键：dt, channel, recent_days

ads_user_action的粒度：一天中一个统计周期的各种指标是一行。

主键：dt, recent_days

工作流调度平台

Ozzie：CDH平台自带。重量级（安装麻烦，使用麻烦）

Azkaban：轻量级（安装简单，使用简单）。不方便的地方（需要自己去编写flow的文件，编写之后，再打包上传）

Airflow：优势：界面美观；缺点：python编写，报错大部分后端程序员不懂python语言，看不懂堆栈信息

Dolphin Scheduler：国产软件，已经捐赠了Apache软件基金会，孵化成功，成为一个顶级项目。

优势：1.使用简单。2.文档、交流群都是中文，方便交流，社区活跃。3.份额逐渐提升，目前最主流。

Shell脚本错误定位

找到报错的最近一个OK的表，报错的位置在这张表的下一张表。

Dolphin Scheduler

安装前参数配错：到安装目录下的conf/ 目录里面修改配置，通常大部分配置都在common.properties 里。修改后要分发到所有机器，保持配置一致。

面试题

1. spark sql 比hive on spark 快的原因，为什么更快却不用？

2. 为什么要区分DIM层(维度表)和DWD层(事实表)，为什么不把维度全部退化到事实表中？

答：1. 首先呢，维度建模，里面就是要把这种实体的信息给单独处理出来，做一个维表嘛。那他维表里面的数据，他有的可能会发生一些变化，隔一个事情可能会变了，你如果说是你不顾一切，然后把所有的东西为表的这些维度都放到事实表里面了，那你假设你今天这个围度变了，然后后天另外一个维度变了，大后天另外一个维度又变了，那你呢？事实表是不是得不停的去刷数据啊？所以说，一般这个把把为表里面的这些维度退化到事实表，一般退化的都是那些经常不怎么变的，或者说是比如一年变一次，这些种的还好啊，你比如说像一些这种什么品类品牌啊，事业部啊。

2.像这种的一般的话，像京东他们都是一年调整一次架构吧，调整那一次，然后等到三月份四月份的时候，可能会对整个组织架构做做一次调整调整，完了之后，然后你就重刷一次数据就行了，因为有一些这种维度会退化到里面，所以说这个维度退化，你不能退化的太多，然后一定要控制好他这个退化的度，对吧，你要什么都不管，窟窿都退化过去，那你还不如把。整个数仓的数仓的这些数据全部都放一张表里面得了，为什么不要放那么大的那种宽表啊，就是为了他这种数据发生变更的时候啊，他他不会去大面积的进行回溯对吧？你不回溯的话，那我只需要把为表的数据，我按照每天取全量，然后，那我后面的数据直接关联不就完事儿了，是吧。

3.他数仓吗，数仓，他是为了支持这样一个分析的一个事情，对吧？分析一般他们都是要从各个这种维度去看不同的维度去看这种一些指标，一些度量值的对吧？那你如果是这个，你全部统一到这个实施表里面，它这个它这个维度今天变明天变呢，那他怎么分析呀？对吧，他还要他还要不停的刷数对吧，你天天你今天刷一下，明天刷一下都用不成了，你还不如就直接把它放到这个为表里面，每天同步一个分区。用了他就关联一下就完事儿啊，整个的这个数仓的稳定性也比较好，你不用每天都去动它，你每次你刷数啊，都要都有用，这种成本儿在里面，对吧，有时间成本儿也有这种啊，那种错误的这个成本儿，然后你哪次没回没回好回错怎么办。

总结回答：

维表为什么要拆出来，主要有两个重要原因

1.防止过度冗余，占存储
2.维度是可能发生变化的，耦合在事实表里，一旦发生变化不容易修改

所以才将事实表放dwd，维表放dim，本质上dwd和dim其实都属于明细，只是dim是一类特殊的dwd

Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
Spark sql 中row的用法闯闯桑 spark sql 大数据开发语言
在ApacheSpark中，Row是一个表示一行数据的类。它是SparkSQL中DataFrame或Dataset的基本数据单元。每一行数据都由一个Row对象表示，而Row对象中的每个字段对应数据的一个列。Row的用法Row对象通常用于以下场景：创建数据：当你手动创建数据时，可以使用Row对象来表示每一行数据。访问数据：当你从DataFrame或Dataset中提取数据时，每一行数据都是一个Row
封神台SQL注入-基础靶场1-布尔盲注原味瓜子、 SQL注入布尔盲注封神台 SQL注入
文章目录布尔盲注（一）布尔盲注（二）布尔盲注（三）布尔盲注（一）1、判断注入类型id=1and1=1//有数据id=1and1=2//noresultsfound判断为数字型布尔盲注2、判断数据库长度，获取数据库名andlength(database())=1数据库名长12抓包，爆破，获取andascii(substr(database(),1
Spark Sql 简单校验的实现小小小小小小小小小小码农 spark sql java
在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。不使用Sparksession获取上下文，利用spark和antlr的静态方法使用java实现简单的sparksql的语法以及内置函数的校验。1.spark版本3.2.0org.apache.sparkspark-sql_2.123.2.0org.antlrantlr4-runtim
nodejs+mysql分页查询 m0_67987829 mysql 前端 node.js
router:（参数page,size）goodsRouter.get("/getList",getGoodsList)controllerasyncgetGoodsList(ctx,next){const{page,size}=ctx.query;//获取查询参数//将page和size转换为数字类型constparsedPage=parseInt(page);constparsedSize=p
sequelize + Nodejs + MySQL 的简单用法小公鸡卡哇伊呀~ mysql 数据库
HowtoUseSequelizeORMinNodeJS-Tutorial1Sequlize简介Sequelize是最流行的可以与Nodejs一起使用的一种关系数据库ORM(Object-relationalmapping对象关系映射)，Mongoose是MongoDB的ORM.Sequelize的作用，简单地说，就是避免在代码里写原生SQL语句，而是将这种语句改成JavaScript：不必再写类
MySQL0基础概念4 wqx951 mysql sql
MySQL体系结构概述1.MySQL系统的重要组件包括连接管理器、线程管理器、命令分发器。2.连接管理器负责接收用户请求，转交给线程管理器，验证用户访问。3.用户请求包括查询命令，这些命令由命令分发器处理，如交友、缓存、解析结果或记录用户行为。MySQL查询处理流程1.查询处理流程包括高速缓存查询、词法分析、语法分析、结果缓存检查和分析后结果处理。2.如果查询结果在缓存中，直接返回缓存结果；否则，
SpringBoot 3.4.x踩坑记录及解决方案（持续更新） brrdg_sefg 面试学习路线阿里巴巴 spring boot 后端 java
废话最近使用JDK17+SpringBoot3.4.0做新项目遇到的一些坑，记录并且给出一些实际的解决方案一、集成MybatisPlus3.5.9的问题第一：不能只引入mybatis-plus-spring-boot3-starter依赖了，需要配合mybatis-plus-jsqlparsercom.baomidoumybatis-plus-spring-boot3-startercom.bao
网络通信安全：全面探索与深入分析 baimao__沧海安全数据库 sqlserver sql android web安全
**摘要：**本文全面探索网络通信安全相关内容。首先阐述网络通信安全的基本概念与原理，包括网络通信模型、安全目标以及加密技术基础。接着详细分析其面临的威胁，涵盖恶意软件（病毒、蠕虫、特洛伊木马）、网络攻击（DoS/DDoS、网络嗅探、SQL注入）和社会工程学攻击等。然后介绍防护机制，如防火墙、IDS与IPS、VPN、数据加密技术应用、身份认证与访问控制等。还论述了网络通信安全在企业、金融、政府领域
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
基于oracle linux的 DBI/DBD 标准化安装文档(四) linux
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
mysql中json数组对象mybatis如何自动映射
需求:假如数据库某个表的一个字段是json数据类型,字段名是students,类型是,存的是json格式的学生数组,现要用一个List来接收,如何实现自动转换.1.实现TypeHandlerwhy?如果json字段存的是数组,直接使用"com.baomidou.mybatisplus.extension.handlers.FastjsonTypeHandler"会给你转成List类型;所以需要自己
wordpress导入mysql数据库文件的方法及注意事项 wodrpress资源分享 wordpress 数据库 mysql wordpress
WordPress是一个流行的开源内容管理系统，通常用于构建网站和博客。它使用MySQL数据库来存储和管理网站数据。在某些情况下，您可能需要将现有的MySQL数据库导入到新的WordPress安装中。本文将介绍如何导入MySQL数据库文件到WordPress以及需要注意的事项。一、备份现有数据库在进行任何数据库导入操作之前，强烈建议您先备份现有的数据库。这样可以确保在导入过程中出现问题时，您不会丢
doris:认证与鉴权概述向阳1218 大数据 doris
Doris的权限管理系统参照了MySQL的权限管理机制，做到了行级别细粒度的权限控制，基于角色的权限访问控制，并且支持白名单机制。名词解释用户标识UserIdentity在权限系统中，一个用户被识别为一个UserIdentity（用户标识）。用户标识由两部分组成：username和host。其中username为用户名，由英文大小写组成。host表示该用户链接来自的IP。UserIdentity以
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
Linq的理解 It_sharp C#Linq 匿名类型
前面的话这篇文章主要是在工具书中linq的基础上，我做了一些归纳。目录什么是Linq方法语法和查询语法查询表达式的结构标准查询运算符什么是Linq?Linq（link）代表语言集成查询（LanguageIntegratedQuery）Linq是.NET框架的扩展，它允许我们以使用SQL查询数据库的方式来查询数据集合。使用Linq，你可以从数据库、程序对象的集合以及XML文档中查询数据。一个例子st
Spring Data JDBC 详解 m0_74823933 面试学习路线阿里巴巴 spring java 数据库
目录一、JPA背景?二、SpringBoot整合SpringdataJDBC??1.配置数据源?2.配置Druid的admin后台??3.Spring-data-jdbc常用接口查询策略1)?CrudRepository增删改查2)PagingAndSortingRepository分页排序一、JPA背景早期的JPA的特性是懒加载和关联查询，一下能查出所有的关联信息，但我们开发者在查询SQL的时候
ubuntu 24.10安装mysql linuxxx110 ubuntu mysql
1.更新软件包列表在安装MySQL之前，先更新系统的软件包列表sudoaptupdate2、安装MySQL服务器sudoaptinstallmysql-server3.启动MySQL服务sudosystemctlstatusmysql4、运行安全脚本MySQL提供了一个安全脚本，用于设置root密码、移除匿名用户、禁止远程root登录等。运行以下命令sudomysql_secure_install
SQLite？低调不是小众... 架构文摘JGWZ sqlite 数据库学习后端
前几天在一个群里看到一位同学说：“SQLite这么小众的数据库，到底是什么人在用啊？”首先要说的是SQLite可不是小众的数据库，相反，SQLite是世界上装机量最多的数据库，远超MySQL，只不过比较低调而已。低调到我想在官网上找一个好看的用来当插图的图片都找不到，只能截一张官网首页来撑一撑，看起来十分朴素。我最早听说SQLite是刚毕业工作的时候，我们部门做微软内容管理产品的二次开发，其中有一
融合网络实训室初步建设方案设想武汉唯众智创网络融合网络实训室融合网络融合网络实验室网络融合实训室网络融合实验室
一、引言在数字化浪潮席卷全球的当下，网络技术已然成为推动社会发展和经济增长的关键力量。从日常的生活购物到企业的运营管理，从便捷的社交沟通到前沿的科研探索，网络技术无处不在，深刻地改变着人们的生活与工作方式。随着5G、物联网、云计算、大数据等新兴技术的迅猛发展，网络技术领域对于专业人才的需求呈现出爆发式增长。据权威机构预测，未来几年，网络技术相关岗位的人才缺口将持续扩大。这些岗位不仅要求从业者具备扎
Redis 安装详细教程（小白版）小小鸭程序员 spring java AI编程 spring cloud redis
一、Windows系统安装Redis方法1：直接安装（推荐新手）下载RedisforWindows访问微软维护的Redis版本：https://github.com/microsoftarchive/redis/releases下载Redis-x64-3.2.100.msi（或最新版本）安装包。安装Redis双击下载的.msi文件点击下一步，勾选“AddRedisinstallationfolde
docker mysql 迁移_Docker跨服务器迁移 weixin_39687468 docker mysql 迁移
Docker跨服务器迁移Docker的备份方式有export和save两种。export是当前的状态，针对的是容器，dockersave是针对镜像images。一、镜像的迁移—save1.镜像保存登陆到已经部署好镜像的服务器上面，执行以下命令进行导出[root@snowedfiles_backup]#dockersave97fd>docker-image-mysql-5.6.40.tar2.将镜像
mysql迁移docker_docker迁入迁出mysql 困困斐 mysql迁移docker
docker迁出mysql数据库测试环境：docker服务器mysql服务器IP192.168.163.19192.168.163.16操作系统CentOS7.8CentOS7.8docker版本Docker18.09.9/数据库版本MySQL8.0.22MySQL8.0.221.查看docker相关情况[root@docker-test/data/mysql/data]$dockerps启动my
docker迁移mysql_Docker迁移Mysql 麟翛 docker迁移mysql
这几天遇到一个数据迁移的需求，要把老服务器的数据迁移到新的服务器上去，因为Mysql是放在Docker里面的，所以只需要迁移配置文件和数据卷即可，但是这过程中并不是一帆风顺的，特此记录一下。从旧的服务器上查看Mysql容器的信息。首先使用dockerps来查看正在运行的容器，如果你的容器尚未运行，那么执行这条命令dockerps-a使用dockerinspectContainName查看Mysql
docker容器迁移，以mysql容器为例风萧易去情难还 docker docker mysql 容器
在容器化环境中，容器迁移是确保应用程序在不同环境中平滑部署和运行的关键。本文将详细介绍如何将一个正在运行的MySQL容器从一台机器迁移到另一台机器。特别内网安装数据库等软件时，所需依赖和工具下载困难，可以通过镜像迁移方式完成软件安装。一、准备工作在开始迁移之前，我们需要准备以下几项工作：源机器（A机器）：正在运行的MySQL容器。#拉取mysql镜像dockerpullmysql:8.0.25#创
Hive SQL 精进系列：REGEXP_REPLACE 函数的用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、REGEXP_REPLACE函数基础2.1基本语法参数详解2.2简单示例三、REGEXP_REPLACE函数的应用场景3.1去除特殊字符3.2统一字符串格式四、REGEXP_REPLACE与REPLACE函数的对比4.1功能差异4.2适用场景五、REGEXP_REPLACE与REGEXP函数的对比5.1功能差异5.2适用场景六、总结一、引言字符串处理是数据处理中的常见需求，Hive
Hive SQL 精进系列：SUBSTR 函数的多样用法进一步有进一步的欢喜 Hive SQL 精进系列 hive sql hadoop
目录一、引言二、SUBSTR函数基础介绍2.1基本语法2.2参数详解2.3简单示例三、SUBSTR函数常见应用场景3.1提取日期中的年份、月份或日期3.2隐藏部分敏感信息四、SUBSTR函数高级用法4.1结合条件判断动态截取4.2处理复杂字符串模式五、总结一、引言SUBSTR函数是HiveSQL中一个用于字符串截取的重要函数，在处理文本数据时发挥着关键作用。本文将全面且深入地介绍HiveSQL中S
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
Hive----Hive进阶操作(三) HIVE 特殊分隔符处理 XiaodunLP Hive
HIVE特殊分隔符处理补充：hive读取数据的机制：1、首先用InputFormat的一个具体实现类读入文件数据，返回一条一条的记录（可以是行，或者是你逻辑中的“行”）2、然后利用SerDe的一个具体实现类，对上面返回的一条一条的记录进行字段切割Hive对文件中字段的分隔符默认情况下只支持单字节分隔符，如果数据文件中的分隔符是多字符的，如下所示：01||huangbo02||xuzheng03||
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

尚硅谷-离线数仓-笔记

尚硅谷-离线数仓-笔记

一、数仓建模理论

第一章 数仓概述

1.1 数仓概念

1.2 数仓的主要功能

1.3 数仓核心架构

第二章 数仓建模

1.1 关系建模

三范式

1.3 对比

第五章

DWS层

DWS层建模

DWS层表命名规则

构建指标体系

导数思路

dws (聚合）–> dws

Hive On Spark中合并小文件

DWS统计n天(n>1) 建表两种思路

ADS层

导数套路

数据集复制3份

7.2.1 ads_traffic_stats_by_channel

业务说明

导数语句

报表数据导出

工作流调度平台

Shell脚本错误定位

Dolphin Scheduler

面试题

1. spark sql 比hive on spark 快的原因，为什么更快却不用？

2. 为什么要区分DIM层(维度表)和DWD层(事实表)，为什么不把维度全部退化到事实表中？

你可能感兴趣的:(hive,sql,数据仓库,大数据)

第一章数仓概述

第二章数仓建模