m0_46218511

数仓建设 - 维度建模 - DIM维度

文章目录

前置：准备数据库
一、商品维度表
- 1.1 表结构设计
- 1.2 建表语句
- 1.3 ETL任务脚本
二、优惠券维度表
- 2.1 表结构设计
- 2.2 ETL任务脚本
三、活动维度表
- 3.1 表结构设计
- 3.2 ETL任务脚本
四、地区维度表
- 4.1 表结构设计
- 4.2 ETL任务脚本
五、日期维度表
六、用户维度表
- 6.1 表结构设计
- 6.2 ETL任务脚本

前置：准备数据库

[hadoop@hadoop102 apache-hive-3.1.2-bin]$ bin/hive

create database dw_dwd;
use dw_dwd;

一、商品维度表

1.1 表结构设计

序号	字段名	字段类型	字段中文名	描述
1	id	STRING	SKU_ID	主键
2	price	DECIMAL	商品价格	来自sku表
3	sku_name	STRING	商品名称	来自sku表
4	sku_desc	STRING	商品描述	来自sku表
5	weight	DECIMAL	重量	来自sku表
6	is_sale	INT	是否在售	来自sku表
7	spu_id	STRING	SPU编号	来自sku表
8	spu_name	STRING	SPU名称	来自spu表
9	category3_id	STRING	三级品类ID	来自sku表
10	category3_name	STRING	三级品类名称	来自base_category3表
11	category2_id	STRING	二级品类id	来自base_category3表
12	category2_name	STRING	二级品类名称	来自base_category2表
13	category1_id	STRING	一级品类ID	来自base_category2表
14	category1_name	STRING	一级品类名称	来自base_category1表
15	tm_id	STRING	品牌ID	来自sku表
16	tm_name	STRING	品牌名称	来自base_trademark表
17	sku_attr_values	STRING	平台属性	JSON串
18	sku_sale_attr_values	STRING	销售属性	JSON串
19	create_time	STRING	创建时间	JSON串

1.2 建表语句

use dw_dwd;

DROP TABLE IF EXISTS dim_sku_full;
CREATE EXTERNAL TABLE dim_sku_full (
    `id` STRING COMMENT '商品id',
    `price` DECIMAL(16,2) COMMENT '商品价格',
    `sku_name` STRING COMMENT '商品名称',
    `sku_desc` STRING COMMENT '商品描述',
    `weight` DECIMAL(16,2) COMMENT '重量',
    `is_sale` INT COMMENT '是否在售；1：是，0：否',
    `spu_id` STRING COMMENT 'spu编号',
    `spu_name` STRING COMMENT 'spu名称',
    `category3_id` STRING COMMENT '三级分类id',
    `category3_name` STRING COMMENT '三级分类名称',
    `category2_id` STRING COMMENT '二级分类id',
    `category2_name` STRING COMMENT '二级分类名称',
    `category1_id` STRING COMMENT '一级分类id',
    `category1_name` STRING COMMENT '一级分类名称',
    `tm_id` STRING COMMENT '品牌id',
    `tm_name` STRING COMMENT '品牌名称',
    `sku_attr_values` ARRAY<STRUCT<attr_id:STRING,value_id:STRING,attr_name:STRING,value_name:STRING>> COMMENT '平台属性',
    `sku_sale_attr_values` ARRAY<STRUCT<sale_attr_id:STRING,sale_attr_value_id:STRING,sale_attr_name:STRING,sale_attr_value_name:STRING>> COMMENT '销售属性',
    `create_time` STRING COMMENT '创建时间'
) COMMENT '商品维度表'
PARTITIONED BY (`dt` STRING)
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_sku_full/'
TBLPROPERTIES ("orc.compress"="snappy");

msck repair table dim_sku_full;

1.3 ETL任务脚本

[hadoop@hadoop102 ~]$ cd /home/hadoop/bin/
[hadoop@hadoop102 bin]$ vim dim_sku_full.sh

内容：

#!/bin/bash

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
    date_y_m_d=$1
else 
    date_y_m_d=`date -d "-1 day" +%F`
fi

etl_sql="
insert overwrite table dw_dwd.dim_sku_full partition(dt='${date_y_m_d}')
select
    sku.id,
    sku.price,
    sku.sku_name,
    sku.sku_desc,
    sku.weight,
    sku.is_sale,
    sku.spu_id,
    spu.spu_name,
    sku.category3_id,
    c3.name,
    c3.category2_id,
    c2.name,
    c2.category1_id,
    c1.name,
    sku.tm_id,
    tm.tm_name,
    attr.attrs,
    sale_attr.sale_attrs,
    sku.create_time
from 
(
    select
        id,
        price,
        sku_name,
        sku_desc,
        weight,
        is_sale,
        spu_id,
        category3_id,
        tm_id,
        create_time
    from dw_ods.ods_sku_info_full
    where dt='${date_y_m_d}'
) sku
left join 
(
    select
        id,
        spu_name
    from dw_ods.ods_spu_info_full
    where dt='${date_y_m_d}'
) spu on sku.spu_id=spu.id
left join 
(
    select
        id,
        name,
        category2_id
    from dw_ods.ods_base_category3_full
    where dt='${date_y_m_d}'
) c3 on sku.category3_id=c3.id
left join 
(
    select
        id,
        name,
        category1_id
    from dw_ods.ods_base_category2_full
    where dt='${date_y_m_d}'
) c2 on c3.category2_id=c2.id
left join 
(
    select
        id,
        name
    from dw_ods.ods_base_category1_full
    where dt='${date_y_m_d}'
) c1 on c2.category1_id=c1.id
left join 
(
    select
        id,
        tm_name
    from dw_ods.ods_base_trademark_full
    where dt='${date_y_m_d}'
) tm on sku.tm_id=tm.id
left join 
(
    select
        sku_id,
        collect_set(named_struct('attr_id',attr_id,'value_id',value_id,'attr_name',attr_name,'value_name',value_name)) attrs
    from dw_ods.ods_sku_attr_value_full
    where dt='${date_y_m_d}'
    group by sku_id
) attr on sku.id=attr.sku_id
left join 
(
    select
        sku_id,
        collect_set(named_struct('sale_attr_id',sale_attr_id,'sale_attr_value_id',sale_attr_value_id,'sale_attr_name',sale_attr_name,'sale_attr_value_name',sale_attr_value_name)) sale_attrs
    from dw_ods.ods_sku_sale_attr_value_full
    where dt='${date_y_m_d}'
    group by sku_id
) sale_attr on sku.id=sale_attr.sku_id;
"

hive -e "$etl_sql"

授予脚本执行权限：

[hadoop@hadoop102 bin]$ chmod +x dim_sku_full.sh

执行脚本：

[hadoop@hadoop102 bin]$ dim_sku_full.sh

二、优惠券维度表

2.1 表结构设计

CREATE EXTERNAL TABLE IF NOT EXISTS `dw_dwd.dim_coupon_full` (
    `id`                STRING COMMENT '优惠券编号',
    `coupon_name`       STRING COMMENT '优惠券名称',
    `coupon_type_code`  STRING COMMENT '优惠券类型编码',
    `coupon_type_name`  STRING COMMENT '优惠券类型名称',
    `condition_amount`  DECIMAL(16, 2) COMMENT '满额数',
    `condition_num`     BIGINT COMMENT '满件数',
    `activity_id`       STRING COMMENT '活动编号',
    `benefit_amount`    DECIMAL(16, 2) COMMENT '减免金额',
    `benefit_discount`  DECIMAL(16, 2) COMMENT '折扣',
    `benefit_rule`      STRING COMMENT '优惠规则:满元*减*元，满*件打*折',
    `create_time`       STRING COMMENT '创建时间',
    `range_type_code`   STRING COMMENT '优惠范围类型编码',
    `range_type_name`   STRING COMMENT '优惠范围类型名称',
    `limit_num`         BIGINT COMMENT '最多领取次数',
    `taken_count`       BIGINT COMMENT '已领取次数',
    `start_time`        STRING COMMENT '可以领取的开始时间',
    `end_time`          STRING COMMENT '可以领取的结束时间',
    `operate_time`      STRING COMMENT '修改时间',
    `expire_time`       STRING COMMENT '过期时间'
) COMMENT '优惠券维度表'
PARTITIONED BY (`dt` STRING)
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_coupon_full/'
TBLPROPERTIES ("orc.compress"="snappy");

2.2 ETL任务脚本

[hadoop@hadoop102 hadoop]$ cd /home/hadoop/bin/
[hadoop@hadoop102 bin]$ vim dim_coupon_full.sh

内容：

#!/bin/bash

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
    date_y_m_d=$1
else 
    date_y_m_d=`date -d "-1 day" +%F`
fi

etl_sql="
insert overwrite table dw_dwd.dim_coupon_full partition(dt='${date_y_m_d}')
select
    id,
    coupon_name,
    coupon_type,
    coupon_dic.dic_name,
    condition_amount,
    condition_num,
    activity_id,
    benefit_amount,
    benefit_discount,
    case coupon_type
        when '3201' then concat('满',condition_amount,'元减',benefit_amount,'元')
        when '3202' then concat('满',condition_num,'件打', benefit_discount,' 折')
        when '3203' then concat('减',benefit_amount,'元')
    end benefit_rule,
    create_time,
    range_type,
    range_dic.dic_name,
    limit_num,
    taken_count,
    start_time,
    end_time,
    operate_time,
    expire_time
from
(
    select
        id,
        coupon_name,
        coupon_type,
        condition_amount,
        condition_num,
        activity_id,
        benefit_amount,
        benefit_discount,
        create_time,
        range_type,
        limit_num,
        taken_count,
        start_time,
        end_time,
        operate_time,
        expire_time
    from dw_ods.ods_coupon_info_full
    where dt='${date_y_m_d}'
)ci
left join
(
    select
        dic_code,
        dic_name
    from dw_ods.ods_base_dic_full
    where dt='${date_y_m_d}'
    and parent_code='32'
)coupon_dic
on ci.coupon_type=coupon_dic.dic_code
left join
(
    select
        dic_code,
        dic_name
    from dw_ods.ods_base_dic_full
    where dt='${date_y_m_d}'
    and parent_code='33'
)range_dic
on ci.range_type=range_dic.dic_code;
"

hive -e "$etl_sql"

授予脚本执行权限：

[hadoop@hadoop102 bin]$ chmod +x dim_coupon_full.sh

执行脚本：

[hadoop@hadoop102 bin]$ dim_coupon_full.sh 2023-12-05

三、活动维度表

3.1 表结构设计

CREATE EXTERNAL TABLE IF NOT EXISTS `dw_dwd.dim_activity_full` (
    `activity_rule_id`    STRING COMMENT '活动规则ID',
    `activity_id`         STRING COMMENT '活动ID',
    `activity_name`       STRING COMMENT '活动名称',
    `activity_type_code`  STRING COMMENT '活动类型编码',
    `activity_type_name`  STRING COMMENT '活动类型名称',
    `activity_desc`       STRING COMMENT '活动描述',
    `start_time`          STRING COMMENT '开始时间',
    `end_time`            STRING COMMENT '结束时间',
    `create_time`         STRING COMMENT '创建时间',
    `condition_amount`    DECIMAL(16, 2) COMMENT '满减金额',
    `condition_num`       BIGINT COMMENT '满减件数',
    `benefit_amount`      DECIMAL(16, 2) COMMENT '优惠金额',
    `benefit_discount`    DECIMAL(16, 2) COMMENT '优惠折扣',
    `benefit_rule`        STRING COMMENT '优惠规则',
    `benefit_level`       STRING COMMENT '优惠级别'
) COMMENT '活动维度表'
PARTITIONED BY (`dt` STRING)
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_activity_full/'
TBLPROPERTIES ("orc.compress"="snappy");

3.2 ETL任务脚本

vim dim_activity_full.sh

内容：

#!/bin/bash

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
    date_y_m_d=$1
else 
    date_y_m_d=`date -d "-1 day" +%F`
fi

etl_sql="
insert overwrite table dw_dwd.dim_activity_full partition(dt='${date_y_m_d}')
select
    rule.id,
    info.id,
    activity_name,
    rule.activity_type,
    dic.dic_name,
    activity_desc,
    start_time,
    end_time,
    create_time,
    condition_amount,
    condition_num,
    benefit_amount,
    benefit_discount,
    case rule.activity_type
        when '3101' then concat('满',condition_amount,'元减',benefit_amount,'元')
        when '3102' then concat('满',condition_num,'件打', benefit_discount,' 折')
        when '3103' then concat('打', benefit_discount,'折')
    end benefit_rule,
    benefit_level
from
(
    select
        id,
        activity_id,
        activity_type,
        condition_amount,
        condition_num,
        benefit_amount,
        benefit_discount,
        benefit_level
    from dw_ods.ods_activity_rule_full
    where dt='${date_y_m_d}'
)rule
left join
(
    select
        id,
        activity_name,
        activity_type,
        activity_desc,
        start_time,
        end_time,
        create_time
    from dw_ods.ods_activity_info_full
    where dt='${date_y_m_d}'
)info
on rule.activity_id=info.id
left join
(
    select
        dic_code,
        dic_name
    from dw_ods.ods_base_dic_full
    where dt='${date_y_m_d}'
    and parent_code='31'
)dic
on rule.activity_type=dic.dic_code;
"

hive -e "$etl_sql"

授予脚本执行权限：

[hadoop@hadoop102 bin]$ chmod +x dim_activity_full.sh

执行脚本：

[hadoop@hadoop102 bin]$ dim_activity_full.sh

四、地区维度表

4.1 表结构设计

CREATE EXTERNAL TABLE IF NOT EXISTS `dw_dwd.dim_province_full` (
    `id`              STRING COMMENT '省份ID',
    `province_name`   STRING COMMENT '省份名称',
    `area_code`       STRING COMMENT '地区编码',
    `iso_code`        STRING COMMENT '旧版国际标准地区编码，供可视化使用',
    `iso_3166_2`      STRING COMMENT '新版国际标准地区编码，供可视化使用',
    `region_id`       STRING COMMENT '地区ID',
    `region_name`     STRING COMMENT '地区名称'
) COMMENT '地区维度表'
PARTITIONED BY (`dt` STRING)
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_province_full/'
TBLPROPERTIES ("orc.compress"="snappy");

4.2 ETL任务脚本

[hadoop@hadoop102 bin]$ vim dim_province_full.sh

内容：

#!/bin/bash

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
    date_y_m_d=$1
else 
    date_y_m_d=`date -d "-1 day" +%F`
fi

etl_sql="
insert overwrite table dw_dwd.dim_province_full partition(dt='${date_y_m_d}')
select
    province.id,
    province.name,
    province.area_code,
    province.iso_code,
    province.iso_3166_2,
    region_id,
    region_name
from
(
    select
        id,
        name,
        region_id,
        area_code,
        iso_code,
        iso_3166_2
    from dw_ods.ods_base_province
)province
left join
(
    select
        id,
        region_name
    from dw_ods.ods_base_region
)region
on province.region_id=region.id;
"

hive -e "$etl_sql"

授予脚本执行权限：

[hadoop@hadoop102 bin]$ chmod +x dim_province_full.sh

执行脚本：

[hadoop@hadoop102 bin]$ dim_province_full.sh

五、日期维度表

1、上传日期数据文件到HDFS的临时目录 /tmp/tmp_dim_date_info/
2、执行下面SQL

-- 创建临时表
CREATE EXTERNAL TABLE IF NOT EXISTS `default.tmp_dim_date_info` (
    `date_id`       STRING COMMENT '日',
    `week_id`       STRING COMMENT '周ID',
    `week_day`      STRING COMMENT '周几',
    `day`            STRING COMMENT '每月的第几天',
    `month`          STRING COMMENT '第几月',
    `quarter`       STRING COMMENT '第几季度',
    `year`           STRING COMMENT '年',
    `is_workday`    STRING COMMENT '是否是工作日',
    `holiday_id`    STRING COMMENT '节假日'
) COMMENT '时间维度表'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
LOCATION '/tmp/tmp_dim_date_info/';

-- 创建日期表
CREATE EXTERNAL TABLE IF NOT EXISTS `dw_dwd.dim_date` (
    `date_id`    STRING COMMENT '日期ID',
    `week_id`    STRING COMMENT '周ID,一年中的第几周',
    `week_day`   STRING COMMENT '周几',
    `day`        STRING COMMENT '每月的第几天',
    `month`      STRING COMMENT '一年中的第几月',
    `quarter`    STRING COMMENT '一年中的第几季度',
    `year`       STRING COMMENT '年份',
    `is_workday` STRING COMMENT '是否是工作日',
    `holiday_id` STRING COMMENT '节假日'
) COMMENT '日期维度表'
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_date/'
TBLPROPERTIES ("orc.compress"="snappy");

-- 导入到正式表
insert overwrite table dw_dwd.dim_date select * from default.tmp_dim_date_info;

六、用户维度表

动态分区、拉链表

6.1 表结构设计

CREATE EXTERNAL TABLE IF NOT EXISTS `dw_dwd.dim_user_full` (
    `id`           STRING COMMENT '用户ID',
    `name`         STRING COMMENT '用户姓名',
    `phone_num`    STRING COMMENT '手机号码',
    `email`        STRING COMMENT '邮箱',
    `user_level`   STRING COMMENT '用户等级',
    `birthday`     STRING COMMENT '生日',
    `gender`       STRING COMMENT '性别',
    `create_time`  STRING COMMENT '创建时间',
    `operate_time` STRING COMMENT '操作时间'
) COMMENT '用户维度表'
PARTITIONED BY (`dt` STRING)
STORED AS ORC
LOCATION '/warehouse/dw_dwd.db/dim_user_full/'
TBLPROPERTIES ("orc.compress"="snappy");

6.2 ETL任务脚本

vim dim_user_full.sh

内容：

#!/bin/bash

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
    date_y_m_d=$1
else 
    date_y_m_d=`date -d "-1 day" +%F`
fi

etl_sql="
insert overwrite table dw_dwd.dim_user_full partition (dt = '${date_y_m_d}')
select id,
       name,
       phone_num,
       email,
       user_level,
       birthday,
       gender,
       create_time,
       operate_time
from dw_ods.ods_user_info_full
where dt = '${date_y_m_d}'
"

hive -e "$etl_sql"

授予脚本执行权限：

[hadoop@hadoop102 bin]$ chmod +x dim_user_full.sh

执行脚本：

[hadoop@hadoop102 bin]$ dim_user_full.sh

推荐开源项目：simple_http_server — 简单易用的HTTP服务器孔芝燕Pandora
推荐开源项目：simple_http_server—简单易用的HTTP服务器simple_http_serversimplehttpserverforuploadanddownload项目地址:https://gitcode.com/gh_mirrors/si/simple_http_server在编程世界中，快速搭建一个本地HTTP服务器进行测试或演示是一个常见的需求。今天，我们要向您推荐一个轻
45页PPT解读集团企业数据治理总体解决方案智慧化智能化数字化方案方案解读馆大数据人工智能大数据治理数据治理解决方案数据治理PPT
企业数据治理是确保数据质量、安全与高效利用的关键策略，旨在通过全链路视角，多维度地优化数据管理。面对数据存储分散、算力消耗大、数据质量参差不齐、指标口径不统一等挑战，数据治理显得尤为重要。本方案聚焦于五大核心领域：数据存储治理，优化存储结构，提升访问效率；数据算力治理，合理分配计算资源，降低能耗；数据质量治理，通过清洗、校验等手段，确保数据准确性、完整性和时效性；数据指标治理，统一指标定义与口径，
多租户架构未提供统一的安全策略和框架，导致安全策略不一致图幻未来网络安全
多租户架构下的网络安全分析与AI技术应用在云计算和大数据技术的快速发展背景下，多租户架构已成为企业应用的首选。多租户架构允许多个独立的应用共享同一套基础架构和资源池，从而降低了企业的运营成本。然而，多租户架构在给企业带来便利的同时，也面临着一系列安全挑战。本文将围绕多租户架构未提供统一的安全策略和框架导致安全策略不一致的问题展开分析，并探讨AI技术在网络安全领域的应用场景。一、多租户架构下的安全挑
window xp系统安装php环境_Windows XP平台上搭建PHP环境 weixin_39618730 window xp系统安装php环境
WindowsXP平台下搭建PHP环境刚接触PHP那会儿，觉得搭建PHP的运行环境实在是太难，后来发现有现成的套装软件可用，高兴的不得了。最开始因为想建站，所以接触到了DedeCMS，织梦公司还蛮体贴，提供了一个和DedeCMS配套使用的PHP环境搭建套装软件。后来，又接触过像XAMPP，AppServ等软件，AppServ现在还在用。虽然这类套装软件十分好用，但是也存在明显的不足。套装软件里面包
Springboot 整合springmvc 实战 king-agic JAVA 经验分享 java spring
SpringBoot旨在简化Spring应用的初始搭建以及开发过程，它通过约定优于配置的原则来减少XML配置，使得开发者可以专注于业务逻辑的实现。SpringBoot默认就集成了SpringMVC，这意味着你无需过多的配置就能开始编写控制器。以下是SpringBoot整合SpringMVC的基本步骤，以及一些实战中的注意事项：1.添加依赖在pom.xml或build.gradle中添加Spring
ElasticSearch集群搭建步骤 Asui2233 Elasticsearch elasticsearch 大数据 linux
文章目录一、前言二、使用RPM安装Elasticsearch导入ElasticsearchGPG密钥从RPM存储库安装三、设置基本安全性生成证书使用TLS加密节点间通信四、为Elasticsearch加密HTTP客户端通信五、配置集群编辑elasticsearch.yml启动集群一、前言Elasticsearch是一个开源的分布式搜索和分析引擎，用于全文搜索、结构化搜索、分析和可视化大规模数据。它
网络安全之云架构南卿安全云服务架构
云架构的发展史阶段一：传统基础设施构建阶段背景：以前构建系统的时候，需要购买设备，租用数据中心机柜，然后搭建基础设施。特点：在这个阶段，构建系统需要购买大量的硬件设备，租用数据中心机柜，并手动搭建基础设施。这种方式不仅成本高昂，而且灵活性差，难以适应快速变化的市场需求。限制：资源利用率低，扩展性差，难以满足大规模、高并发的业务需求。阶段二：虚拟化技术阶段背景：随着处理器的不断进化，虚拟机出现了。它
Python 框架之 Anaconda 下 Django 环境的快速搭建与验证的相关说明仙魁XAN python python anaconda django
Python框架之Anaconda下Django环境的快速搭建与验证的相关说明目录Python框架之Anaconda下Django环境的快速搭建与验证的相关说明一、简单介绍二、实现原理三、环境四、涉及命令五、搭建具体步骤1、打开AnacondaNavigator2、Create构建一个环境，选择自己需要的python版本即可3、AnacondaPrompt打开命令行操作4、condainfo--e
FastDFS实用笔记（Docker 搭建环境 + 整合 SpringBoot）字节全栈_kYu 笔记 docker spring boot
解决了大容量存储和负载均衡的问题，特别适合中小文件（4KB>文件路径为空…”);return“文件路径不能为空”;}try{StorePathstorePath=StorePath.parseFromUrl(fileUrl);storageClient.deleteFile(storePath.getGroup(),storePath.getPath());}catch(Exceptione){l
kylin套_Apache Kylin（一）Kylin介绍 weixin_39898011 kylin套
1.传统大数据分析的问题在基于Hadoop生态的传统大数据分析中，主要使用的技术是MPP(MassivelyParallelProcessing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于Hadoop的SQL查询速度从小时级降为分钟级。不过分钟级别的查询响应仍未达到交互式分析级别，主要问题在于：MPP以及列式存储
可视化大屏梦屿千寻！！信息可视化
可视化大屏是一种利用计算机图形学技术，将复杂的数据和信息转换为直观的可视化图形，以呈现数据信息的工具。它不仅在电影中常见，而且已经实实在在地被应用在商业、金融、制造等各个行业的业务场景中，成为大数据分析和展示的重要工具。一、可视化大屏的特点直观性：通过图形、图表、地图等可视化元素，将复杂的数据直观展示出来，便于用户快速理解。实时性：支持实时更新数据，使用户能够随时掌握最新情况。高效性：一次性处理大
从零开始构建一个简单的Python Web爬虫实战指南与技巧一键难忘 python 前端爬虫 Python Web
从零开始构建一个简单的PythonWeb爬虫实战指南与技巧随着数据科学和大数据分析的快速发展，网络爬虫（WebScraping）成为了获取互联网数据的重要工具。通过爬虫，我们可以自动化地从网页上获取各种信息，如新闻、产品价格、社交媒体内容等。本文将带您从零开始，使用Python构建一个简单的Web爬虫，抓取网页内容并保存数据。Web爬虫的基本概念什么是Web爬虫？Web爬虫（也称为网络蜘蛛或抓取器
谷歌Gemini1.5火速上线：MoE架构，100万上下文 AI生成曾小健 #混合专家模型MOE LLM大语言模型人工智能深度学习 pytorch 机器学习 python
谷歌Gemini1.5火速上线：MoE架构，100万上下文机器之心2024-02-1608:53北京机器之心报道机器之心编辑部今天，谷歌宣布推出Gemini1.5。Gemini1.5建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合(MoE)架构使Gemini1.5的训练和服务更加高效。谷歌现在推出的是用于早期测试的Gemini1.5的第一个版本——Gemini1.5P
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
MongoDB深度解析与实践案例我的运维人生 mongodb 数据库运维开发技术共享
MongoDB深度解析与实践案例在当今大数据盛行的时代，NoSQL数据库以其灵活的数据模型和水平扩展能力，成为了众多应用场景下的首选。MongoDB，作为NoSQL数据库的领军者之一，凭借其面向文档的存储方式、强大的查询功能以及丰富的生态系统，在众多领域大放异彩。本文将从MongoDB的基本概念出发，深入探讨其核心特性，并通过一个实际案例展示如何在项目中高效使用MongoDB。一、MongoDB基
数据建模中的Chasm 陷阱小Tomkk #MySQL 数据库 mysql Chasm 陷阱
数据建模中的Chasm陷阱在数据仓库中，Chasm陷阱（ChasmTrap）是指一种设计问题，通常出现在数据仓库建模的过程中，尤其是在使用星型模式（StarSchema）或者雪花型模式（SnowflakeSchema）时。这个问题通常发生在多个事实表与维度表之间的关系存在不一致或难以解决的情况，导致数据查询和分析时产生不正确的结果。文章目录数据建模中的Chasm陷阱我这里举例说明Chasm陷阱解决
2024年作品汇总萝卜青今天也要开心 spring java 后端笔记学习
思维读书笔记-《当下的力量》读书笔记-《暗时间》信息技术如何设计离线跑批系统程序员工作中常见问题，你遇到过几个？读书笔记-《Redis设计与实现》（一）数据结构与对象（上）读书笔记-《大数据时代》读书笔记-《Spring技术内幕》（一）IoC容器的实现读书笔记-《Spring技术内幕》（二）AOP的实现读书笔记-《Spring技术内幕》（三）MVC与Web环境读书笔记-《Spring技术内幕》（四
python建模的步骤_python基础教程之Python 建模步骤|python基础教程|python入门|python教程... 谭俊云 python建模的步骤
#%%#载入数据、查看相关信息importpandasaspdimportnumpyasnpfromsklearn.preprocessingimportLabelEncoderprint('第一步：加载、查看数据')file_path=r'D:\train\201905data\liwang.csv'band_data=pd.read_csv(file_path,encoding='UTF-8'
pandas ---- pd.DataFrame基本用法 JU HE python常用库 pandas python
文章目录前言1loc和iloc注意事项。（后面这些都会在笔记中提到）2DataFrame的维度一、DataFrame的创建---pd.DataFrame(data，index=None，columns=None)1字典创建DataFrame(字典转Dataframe很常用)2用numpy数组或者嵌套list创建DataFrame二、DataFrame的访问、索引、切片、布尔索引、修改等操作1行切片
.net core + vue 搭建前后端分离的框架战族狼魂 C#.netcore
目录步骤一：创建.NETCore后端项目步骤二：创建Vue.js前端项目步骤三：集成后端和前端项目步骤一：创建.NETCore后端项目安装.NETCoreSDK：确保你的开发环境中已安装了最新版本的.NETCoreSDK。你可以从.NET下载页面获取最新版本。创建.NETCoreWebAPI项目：在命令行或者通过VisualStudio等集成开发环境，创建一个新的.NETCoreWebAPI项目。
Jenkins部署前后端分离项目最全图文教程（手把手教学）黄团团运维 Jenkins Tomcat jenkins 运维 linux 华为云 nginx tomcat maven
前言：最近Jenkins部署的热度比较高，于是就想出一篇关于我是如何使用Jenkins部署前后端分离项目的，本篇记录了我是如何一步一步去配置、搭建和部署的完整流程，每一行代码都进行了实测和讲解，通过图文的教学写成博客分享给大家！博主的其他部署教程：1、Docker部署前后端分离项目：手把手通过Docker部署前后端分离项目（亲测可用）2、Linux系统部署Tomcat：Linux系统部署Tomca
第二篇：多模态技术突破——DeepSeek如何重构AI的感知与认知边界 python算法(魔法师版) 动态规划
——从跨模态对齐到因果推理的工程化实践在AI技术从单一模态向多模态跃迁的关键阶段，DeepSeek通过自研的多模态融合框架，在视觉-语言-语音的联合理解与生成领域实现系统性突破。本文将从技术实现层面，解构其跨模态表征学习、动态融合机制与因果推理能力的内在创新。1.跨模态对齐革命：时空一致性建模传统多模态模型常面临模态割裂问题，DeepSeek提出「时空同步对比学习」（ST-CL）框架：视觉-语言对
Keras TypeError: unsupported operand type(s) for : 'int' and 'Dimension' Yolo_C keras TypeError:unsupported operand type
记录一个简单的bug在使用keras时，需要取出一个tensor的某一维作为下一层的维度（这里，我是在写attention）代码：dim=input.shape[1]dense=Dense(dim,activation=‘softmax’)（input）报错：TypeError:unsupportedoperandtype(s)for:‘int’and‘Dimension’解决：只需要将dim转化
极致体验，揭晓抖音背后的音视频技术火山引擎边缘云边缘计算音视频
近两年，音视频技术展现了迅猛的发展势头，在短视频、直播、在线会议、教育等行业都有亮眼的应用案例，已经逐渐成为新时代互联网的基础设施之一。音视频技术对清晰、流畅、实时有着核心要求，但在实际的落地过程中，行业中仍存在诸多痛点问题亟待解决。抖音是国内音视频技术应用的典型代表，无论是春节红包项目遇到的超大规模并发，还是海量用户上传短视频作品带来的带宽压力，亦或是用户智能设备、网络环境的参差不齐，都给技术方
平铺（tile）--tile，设计师必学！AI 绘图无缝拼接神技，甲方看了秒点头我:yueda 人工智能 midjourney AI作画
「今晚又要通宵了…」盯着电脑前第23版被驳回的壁纸设计，我狠狠咬了口冷掉的饭团。项目总监要求的花纹必须同时满足三个不可能：中国风但要赛博朋克、有规律又不能重复、放大看还得藏着公司LOGO——这需求简直比让AI画一只方形西瓜还离谱！「试试这个咒语？」隔壁工位的3D建模师林哥突然探过头，在我键盘上敲下一串神秘代码「–tile」。屏幕突然闪烁起来，刚刚还死气沉沉的牡丹花纹开始像细胞分裂般无限延伸，每一块
基于云计算的自然资源视频监控系统设计与研究罗伯特之技术屋大数据与数字化的设计应用专栏云计算音视频
摘要为了解决当前自然资源执法监管信息化系统存在的问题，满足对违法行为进行实时发现的需求，构建一个覆盖全省的实时监控视频系统。该系统基于云计算和视频中台等技术构建了两级云架构的视频处理与存储系统，通过AI等大数据算法对数据进行整合、分析，进而构建了具有执法线索、监督问效、行动处置和综合指挥等功能的自然资源管理系统。同时，该系统遵循安全等级保护三级要求，确保网络与信息安全，助力自然资源监管数字化。引言
云计算服务模式全面解析 ivwdcwso 云计算
目录引言IaaS(基础设施即服务)PaaS(平台即服务)SaaS(软件即服务)三种模式的对比选择建议结语1.引言©ivwdcwso(ID:u012172506)随着信息技术的快速发展,云计算已成为企业数字化转型的重要推动力。本文将深入探讨云计算的三种主要服务模式:IaaS、PaaS和SaaS,帮助读者全面了解它们的特点、优势及适用场景。2.IaaS(基础设施即服务)2.1定义IaaS是最基础的云服
数模测评：doubao1.5＞deepseek-v3＞gpt-o1 您好啊数模君 gpt 数学建模 deepseek doubao
本次测试了当前评价最高的三款大模型doubao1.5、gpt-o1、deepseek-v3(r1崩溃)，都是采用无提示词的硬核提问方式，测试视频如下。gpto1、doubao1.5、deepseek测评测试方式：上传美赛六道题目文件直接提问以下5句话：这是一道数学建模题目，请做下问题重述请给出每一个问题的思路针对每个问题推荐前沿算法建立第一问数学模型编写第一问数学模型的程序
数据仓库之Kappa架构 james二次元数据仓库数据仓库
Kappa架构是一种简化的数据处理架构，旨在处理实时数据流，解决传统Lambda架构中批处理和实时处理的复杂性。Kappa架构完全基于流处理，不区分批处理和实时处理，所有数据都是通过流处理系统进行处理。以下是对Kappa架构的详细介绍：核心概念数据流处理：所有数据都是以事件流的形式处理的，没有批处理的概念。数据流是连续的，实时的，不需要区分历史数据和实时数据。简化架构：通过统一的流处理框架简化数据
老玩童：互联网智慧助老平台——科技赋能银发族，开启智慧养老新生活 IT源码大师科技生活
详细描述：1.引言随着全球老龄化社会的加速到来，老年人的生活质量和社会参与度成为社会关注的焦点。传统的养老服务模式往往存在资源不足、服务单一、效率低下等问题，难以满足老年人日益增长的多样化需求。基于互联网技术的智慧助老平台“老玩童”，通过整合物联网、大数据、人工智能等先进技术，构建了一个全方位、智能化、个性化的助老服务体系，为老年人及其家庭提供了全新的解决方案。本文将深入探讨这一平台的核心理念、技
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

数仓建设 - 维度建模 - DIM维度

文章目录

前置：准备数据库

一、商品维度表

1.1 表结构设计

1.2 建表语句

1.3 ETL任务脚本

二、优惠券维度表

2.1 表结构设计

2.2 ETL任务脚本

三、活动维度表

3.1 表结构设计

3.2 ETL任务脚本

四、地区维度表

4.1 表结构设计

4.2 ETL任务脚本

五、日期维度表

六、用户维度表

6.1 表结构设计

6.2 ETL任务脚本

你可能感兴趣的:(大数据基础设施搭建,维度建模,数据仓库)