E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓分层架构
离线
数仓
17—— Superset可视化
第1章Superset入门1.1Superset概述ApacheSuperset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自定义仪表盘。1.2环境说明本课程使用的服务器操作系统为CentOS7,Superset对接的数据源为MySQL数据库。第2章Superset安装Superset官网地址:http:/
就是这个范~
·
2022-12-31 16:09
离线数仓
python
linux
开发语言
CC00031.bdpositions——|Hadoop&实时
数仓
.V11|——|项目.v11|DWD层处理|数据仓库层数据处理.V1|
一、DW层处理###---DW层处理~~~DW(DataWarehouse数据仓库层)。~~~包含DWD、DWS、DIM层,由ODS层数据加工而成。主要完成数据加工与整合,~~~建立一致性的维度,~~~构建可复用的面向分析和统计的明细事实表,~~~以及汇总公共粒度的指标。~~~DWD(DataWarehouseDetail细节数据层),是业务层与数据仓库的隔离层。~~~以业务过程作为建模驱动,基于
yanqi_vip
·
2022-12-31 16:09
数据仓库
impala
aof
数学建模
数据建模
离线
数仓
07—— 数据仓库设计
章数据仓库设计5.1数据仓库分层规划5.2数据仓库构建流程5.2.1数据调研5.2.2明确数据域5.2.3构建业务总线矩阵5.2.4明确统计指标5.2.5维度模型设计5.2.6汇总模型设计上一篇:离线
数仓
就是这个范~
·
2022-12-31 16:38
离线数仓
数据仓库
离线
数仓
总结
离线
数仓
总结一、1、背景介绍(某APP上线后,由于业务模式新颖,市场需求量大,经过一段时间的精心运营后,逐渐积累起了上千万会员,以及三四百万的日活量,app的业务功能和产品种类、数量也急速膨胀;主要问题有
wywwyx090104
·
2022-12-31 16:38
总结
笔记
案例
大数据
kafka
hadoop
spark
hive
离线
数仓
01——概念与设计思路
文章目录第1章数据仓库概念第2章项目需求及架构设计2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统数据流程设计2.2.3框架版本选型2.2.4服务器选型2.2.5集群资源规划设计下一篇:离线
数仓
就是这个范~
·
2022-12-31 16:08
离线数仓
数据仓库
数据库
离线
数仓
10——
数仓
开发之ODS层
文章目录第7章
数仓
开发之ODS层7.1日志表7.2业务表7.2.1活动信息表(全量表)7.2.2活动规则表(全量表)7.2.3一级品类表(全量表)7.2.4二级品类表(全量表)7.2.5三级品类表(全量表
就是这个范~
·
2022-12-31 16:08
离线数仓
hadoop
hive
大数据
离线
数仓
12——
数仓
开发之DWD层
文章目录第9章
数仓
开发之DWD层9.1交易域加购事务事实表9.2交易域下单事务事实表9.3交易域取消订单事务事实表9.4交易域支付成功事务事实表9.5交易域退单事务事实表9.6交易域退款成功事务事实表9.7
就是这个范~
·
2022-12-31 16:08
离线数仓
hive
大数据
数据库
浅谈
数仓
模型(维度建模)
数仓
架构的原则:1、底层业务的数据驱动为导向同时结合业务需求驱动2、便于数据分析屏蔽底层复杂业务简单、完整、集成的将数据暴露给分析层3、底层业务变动与上层需求变动对模型冲击最小化业务系统变化影响削弱在基础数据层
公众号:肉眼品世界
·
2022-12-31 16:37
大数据
编程语言
数据库
人工智能
数据分析
数据查询和业务流分开_滴滴实时
数仓
逐层剖解:实时与离线数据误差<0.5%
原标题:滴滴实时
数仓
逐层剖解:实时与离线数据误差<作者介绍潘澄,资深软件开发工程师。负责实时数据仓库建设,多年数据相关工作经验,专注数据建模、数据仓库、实时数据技术等领域。朱峰,高级软件开发工程师。
weixin_39733812
·
2022-12-31 16:07
数据查询和业务流分开
离线
安装
xfonts-utils
阿里云DataWorks学习——
数仓
架构设计
(一)技术架构选型在数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系
zhisheng_blog
·
2022-12-31 16:36
数据仓库
大数据
dbcp
数据分析
odbc
离线
数仓
搭建_07_
数仓
建模理论
点击右下方:专栏目录查看全文文章目录第三部分:数据仓库系统8.0
数仓
分层1.1为什么要分层1.2数据集市与数据仓库概念1.3
数仓
命名规范1.3.1表命名1.3.2脚本命名1.3.3表字段类型9.0
数仓
理论
Fang GL
·
2022-12-31 16:35
#
离线数仓搭建
数据仓库
hive
hadoop
离线电商
数仓
建模学习笔记
1.数据仓库概述1.1数据仓库概念数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的。1.2数据仓库核心架构2.数据仓库建模概述2.1数据仓库建模的意义如果把数据看作图书馆里的书,我们希望看到它们在书
阳宝宝的向日葵
·
2022-12-31 16:05
大数据
学习
数据仓库
数据挖掘
离线
数仓
搭建_11_DWD层用户行为日志创建
文章目录13.0
数仓
搭建-DWD层13.1DWD层(用户行为日志)13.1.1日志解析思路13.1.2get_json_object函数使用13.1.3启动日志表13.1.4页面日志表13.1.5动作日志表
Fang GL
·
2022-12-31 16:05
#
离线数仓搭建
大数据
数据仓库
SQL
离线数据仓库
离线
数仓
(九) ---------
数仓
理论
目录一、范式理论1.范式概念2.函数依赖3.三范式区分二、关系建模与维度建模1.关系建模2.维度建模三、维度表和事实表(重点)1.维度表2.事实表四、维度模型分类1.星型模型2.雪花模型3.星座模型4.模型的选择五、数据仓库建模1.ODS层2.DIM层和DWD层3.DWS层与DWT层4.ADS层一、范式理论1.范式概念定义数据建模必须遵循一定的规则,在关系建模中,这种规则就是范式。目的采用范式,可
在森林中麋了鹿
·
2022-12-31 16:34
大数据项目
1024程序员节
hadoop
数据仓库
离线
数仓
11——
数仓
开发之DIM层
文章目录第8章
数仓
开发之DIM层8.1商品维度表8.2优惠券维度表8.3活动维度表8.4地区维度表8.5日期维度表8.6用户维度表8.7数据装载脚本8.7.1首日装载脚本8.7.2每日装载脚本上一篇:离线
数仓
就是这个范~
·
2022-12-31 16:01
离线数仓
数据库
大数据
python
ETL过程中数据清洗(脏数据处理)小结
但凡你真正的做过
数仓
,我认为这些都是轻车熟路的,因为这是数据研发的必经之路我在对候选人进行考察的时候,也经常会问到这个问题,主要是看一下候选人有没有真实工作经验,然后在开发过程中有没
派可数据BI可视化
·
2022-12-31 10:26
数据库
big
data
电商离线
数仓
项目-DWD层ETL数据清洗,最大亮点之自定义UDF函数
ODS层所得到的数据,是最原始的数据,保持原貌,不做任何的改变,例如id:1name:zhangsan类型字段加上字段值。在导入DWD层的时候,我们要对这个数据做处理,只取到value值,去除字段的名称。这里面用到UDF(一进一出)和UDTF(一进多出)。展示一条最初始的数据:这条数据,红色框起来的部分是基本字段对应一对一出。而蓝色框起来的部分是一进多出。所要的格式如下:要对获取到的日志数据进行处
梦里Coding
·
2022-12-31 10:55
Hive
hive
maven
big
data
FFA 2022 主会场 Keynote:Flink Towards Streaming Data Warehouse
本篇内容主要分为四个部分:实时流计算全球范围事实标准2022数据实时化技术创新不止StreamingDataWarehouse流式
数仓
DemoTips:点击「阅读原文」查看原文视频&演讲ppt01实时流计算全球范围事实标准
Apache Flink
·
2022-12-30 22:52
flink
大数据
人工智能
智能湖仓架构实践:利用 Amazon Redshift 的流式摄取构建实时
数仓
AmazonRedshift是一种快速、可扩展、安全且完全托管的云数据仓库,可以帮助用户通过标准SQL语言简单、经济地分析各类数据。相比其他任何云数据仓库,AmazonRedshift可实现高达三倍的性能价格比。数万家客户正在借助AmazonRedshift每天处理EB级别的数据,借此为高性能商业智能(BI)报表、仪表板应用、数据探索和实时分析等分析工作负载提供强大动力。我们很激动地为Amazon
亚马逊云开发者
·
2022-12-30 17:59
架构
数据仓库
数据库
亚马逊云科技智能湖仓架构实践:利用Amazon Redshift的流式摄取构建实时
数仓
AmazonRedshift是一种快速、可扩展、安全且完全托管的云数据仓库,可以帮助用户通过标准SQL语言简单、经济地分析各类数据。相比其他任何云数据仓库,AmazonRedshift可实现高达三倍的性能价格比。数万家客户正在借助AmazonRedshift每天处理EB级别的数据,借此为高性能商业智能(BI)报表、仪表板应用、数据探索和实时分析等分析工作负载提供强大动力。我们很激动地为Amazon
m0_72973530
·
2022-12-30 17:28
其他
数据仓库理论知识
数据仓库1.1
数仓
基础知识1.1.1.为什么要有数据仓库通常数据仓库的数据来自各个业务应用系统。
南潇如梦
·
2022-12-30 16:25
大数据那些事
大数据
数据库开发
数据库
数据仓库
青软集团产业项目集:基于Flink+Kylin+Druid的商业智能实时
数仓
决策平台项目
随着大数据、人工智能、工业互联网等新兴技术的发展,传统产业数字化转型的不断深化,相关企业更加迫切地需要理解产业、具备技术和工程实践等能力的高素质数字化人才。基于真实产业需求,青软面向商业BI、航空、智能交通、社会舆情、能源、医药服务等领域,引入适用于高校人才培养的项目资源,构建于U+新工科智慧云平台上,助力高校培育复合型应用人才。本期,我们将介绍企业级真实案例——《基于Flink+Kylin+Dr
QST青软集团
·
2022-12-30 11:38
数据挖掘
数据仓库
大数据
B站基于Iceberg+Alluxio助力湖仓一体项目落地实践
当前B站急需一套技术架构,在拥有数据湖灵活性的同时又具备
数仓
的高效性,在这样的背景之下开始探索
Alluxio
·
2022-12-30 09:57
Alluxio技术与实践
大数据
hadoop
hive
分布式
数据仓库
实时写入场景的用户痛点
实时写入场景的用户痛点SQL开发工作量大对于一些还没有完成
数仓
建设的新业务,或是刚刚开始依托StarRocks进行OLAP平台建设的用户而言,在StarRocks中建表以承载Mysql同步过来的数据是第一步
feidodo网络
·
2022-12-30 05:13
mysql
数据库
数据导入实践和调优
初期数据源主要来自Hive
数仓
,因此大部分数据导入以BrokerLoad方式为主。
feidodo网络
·
2022-12-30 05:43
大数据
hive
hadoop
数仓
Hive和分布式计算引擎Spark多整合方式实战和调优方向
文章目录概述SparkonHiveHiveonSpark概述编译Spark源码配置调优思路编程方向分组聚合优化join优化数据倾斜任务并行度小文件合并CBO谓词下推矢量化查询Yarn配置推荐Spark配置推荐ExecutorCPU核数配置ExecutorCPU内存配置Executor个数配置Driver配置整体配置概述前面的文章都单独熟悉Hive和Spark原理和应用,本篇则来进一步研究Hive与
IT小神
·
2022-12-29 13:31
大数据
运维
hive
spark
大数据
火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写
同时,对于专业
数仓
团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的数据集?
字节跳动技术团队
·
2022-12-29 13:36
人工智能
火山引擎
数据挖掘
sql
产品运营
深度!用“极速统一”,开启金融行业数据分析新范式
IDC预测,2024年全球
数仓
的市场规模将达到297亿美元,2019
StarRocks_labs
·
2022-12-28 09:16
数据库
数据分析
面试官:说一下
数仓
宽表的优缺点吧
群友爆料,经常面试会遇到面试官问宽表优缺点的问题,问法也是有所不同说一下
数仓
宽表的优缺点吧?你们公司宽表用起来感觉怎么样,遇到什么问题吗?你们为什么要设计成宽表呢?
大数据私房菜
·
2022-12-27 21:40
数据仓库
Hive
数仓
建模—宽表的设计
宽表的设计高内聚低耦合宽表是
数仓
里面非常重要的一块,
数仓
是分层的,这是技术进步和时代变化相结合的产物,
数仓
的分层式为了更好地管理
数仓
以及更加高效地进行数据开发。
Keven He
·
2022-12-27 21:39
#
Hive
大数据
数据仓库
数据挖掘
hive
数据库
实时
数仓
宽表加工解决方案
一.实时数据仓库与离线数据仓库由于离线数据每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了。实时数据仓库就是刚好为了满足时效性要求较高的场景下而生的,但是在做实时数据仓库中经常会遇到一些问题。离线由于表数据都同步到数据仓库中,可以进行随意关联,出一些业务想要的统计结果。但是实时数据
诸葛子房_
·
2022-12-27 21:08
大数据
Flink
浅谈数据仓库
前言写该篇文章有2个目的:1、输出倒逼输入,对工作学习做一个总结、查漏补缺2、帮助刚入行的同学建立对
数仓
的初步认识一、
数仓
是啥要解释这个问题,首先先思考下"仓库"的含义。
吕归尘0
·
2022-12-27 21:07
数据仓库
数据仓库
big
data
浅谈数据仓库分层
一、目标了解
数仓
的“层”以及如何分层二、什么是“层”一组对象的集合,包括了表、视图、ETL脚本、调度作业、实施规范等等,因为
数仓
核心功能之一是存储数据,所以通常层就是指一批表的集合;详细解释:1、DB对象表
吕归尘0
·
2022-12-27 21:07
数据仓库
数据仓库
etl
hive
【大数据技术】大数据技术之
数仓
宽表和窄表的区别
【大数据
数仓
】宽表和窄表的区别一、宽表(1)宽表:从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。
daydayup-2016
·
2022-12-27 21:36
大数据技术
数据挖掘
人工智能
数据仓库
大数据
(转载)实时
数仓
宽表加工解决方案
一.实时数据仓库与离线数据仓库由于离线数据每天凌晨拉去线上生成数据库(凌晨请求较少,减少线上库压力),导致数据是T+1,而对于一些时效性要求较强的场景。比如需要看现在的用户数、GMV等等,离线方案就很难解决了。实时数据仓库就是刚好为了满足时效性要求较高的场景下而生的,但是在做实时数据仓库中经常会遇到一些问题。离线由于表数据都同步到数据仓库中,可以进行随意关联,出一些业务想要的统计结果。但是实时数据
moose_killer
·
2022-12-27 21:04
hbase
big
data
数据仓库
数仓
大宽表
个人建议是:宽表可以从很多的表中结合数据,但是鉴于宽表自身的缺陷,不建议过“宽”,在无法提前做测试的情况下,尽量只使用”小宽表“,即只使用宽表涉及面广的特点,但是表本身不大(行列均小),如果行过多可以建立partition机制。数据仓库模型一般有四种:宽表模型,星型模型,雪花模型,星座模型。四种模型定义如下:宽表模型(单例模型),通常是指业务主体相关的指标、维度、属性关联在一起的一张数据库表。星型
小金子的夏天
·
2022-12-27 21:31
数据仓库
数据仓库
big
data
数据挖掘
2021年大数据面试宝典完整版(含答案解析)
/mp.weixin.qq.com/s/0mgy07WAMBYNBP6er8_hDA版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及
数仓
方面的题目
行走的数据智能
·
2022-12-27 19:46
计算机求职面试
大数据理论
大数据组件架构
大数据
hadoop
spark
kafka
面试
复杂查询响应速度提升10+倍,度言软件基于 Apache Doris 实时
数仓
建设实践
作者|杭州度言软件大数据团队杭州度言软件有限公司(度言软件)成立于2014年,是信贷不良资产处置技术服务供应商,以“智能科技赋能不良资产处置,推动贷后行业合规高效发展”为使命,运用云通讯、大数据、人工智能等智能科技为信贷不良资产处置业务赋能,提供贷后管理通信能力支撑,实现了催收作业的智能化管理,客户群体为银行、消费金融公司、AMC等金融机构和为这些机构提供人力资源外包服务的相关公司,目前已拥有20
·
2022-12-27 19:35
火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写
同时,对于专业
数仓
团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的
·
2022-12-27 13:39
大数据bi
2021.5.16
数仓
之用户画像表模型设计
第三个业务:用户画像-统计当天7日活跃用户业务分析:要统计7日活跃用户情况需要找到用户基本信息&用户每日登陆情况用户基本信息来源:1.支付宝注册用户2.微信注册用户3.qq注册用户4.App注册用户-使用app注册点歌充值消费这4类注册信息在ycak业务库,对应的4类注册用户分别在以下表中,以及表中的字段:user_alipay_baseinfoDROPTABLEIFEXISTS`user_ali
超可爱慕之
·
2022-12-27 12:13
大数据
oushudb丨偶数科技为辽宁农信数字化进程添加新动能
但是,随着辽宁农信业务的拓展以及各类业务系统的不断建设,各源系统的数据量激增,对数据的需求也呈现出多样化、复杂化的特点,对数据的查询效率、供给时间也提出了更高的要求,导致现有关系型
数仓
和大数据平台已无法同时满足辽
·
2022-12-26 16:21
oushudb-hawq
偶数科技为辽宁农信数字化进程添加新动能
但是,随着辽宁农信业务的拓展以及各类业务系统的不断建设,各源系统的数据量激增,对数据的需求也呈现出多样化、复杂化的特点,对数据的查询效率、供给时间也提出了更高的要求,导致现有关系型
数仓
和大数据平台已无法同时满足辽
·
2022-12-26 16:19
oushudb-hawq
oushudb丨偶数科技为辽宁农信数字化进程添加新动能
但是,随着辽宁农信业务的拓展以及各类业务系统的不断建设,各源系统的数据量激增,对数据的需求也呈现出多样化、复杂化的特点,对数据的查询效率、供给时间也提出了更高的要求,导致现有关系型
数仓
和大数据平台已无法同时满足辽
·
2022-12-26 16:46
oushudb-hawq
包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、
数仓
等
大数据开发面试题包含Hadoop、zookeeper、Hive、flume、kafka、Hbase、flink、spark、
数仓
等高频面试题。数据来自原博主爬虫获取!
郎er
·
2022-12-26 08:47
大数据面试
hadoop
spark
kafka
flink
大数据
FFA 2022 主会场 Keynote:Flink Towards Streaming Data Warehouse
本篇内容主要分为四个部分:实时流计算全球范围事实标准2022数据实时化技术创新不止StreamingDataWarehouse流式
数仓
Demo点击查看直播回放&演讲PPT一、实时流计算全球范围事实标准ApacheFlink
·
2022-12-24 22:31
flink大数据实时计算
FFA 2022 主会场 Keynote:Flink Towards Streaming Data Warehouse
本篇内容主要分为四个部分:实时流计算全球范围事实标准2022数据实时化技术创新不止StreamingDataWarehouse流式
数仓
Demo点击查看直播回放&演讲PPT一、实时流计算全球范围事实标准ApacheFlink
·
2022-12-24 22:01
flink大数据实时计算
大数据旅游项目(离线
数仓
实战)
文章目录大数据旅游项目1项目分析1.1项目分析流程图2项目前期准备2.1hdfs权限验证3
数仓
前期准备3.1本地创建对应账号(root权限)3.2hdfs创建分层对应目录(root权限)3.3修改hdfs
友培
·
2022-12-24 12:04
大数据——实战项目
数据仓库
hive
flume
hdfs
hadoop
大数据实战项目 -- 离线
数仓
一、
数仓
规划1.1集群规划技术选型位置框架数据采集传输Flume,Kafka,Sqoop,Logstash,DataX,数据存储MySql,HDFS,HBase,Redis,MongoDB数据计算Hive
L小Ray想有腮
·
2022-12-24 12:02
BigData
电商离线
数仓
项目实战(下)
电商离线
数仓
项目实战(下)电商分析——核心交易文章目录电商离线
数仓
项目实战(下)电商分析——核心交易一、业务需求二、业务数据库表结构1.数据库表之间的联系img2.业务数据库——数据源3.数据库表结构设计
taoshengyijiu_
·
2022-12-24 12:31
笔记
hive
数据仓库
hadoop
spark
kafka
大数据电商
数仓
分析项目
大数据电商
数仓
分析项目项目描述:第一部分:模拟常规电商
数仓
分析流程,利用hadoop相关生态mapreduce、spark等进行数据清洗,再通过hive、spark统计对用户行为日志及区域热门商
GoAI
·
2022-12-24 12:30
#
Hive
#
大数据项目
spark
大数据
hive
mysql
数据仓库
上一页
50
51
52
53
54
55
56
57
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他