E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
最全企业级
数仓
建设迭代版
一什么是数据仓库1.1数据仓库概念数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。1.2数据仓库特点1.2.1面向主题普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行归
dovert
·
2023-02-04 22:07
数据仓库
数据仓库
数据库
数据挖掘
大数据学习系列:Hadoop3.0苦命学习(五)
目录1什么是
数仓
1.1基本
咖喱东东
·
2023-02-04 18:15
大数据栏目
hadoop
hive
大数据
数据仓库
数仓
维度建模之维度表设计(设计实操二)
概述维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。维度建模优点事实表事实表存储了从业务活动或事
小码良
·
2023-02-04 14:21
数据仓库
数据仓库
大数据
数仓
第二篇: 数据模型(维度建模)
范式模型2.3DataVault模型2.4Anchor模型03.建模工具3.1PowerDesigner3.2ERWin3.3Visio3.4ExcelMapping04.结语本文导航前言:model对于
数仓
是最核心的东西
浊酒南街
·
2023-02-04 14:20
数仓建设
数据仓库
数据库
数据挖掘
【
数仓
】维度设计
今天学习第10章维度设计。欢迎关注公众号回复802获取pdf。1.维度设计基础1.1维度的基本概念维度是什么:度量-事实。环境-维度。维度就是分析事实所需要的环境。维度做什么:维度属性是查询约束条件、分组和报表标签生成的基本来源,是数据易用性的关键。一般用来查询约束、分类汇总、排序。维度的获取:报表中获取;与业务人员交流中发现;经常出现在by语句内。维度用主键标识其唯一性。1.2维度的基本设计
和风与影
·
2023-02-04 14:20
大数据
数据仓库
数据仓库
大数据
数仓
知识05:事实表和维度表的概念
数仓
中通常有两种表:事实表、维度表,这两种表是什么含义,有哪些区别,今天进行讲解。事实表数据仓库架构中的中央表,它包含联系事实与维度表的数字度量值和键。
维克先生
·
2023-02-04 14:19
数据仓库
数据仓库
数仓
搭建-DIM层
目录
数仓
搭建-DIM层商品维度表(全量)优惠券维度表(全量)活动维度表(全量)地区维度表(特殊)时间维度表(特殊)用户维度表(拉链表)DIM层首日数据装载脚本DIM层每日数据装载脚本
数仓
搭建-DIM层商品维度表
我可以.
·
2023-02-04 14:47
java
开发语言
实时
数仓
-涉及维度退化的事实表
[关键字]:FlinkSQL、Flink双流Join、Flink动态表与持续查询业务背景实现DWD-加购事务事实表业务流程维度退化何为维度退化传关系型数据库严格遵循三范式来表内没有冗余如果要获取维度字段需要联结其他表==>时间换空间非关系型数据库遵循维度建模且数据量大联结其他表会大大增加查询时间所以将需要的维度字段合并到事务表==>空间换时间宽表宽窄表并不单单以表的宽细作为划分依据,而取决于表中是
中英汉语词典
·
2023-02-04 14:15
大数据
Flink
kafka
big
data
数据库
[
数仓
]埋点数据接入
第40个视频的1:03:31一、采集flume日志服务器:将日志采集到本地,共有两个日志服务器,因此要安装两台flume,每个flume采集其所在服务器上的日志source:taildirsource可以实时的读取文件中的数据,支持断点续传1、flle_to_kafka.conf文件存于:在flume目录下创建一个job目录#定义组件a1.sources=r1a1.chennls=c1#配置sou
胖胖学编程
·
2023-02-04 14:44
flume
大数据
实时
数仓
之Flink维表关联难点解决方案
一维表关联的典型场景和考量标准1.1维表关联的典型场景在实时
数仓
中,我们经常需要做维表关联,但是用户维表一般在业务数据库中,业务方是不允许大数据部门直接到业务数据库进行维表关联,因为这会影响线上业务。
大数据研习社
·
2023-02-04 14:09
大数据实战精英+架构师
大数据实时数仓
Flink
flink
实时数仓
数仓
之事实表和维度表
维度表:维度表示你对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按区域来划分,或者选择按类别进行分析。这样的按。。。。分析就构成了一个维度。事实表:数据聚合后依据某个维度生成的结果表,事实表是用来储存主题的主干内容的,以日常工作内容举例,工作量可能具有如下属性:工作日期,人员,工作时长,加班时长,工作性质,是否外勤,工作内容,审核人,其中工作时长,加班时长为主干,是工作量主题的
hammring
·
2023-02-04 14:09
数仓
【HBZ分享】
数仓
里面的概念-宽表-维度表-事实表概念讲解
数仓
概念1.度量值:可被统计的,比如:次数,销量,营销额,订单表中的下单金额等可以统计的值叫度量值2.维度表:(1).对事实描述的信息,每一张表都对应现实世界中的一个对象或概念,比如:用户,商品,日期,
hbz-
·
2023-02-04 14:08
clickhouse
数据库
分布式
zookeeper
谈笑间学会
数仓
—维度层设计④
谈笑间学会
数仓
—维度层设计④特殊维度1.1、递归层次上篇博客已经了解了维度的层次结构,即维度属性以层次方式或一对多的方式相互关联;或者描述为不同维度之间的主从关系,比如商品和类目的关系、商品和品牌的关系等
MrZhangBaby
·
2023-02-04 14:37
谈笑间学会数据仓库
谈笑间学会大数据
Hadoop
数据仓库
大数据
[
数仓
]如何划分维度表还是事实表
事实表一般由维度表的外键和度量值组成,但是一般会有退化维度,避免join太多次。维度表一般是对事实表做描述,每一张维度相当于java中的一个对象。1)维度表维度表的特征:维度表和事实表相比,行数相对较小:通常<10万条内容比较固定:编码表(特殊的用户表也是维度表【拉链表】)2)事实表每行数据代表一个业务事件(特殊的在埋点表里对应多个事件)特征:数据量很大经常变化,每天会新增很多
胖胖学编程
·
2023-02-04 14:35
数仓
python
大数据
Hadoop中ETL需要考虑从哪几方面入手
这样会导致
数仓
采集层数据比业务数据库数少。可传入一个时
江边蚊子
·
2023-02-04 12:43
零基础转行数据分析师是怎样的体验
这里的数据分析师定位于偏业务的数据分析师,不谈高大上算法和
数仓
之类的数据分析师。讲这个之前还是要泼泼冷水,现在数据分析师的岗位被一些培训机构炒的太热,导致很多人被忽悠进这个行业。
数据氧气
·
2023-02-04 09:00
可视化——Superset安装与部署
1.2Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具。第2章Superset安
丝丝呀
·
2023-02-04 09:29
大数据
电商
数仓
superset
1.2Superset应用场景由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具。2Superset安装及
周虽旧邦其命维新
·
2023-02-04 09:27
大数据
oracle
hive
kafka
flume
hadoop
尚硅谷大数据
数仓
项目superset db upgrade三个报错解答
cannotimportname‘TypedDict’from‘typing’(/opt/module/miniconda3/envs/superset/lib/python3.7/typing.py)尚硅谷大数据
数仓
项目
普通网友
·
2023-02-04 09:54
面试
学习路线
阿里巴巴
big
data
python
深度学习
开发语言
c++
出行平台如何基于StarRocks构建实时
数仓
?
作者:王满,高级数据架构工程师首汽约车(以下简称“首约”)是首汽集团为响应交通运输部号召,积极拥抱互联网,推动传统出租车行业转型升级,加强建设交通强国而打造的网约车出行平台。在用车服务方面,包括了即时用车、预约用车、多日接送、包车业务、接送机、国际用车、城际拼车等用车服务场景,提供出租、畅享、舒适、商务、豪华、巴士等丰富车型。首汽约车还通过数据整合和智能科技陆续推出了学生用车、老人用车等产品来满足
StarRocks_labs
·
2023-02-03 17:03
数据库
直播 | StarRocks 联合腾讯云分享 EMR-StarRocks 的降本增效之路
用户无需将数据导入到StarRocks中,无需构建昂贵的
数仓
,即可实现亚秒级的查询速度,统一分析离线和实时数据,全面发挥湖仓架构的潜在优势。
StarRocks_labs
·
2023-02-03 17:32
腾讯云
云计算
数据库
数仓
工程师的技术路线篇
更多精彩好文,尽在微信公众号《大数据阶梯之路》一、数据仓库工程师是什么首先,我要声明一点,
数仓
工程师不能有一个惯性思维,那便是把自己当成一个SQL工程师,即网络上调侃的:
数仓
工程师=SQLboy,我认为这是错误的定义
大数据阶梯之路
·
2023-02-03 07:02
实时分析全面赋能金融业务,马上消费基于 Apache Doris 构建实时
数仓
的实践
随着各业务对实时数据分析的需求越来越强烈,马上消费于2021年引入ApacheDoris构建实时
数仓
,目前已服务10+业务团队的数据应用,99%以上的查询响应耗时在5秒内,数据时效延迟均不超过1分钟,解决了其对于实时数据分析的强烈诉求
·
2023-02-02 16:53
Map Reduce执行过程
MapReduce执行过程是
数仓
hql调优所必须熟知的,也是初高级
数仓
工程师面试基本必问的一块内容,所以为了面包,巩固学习一下。
乌拉乌拉儿
·
2023-02-02 15:38
Flink on Hive构建流批一体
数仓
这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时
数仓
的应用和流批一体的落地实践奠定了坚实的基础。
大数据技术与数仓
·
2023-02-02 11:53
离线和实时
离线和实时一、
数仓
基本概念1.数据仓库架构我们在谈
数仓
之前,为了让大家有直观的认识,先来谈
数仓
架构,“架构”是什么?这个问题从来就没有一个准确的答案。
jerry-89
·
2023-02-02 08:59
实时数仓
数据仓库
数据库
数仓
建设规范
1、
数仓
分层原则优秀可靠的
数仓
体系,往往需要清晰的数据分层结构,即要保证数据层的稳定又要屏蔽对下游的影响,并且要避免链路过长。那么问题来了,一直在讲
数仓
要分层,那
数仓
分几层最好?
小帅明3号
·
2023-02-02 05:53
数仓
:Airflow 安装及配置
安装步骤sudoaptupdatesudoaptinstallpython3-pippip3install--upgradepip配置文件安装路径及环境变量exportAIRFLOW_HOME=~/airflowpip3installapache-airflowexportAIRFLOW_HOME=/home/work/airflowecho'exportPATH=/usr/local/bin:$
dex0423
·
2023-02-02 01:39
【Hadoop】macbookpro m1/m2 arm 编译hadoop-3.3.1
在大数据
数仓
实践过程中,hadoop技术栈充当了非常重要的环节,很多大数据平台,中台都是基于hive+hadoop+spark来搭建的,所以我们对于hadoop的编译,构建,安装是需要掌握的非常清楚。
笑起来贼好看
·
2023-02-01 09:24
Hadoop
大数据
服务运维部署
hadoop
大数据
分布式
阿里云大数据实战记录3:MySQL迁移到ODPS SQL
最近在做一些业务宽表的迁移,因为一个比较老的
数仓
示例已基本已弃用。该仓库为了快速响应数据需求,采用简单模式,没分开发环境和生产环境,使用的查询语言是MySQL。
Xin学数据
·
2023-02-01 07:26
阿里云大数据
mysql
sql
odps
大数据
数仓
模型设计详细讲解
前言今天给大家分享下
数仓
中的模型设计,一个好的
数仓
项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。
大数据老哥
·
2023-02-01 01:05
【HuDi】B站增量数据湖探索与实践
1.1时效性痛点传统
数仓
以小时/天级分区,数据完整才可查。然而,一些用户并不需要数据完整,只需要最近的数据做一些趋势分析。因此,现状无
九层之台起于累土
·
2023-01-31 22:18
【BigData】
大数据
spark
编写scala版hive的自定义函数
背景最近,在
数仓
使用过程中,遇到一些数据处理过程中需要特殊处理,然而hive内置的函数确无法满足需求,因此需要通过自定义函数来扩充其内置函数,达到便捷处理数据的最终目的。
md_2014
·
2023-01-31 07:15
scala
hive
数据仓库
数据仓库
数仓
分层目的通过分层,可以让复杂混乱的数据体系内部的依赖结构变得层次分明,具体好处如下:(1)清晰的数据结构,每个数据层都有自己的作用域和职责(2)减少重复开发,开发一些通用的中间层数据,能够减少重复计算
md_2014
·
2023-01-31 07:05
大数据
数据仓库
Hologres揭秘:高性能原生加速MaxCompute核心原理
Hologres(中文名交互式分析)是阿里云自研的一站式实时
数仓
,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析
阿里云Hologres
·
2023-01-30 15:05
数仓
中常规组件安装
包含Hadoop,Zookeeper,Kafka组件安装文章目录HadoopHadoop部署配置集群配置历史服务器分发Hadoop群起集群Hadoop群起脚本项目经验之HDFS存储多目录集群数据均衡项目经验之支持LZO压缩配置项目经验之LZO创建索引项目经验之基准测试项目经验之Hadoop参数调优Zookeeper安装与启停脚本Kafka安装启停脚本Kafka常用命令项目经验之Kafka机器数量计
Alienware^
·
2023-01-30 15:53
数据仓库项目
hadoop
big
data
kafka
万字详解
数仓
分层设计架构 ODS-DWD-DWS-ADS
一、
数仓
建模的意义,为什么要对数据仓库分层?只有数据模型将数据有序的组织和存储起来之后,大数据才能得到高性能、低成本、高效率、高质量的使用。
架构文摘
·
2023-01-30 15:21
数据仓库
大数据
webgl
glassfish
entity
数据中台如何搭建
天启,奇点云数据模型架构专家、原海尔集团数据架构师、原阿里巴巴政务团队数据架构师,精通数据仓库建模理论及数据开发技术,具备零售、政务、医药、制造等多个领域
数仓
和数据中台建设经验,及PB级数据仓库与数据中台建设经验
山野市民
·
2023-01-30 15:49
数据仓库
数据库
大数据
Flink电商实时
数仓
项目05-数据可视化
1数据可视化接口1.1设计思路之前把轻度聚合的结果都保存到了ClickHouse中,主要目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展示,一种是为专业的数据分析人员的BI工具,另一种是为非专业人员提供更加直观的数据大屏。下面主要是面向百度的sugar的数据大屏服务的接口开发。1.2需求梳理1.2.1最终效果1.2.2分析可视化大屏组件名称组件查询指标对应的数据表总成交金
最佳第六六六人
·
2023-01-30 15:17
大数据项目实战
flink
电商数仓
sugar
湖仓一体电商项目(一):项目背景和架构介绍
项目架构1、实时
数仓
现状2、项目架构及数据分层3、???
普通网友
·
2023-01-30 15:16
面试
学习路线
阿里巴巴
android
前端
后端
【新年新姿势第一弹】腾讯云EMR
数仓
建设教程发布——与尚硅谷强强联手带你全方位了解大数据组件
腾讯云开发者社区带着干货来了,腾讯云×尚硅谷大数据研究院强强联手,重磅推出新年第一弹:腾讯云EMR
数仓
教程发布腾讯云开发者社区“公开课”直达:腾讯云开发者公开课-腾讯云开发者社区-腾讯云这套教程由腾讯云官方与尚硅谷大数据研究院联合推出
腾讯云开发者
·
2023-01-30 14:41
腾讯云
大数据
云计算
数据仓库之建设
恨不得你啥都会每个人最好了解业务,会提升做事效率(知道别人的需求)理念篇会写代码会提高效率(python解析Excel、批量执行存储过程、日志解析)初期业务分析占比很大,需要需求方和解决方共同出力,打好
数仓
根基数据质
OverLight
·
2023-01-30 14:53
Data Lakehouse (湖仓一体) 到底是什么
在
数仓
中,
Impl_Sunny
·
2023-01-30 07:06
#
数据存储与管理方案
#
概念
data
lakehouse
湖仓一体
重构实时离线一体化
数仓
,Apache Doris 在思必驰的应用实践
作者:赵伟,思必驰大数据高级研发,10年大数据开发和设计经验,负责大数据平台基础技术和OLAP分析技术开发。社区贡献:Doris-spark-connector的实时读写和优化。业务背景思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,致力于成为全链路智能语音及语言交互的平台型企业,自主研发了新一代人机交互平台DUI和人工智能芯片TH1520,为车联网、IoT及政务、金融等众
张家锋
·
2023-01-30 06:45
Hive内置函数之时间函数
零、生产常用组合方式(0.1)离线
数仓
获取昨天的日期作为分区,格式yyyyMMddregexp_replace(date_sub(from_unixtime(unix_timestamp(),'yyyy-MM-dd
guaren2009
·
2023-01-29 12:32
Amazon Aurora 的读写能力扩展之 ShardingSphere-Proxy 篇
文章来源于亚马逊AWS官方博客马丽丽亚马逊云科技数据库解决方案架构师,十余年数据库行业经验,先后涉猎NoSQL数据库Hadoop/Hive、企业级数据库DB2、分布式
数仓
Greenplum/ApacheHAWQ
ShardingSphere
·
2023-01-29 08:21
数据库
大数据
python
mysql
java
2019年规划
-----------------------------------------1:成为一个合格的产品经理(对产品经理的套方法论能熟练掌握);2:对大数据底层知识有全面的了解,包括底层的架构,中间的
数仓
Edan栋
·
2023-01-28 18:21
数仓
利器-Hive高频函数合集
前言Hive是
数仓
建设使用频率最高的一项技术,基于各种业务需求,使用功能函数会为我们的开发提高了很多效率。
Bloo_m
·
2023-01-28 13:09
星环科技TDH多模型统一架构VS CDH架构
比如为了做
数仓
需要Hive,为了做精确查询需要Hbase,为了做搜索业务需要Elasticsearch等等。那客户为了实现图计算和分析,需
·
2023-01-28 12:49
数据库
中原银行对金融行业实时
数仓
的现状与发展趋势思考
众所周知,实时
数仓
落地是一个难点,尤其是金融行业,还没有出现真正所谓的实时报表。金融行业个别案例的实时
数仓
是在较窄场景、较多限制下的尝试,还不能够称之为实时
数仓
,如银行普遍的实时报表业务都无法满足。
Apache Flink
·
2023-01-28 10:58
金融
大数据
人工智能
上一页
34
35
36
37
38
39
40
41
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他