E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
《大型综合项目-基于大数据平台的数据仓库》学习笔记(09):日志预处理篇
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课
江湖人称涛哥
·
2020-08-19 09:31
大数据综合实战项目
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(05):数据采集篇
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课
江湖人称涛哥
·
2020-08-19 09:31
大数据综合实战项目
《大型综合项目-基于大数据平台的数据仓库》学习笔记(08):ID-MAPPING
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课
江湖人称涛哥
·
2020-08-19 09:31
大数据综合实战项目
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(04):
数仓
概念篇2
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课
江湖人称涛哥
·
2020-08-19 09:01
大数据综合实战项目
《大型综合项目-基于大数据平台的数据仓库》学习笔记之(01):项目介绍篇
学完本课程,你将很容易就拿到大数据
数仓
建设或用户画像建设等岗位的OFFER本课
江湖人称涛哥
·
2020-08-19 09:01
大数据综合实战项目
2020-08-17
数仓
项目我们的
数仓
项目从数据来源来说分为两类,用户行为日志(web端,微信小程序,APP,前端页面埋点)和业务数据库,从技术架构上说,分为ods,dwd,dws,ads层.(1)ODS层是一个数据采集汇聚层
想当兵的荷包蛋
·
2020-08-19 06:58
大数据
项目
数仓
项目我们的
数仓
项目从数据来源来说分为两类,用户行为日志(web端,微信小程序,APP,前端页面埋点)和业务数据库,从技术架构上说,分为ods,dwd,dws,ads层.(1)ODS层是一个数据采集汇聚层
想当兵的荷包蛋
·
2020-08-19 06:08
谈笑间学会-
数仓
技术架构设计
谈笑间学会-
数仓
技术架构设计1、前言为何要谈数据仓库技术架构设计呢?技术架构设计是建设
数仓
的必备因素之一,分层架构为我们捋清了数据的架构及分层规范,并没有真正落地到具体的实施?
MrZhangBaby
·
2020-08-19 01:42
谈笑间学会数据仓库
谈笑间学会大数据
大数据之实时数仓构建
数据仓库
大数据
数据架构
谈笑间学会-
数仓
分层架构
1、数据仓库1-1、什么是
数仓
呢?
MrZhangBaby
·
2020-08-19 01:42
谈笑间学会数据仓库
大数据
谈笑间学会大数据
数据中台
数仓
是存储和管理主题数据的集合,主
Kevin__Durant
·
2020-08-18 19:57
大数据
数据中台
数仓
架构
转自:http://blog.csdn.net/zyj8170/article/details/52920021数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的
zahuali
·
2020-08-18 12:24
数仓
上海久耶HBase实时
数仓
探索实践
文章从六个方面介绍,首先是久耶第一代离线
数仓
以及第二代实时
数仓
。接下来介绍下公司业务场景和业务开发,基于HBase的开发流程,然后介绍下公司CDH集群,介绍下CDH集群调优监控。最后分享两个生产案例。
yyoc97
·
2020-08-18 12:50
大数据
hbase
数仓
ETL代码优化 - 表字段 被过滤和聚合的次数
优化案例假设以下代码,在不同的调度任务中重复出现。那么是否可以抽出公共代码,减少资源使用。--是否可以将埋点里搜索相关的整合成一张表select*fromapp_event_trackingwhereop_type='搜索'--是否可以将每日的用户下单情况整合成公共层表selectuser_id,...fromorder_itemwherecreate_date='yesterday'groupb
阿武z
·
2020-08-18 12:56
数据仓库
集群运维
Hive
数仓
ETL代码优化 - 找到经常在一起做JOIN的表
优化案例假设以下代码,在不同的调度任务中重复出现。那么是否可以抽出公共代码,减少资源使用。--任务1selectt1.*,t2.*fromtable_at1jointable_bt2ont1.id=t2.id;--任务2selectt1.*,t2.*,t3.*fromtable_at1jointable_bt2ont1.id=t2.idleftjointable_ct3ont1.id=t3.id;
阿武z
·
2020-08-18 12:56
集群运维
数据仓库
数仓
逻辑分层
数仓
分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。
weixin_47209187
·
2020-08-18 12:52
数仓
数仓
面试题(离线)实战解答
无意间翻到以前的
数仓
面试题,今天把它整理出来,方便你我他。
数仓
分层:为什么要对
数仓
进行分层?1、说说对数据仓库的理解数据仓库是面向主题进行组织的,数据是集成的、不可更新的、随时间变化的的。
靠自己A.
·
2020-08-18 12:20
Hive
数仓
案例
1.业务场景业务场景我们使用
数仓
的经典的销售订单源系统,业务逻辑很简单,有两个基本信息表产品表和客户表,产品表记录产品名称、编号和分类,客户表记录客户编号,客户名称以及其他基本信息,一个业务表订单表,记录哪个客户购买了什么产品
The Great Bear
·
2020-08-18 12:19
大数据工程师
数据仓库工程师
数仓项目
Hadoop离线(
数仓
与hive操作1)
Hadoop离线1-数据仓库-基本概念和主要特征基本概念英文名称为DataWarehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面向分析的
fly_234
·
2020-08-18 12:49
数仓
笔记
数仓
规范1定义数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
兴趣使然的码基
·
2020-08-18 12:48
hive
数仓
相关
最近在做hive相关的项目,以前做spark也没有太关注
数仓
,这更多的是关于切入问题解决问题的思路记录。主要就是基于主题库的数据建立对应的专题库以供对应专题服务。
盏茶暖阳
·
2020-08-18 12:16
方法论
构建
数仓
的一些基本原则
1,高内聚和低耦合一个逻辑或者物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开储存2,核心模型与扩展模型分离建立核心模型与扩展模型体系,核心模型包括的字段支持常用的核心业务,扩展模型包括的字段支持个性化或少
吗达拉
·
2020-08-18 12:45
数仓
hive
数仓
构建
转载自:https://blog.csdn.net/myloveprogrmming/article/details/858131141、获取数据源后台的服务数据前台的点击流日志数据业务数据2、确定主题用户主题:用户、会员相关的信息订单主题:订单相关的信息浏览器主题:跟浏览器相关的信息事件主题:跟事件相关3、创建模型(创建表)100张表以内不分层,以外将分层。如果维度表较多则将维度表单独分层1、创
阿鸿的啊
·
2020-08-18 12:07
数据仓库模型设计与工具
数据模型对于
数仓
是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了
数仓
能支撑企业业务多久。为什么大多数企业,
数仓
都要重建,这不仅仅是业务拓展、发展迅速,很大一部分是因为模型建的很烂。
datablau国产数据库建模工具
·
2020-08-18 12:55
01_公司
数仓
架构当前存在的问题
先来看看我们
数仓
当前采用的技术架构:
数仓
:
数仓
分为2层:dw和dm层。dw层是面向业务过程的明细表,比如:用户下单,采购入库会分别对应一张表。
猪猪Jedda
·
2020-08-18 12:44
数据仓库
hive
数仓
开发任务优化
Hive性能优化项目:基于hive的dmp数据仓库搭建Hive:apache开源组件,基于hdfs文件系统及mapreduce计算引擎的关系型数据库,弱索引(目前还没怎么有用过),基本不支持实施数据处理,适用于大数据量的存储及离线的大数据量的数据挖掘优化:1:调度优化,模型优化资源开放的情况下,模型日常T+1调度模型图如下(数据流图):数据模型每层的调度要足够灵活,尽量避免由于资源问题造成的任务p
TracyGao01
·
2020-08-18 12:54
hive
你需要的不是实时
数仓
| 你需要的是一款强大的OLAP数据库(上)
By大数据技术与架构场景描述:今年有个现象,实时
数仓
的建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库建设的文章和方案。对于实时
数仓
的狂热追求大可不必如此。
run_bigdata
·
2020-08-18 11:36
数仓
概念
数仓
事实表:指向各个维度的外键,和一些相应的测量数据,事实表中数据很多,维表记录这一维的属性维度表每一个维度表利用维度关键字通过事实表中的外键约束于事实表中的某一行,实现与事实表的关联,这就要求事实表中的外键不能为空
码上发财V
·
2020-08-18 11:05
数仓
分层模型|简练实用以及Impala使用
分层案例1.电信通讯stage层->bdl层->analysis层2.传统金融/保险ods层->pdm层->dm层3.互联网金融/电商odl层->bdl层->idl层->adl层尽管行业不同,套路却差不多。本次借鉴互联网分层模型,使用HIVE作为数据仓库,搭建数据平台。专业术语ODL层(OperationalDataLayer):操作数据层外部数据什么样,该层数据就是什么样(关系型数据库、JSON
首席撩妹指导官
·
2020-08-18 11:43
大数据
Flink SQL如何保证分topic有序
一、场景在做实时
数仓
的时候,我们需要保证提高消费能力和数据有序,那如果要用Flinksql和Kafka交互,就会出现如下两个问题:flinksql通过ddl读取和写入kafka怎么设置并行度呢?
且听_风吟
·
2020-08-18 11:44
实时数仓
实时数仓
flink
sql
kafka
实时数据仓库(实时
数仓
)建设
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
曹雪朋
·
2020-08-18 11:41
大数据项目实战
数仓
分层相关面试知识点总结
数仓
分层1ODS层做了哪些事?1)保持数据原貌,不做任何修改2)压缩采用LZO,压缩比是100g数据压缩完10g左右。3)创建分区表2DWD层做了哪些事?
美食江湖
·
2020-08-18 11:41
大数据
数据仓库
大数据
数仓
开发应避免的10个陷阱
这样才可以不被数据仓库设计的陷阱所困扰,避免这10个常见的陷阱可以在构建
数仓
的过程少走些弯路。陷阱10:过于迷恋技术和数据,而没有将重点放在业务需求和目标上。
数仓
归根结
西贝木土
·
2020-08-18 11:15
数据仓库
数据仓库
离线
数仓
常见问题
1.数据漂移ODS的表在同一个业务日期数据中包含前一天或者后一天凌晨附近的数据或者丢失当天的变更数据2.维度建模与ER建模3.缓慢变化维维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化4.退化维5.星形模型与雪花模型6.拉链表、流水表、全量表、增量表全量表:每天的所有的最新状态的数据,增量表:每天的新增数据,增量数据是上次导出之后的新数据。拉链表:维护历史状态,以及最新状态数据的一种表,拉
大数据程序袁
·
2020-08-18 11:54
大数据
第二篇: 模式分类
主要有:维度建模、范式建模、DataVault模型、Anchor模型维度模型企业中最流行也是最经典的
数仓
建模经典。按数据组织类型划分可分为星型模型、雪花模型、星座模型。
强子no2
·
2020-08-18 11:37
数据仓库
数据仓库设计方案
数仓
分层的主要原因:清晰数据结构 每一个数据分层都有它的作用域,这样在使用表的时候能更方便的定位和理解。数据血缘追踪 由于最终给业务
执意丨
·
2020-08-18 10:26
大数据
数据仓库 用户行为
数仓
ODS原始数据层操作示例-转收录
数据仓库用户行为
数仓
ODS原始数据层操作示例ODS(OperationalDataStore):原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。
a_mu_long
·
2020-08-18 10:55
DB
数仓
知识06_
数仓
的三层结构和三种模型
一、三层结构(1)底层:仓库数据库服务器(基本是一个关系型数据库)由ods或者其他外部数据源提取数据,放入底层。ETL工具和程序进行数据提取、数据清洗和变换(例如:将来自不同数据源的数据合并成一致的格式),已经装入和刷新,以更新数据仓库。数据提取方式:信关程序a.信关(使用后端程序或者工具提取数据):信关由DBMS支持,允许产生SQL代码例如:微软的ODBC(开放数据库连接)、OLE-DB(数据库
清平の乐
·
2020-08-18 10:18
数仓设计和数据预处理
数仓设计和数据处理
Hadoop集群
数仓
迁移——distcp命令、分区修复
目前项目涉及需求:迁移Hadoop
数仓
(由CDH环境迁移到HDP环境),涉及到hive表的重建,以及hdfs上文件的迁移,以及元数据、分区表的修复。
清平の乐
·
2020-08-18 10:47
Hive
数仓设计和数据处理
数据仓库(二)
数仓
理论(重点核心)
文章目录数据仓库(二)
数仓
理论(重点核心)
数仓
分层数据仓库分层ODS层DWD层DWS层DWT层ADS层数据仓库分层的好处关系建模与维度建模关系建模维度建模星型模型雪花模型星型模型与雪花模型的区别星座模型模型的选择维度表和事实表
溜三丝耶
·
2020-08-18 10:57
项目开发
数据仓库(一) 项目需求与架构设计
Apache框架版本服务器选型集群资源规划设计集群规模测试集群服务器规划数据仓库(一)项目需求与架构设计该
数仓
为离线数据仓库概念数据仓库(DataWarehouse),是为企业所有决策制定过程,提供所有系统数据支持的战略集合
溜三丝耶
·
2020-08-18 10:57
项目开发
数仓
数据通道之用户行为搭建
文章目录采集通道系统架构集群规划准备工作1虚拟机准备(克隆3台虚拟机)1.1创建用户1.2给用户增加ROOT权限1.3修改主机名1.4修改网卡信息1.5关闭防火墙1.6配置域名映射1.7文件夹准备1.8修改windows的hosts2免密登陆2.1生成密钥2.1拷贝密钥至其它机器3安装JDK配置环境变量(jdk1.8)4编写集群分发文件脚本(分发文件)一hadoop集群搭建(2.7.2)1上传安装
Master_slaves
·
2020-08-18 10:42
大数据
数据仓库
业务
数仓
项目总结
1熟悉8张表的业务字段,每张表记住3-5个字段2
数仓
理论1)表的分类:实体表、维度表、事务型事实表、周期型事实表2)表的同步策略:实体表(全量)维度表(全量)事务型事实表(增量)周期型事实表(新增和变化
不稳定记忆
·
2020-08-18 10:59
电商数仓总结
大数据
大数据平台
数仓
面试提纲
1、
数仓
架构拿一个你最近的项目举例,具体说下一个
数仓
建设的过程及注意点。(也可以放在第5在问里)互联网
数仓
与传统行业
数仓
有什么不同?是什么引起他们之间的不同分层、
数仓
主题划分的标准和依据?
BabyFish13
·
2020-08-18 10:49
Thinking
within
work
面试
提纲
大数据
数仓
数仓
--Hive-面试之Hive数据倾斜的原因及主要解决方法
对于参数命令的记忆,需要固定在数据倾斜产生的原因数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类Hive倾斜之groupby聚合倾斜原因:分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久;对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行groupby的时候,会将相同的groupby字段的reduce任务需要的数据拉取到同一个节点进行聚合,而当
yyyyyyyyyooi
·
2020-08-18 10:13
程序员
编程技术
5分钟了解啥是
数仓
高清思维导图已同步Git:https://github.com/SoWhat1412/xmindfile,关注公众号sowhat1412获取海量资源1.什么是数据仓库数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间
SoWhat1412
·
2020-08-18 10:02
大数据
突然火了的实时
数仓
|0x00
数仓
为什么要实时去年开始,实时
数仓
的概念突然火了。
晓阳的数据小站
·
2020-08-18 10:16
数据开发
数仓
那点事:从入门到佛系
(一)初识
数仓
每个人对于
数仓
的理解,都源自于大数据,而大数据有源自于那个神奇的故事:从前有一家超市,它有一个怪现象,尿布和啤酒赫然摆在一起出售。
晓阳的数据小站
·
2020-08-18 10:16
数据心情
Hive用户行为
数仓
(二)
Hive用户行为
数仓
(二)业务术语1.用户用户以设备为判断标准,在移动统计中,每个独立设备认为是一个独立用户。
TUJC
·
2020-08-18 10:35
实战案例
Hive用户行为
数仓
(一)
Hive用户行为离线仓库1、基本说明埋点数据基本格式公共字段:基本所有安卓手机都包含的字段业务字段:埋点上报的字段,有具体的业务类型下面就是一个示例,表示业务字段的上传。示例日志(服务器时间戳|日志):1540934156385|{"ap":"gmall","cm":{"uid":"1234","vc":"2","vn":"1.0","la":"EN","sr":"","os":"7.1.1"
TUJC
·
2020-08-18 10:34
实战案例
剑指数据仓库-项目篇(三) - 数据建模的三种模型&&ods层到dwd层介绍
一、上次课回顾二、场景(业务表补Updatetime字段)2.1、数据建模-星型模型2.2、
数仓
建模-雪花模型2.3、
数仓
分层-星座模型2.4、三种模型进行总结三、ERP项目架构3.1、
数仓
分层流程图四
Spark on yarn
·
2020-08-18 10:04
剑指数据仓库-项目篇
上一页
65
66
67
68
69
70
71
72
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他