E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
数仓
开发需要了解的BI数据分析方法
数仓
开发经常需要与数据表打交道,那么
数仓
表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。
西贝木土
·
2020-08-08 15:32
Hive
数据仓库
数据仓库
数仓
|Hive性能调优指北
在企业中使用Hive构建离线
数仓
是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。
西贝木土
·
2020-08-08 15:49
Hive
数据仓库
数据仓库
数仓
规范|使SQL更易于阅读的几个小技巧
无论是
数仓
开发还是数据分析,写一手好的SQL是一项基本的技能。毋庸置疑,编写性能较好的SQL是非常重要的,但是,SQL的可读性同样是不容小觑的。
西贝木土
·
2020-08-08 15:22
数据仓库
数据仓库
数仓
|大数据时代,维度建模过时了吗?
20世纪80年代末期,数据仓库技术兴起。自RalphKimball于1996年首次出版TheDataWarehouseToolkit(Wiley)一书以来,数据仓库和商业智能(DataWarehousingandBusinessIntelligence,DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术--维度建模(dimensionalmodelling),该方法是在实践观察的基础
西贝木土
·
2020-08-08 15:48
数据仓库
数据仓库
实时
数仓
|Flink SQL之维表join
维表是
数仓
中的一个概念,维表中的维度属性是观察数据的角度,在建设离线
数仓
的时候,通常是将维表与事实表进行关联构建星型模型。
西贝木土
·
2020-08-08 15:21
Flink
Flink
透过窗口看无限数据流——Flink的Window全面解析
欢迎关注我的公众号:大数据技术与
数仓
免费领取百G大数据资料窗口是流式计算中非常常用的算子之一,通过窗口可以将无限流切分成有限流,然后在每个窗口之上使用计算函数,可以实现非常灵活的操作。
西贝木土
·
2020-08-08 14:52
Flink
Flink
透过窗口看无限数据流——Flink的Window全面解析
欢迎关注我的公众号:大数据技术与
数仓
免费领取百G大数据资料窗口是流式计算中非常常用的算子之一,通过窗口可以将无限流切分成有限流,然后在每个窗口之上使用计算函数,可以实现非常灵活的操作。
西贝木土
·
2020-08-08 14:51
Flink
Flink
基于Canal与Flink实现数据实时增量同步(二)
本文主要从Binlog实时采集和离线处理Binlog还原业务数据两个方面,来介绍如何实现DB数据准确、高效地进入Hive
数仓
。
西贝木土
·
2020-08-08 14:40
Flink
Flink
数仓
面试|四个在工作后才知道的SQL密技
尤其是在
数仓
领域,使用SQL更是家常便饭。
西贝木土
·
2020-08-08 11:30
sql
hive
数仓
面试|四个在工作后才知道的SQL密技
尤其是在
数仓
领域,使用SQL更是家常便饭。
西贝木土
·
2020-08-07 10:53
SQL
面试
Hive
字节跳动基于Flink的MQ-Hive实时数据集成
背景在数据中台建设过程中,一个典型的数据集成场景是将MQ(MessageQueue,例如Kafka、RocketMQ等)的数据导入到Hive中,以供下游
数仓
建设以及指标统计。
字节跳动技术团队
·
2020-08-06 11:03
大数据常见面试题之数据仓库
文章目录一.
数仓
中是如何划分主题的二.
数仓
分层1.源数据层ODS2.数据仓库层DW3.数据应用层APP:面向业务定制的应用数据补充:维表层Dimension三.
数仓
和普通数据库区别四.星型模型和雪花模型的区别五
sun_0128
·
2020-08-06 11:43
面试
大数据面试
数据仓库
数仓
面试题
面试
大数据仓库之ods原始数据层和dw层设计
甲问:
数仓
建模时,涉及到uv(去重用户数)指标时,数据从哪里取,只能走ods原始数据层吗,汇总到dw层时,由于数据量太大,不能到用户粒度,所以在dw层中不包含用户粒度的数据,而且电商的报表分析,几乎每张报表都会涉及到
残阙的歌
·
2020-08-06 10:06
整合基础类
Flink Sql on Zeppelin(6)——Hive Streaming
概述Flink1.11在上周二正式release了,在此之前我也给大家分享过了Flink1.11的一些新特性,然后和大家说过这一期会给大家单独说FlinkXHive本来打算找点数据,然后做一期类似于实时
数仓
的内容
Flink-狄杰
·
2020-08-06 10:00
Flink
Sql
Flink
Sql
on
Zeppelin
大数据
flink
zeppelin集成
Golang 简单的读负责均衡
2.在
数仓
拉取数据的时候经常对产线DB造成影响,所以会独立一个从库专门用来拉取,但是这个从库的利用率非常低。
数仓
拉取数据
plen_wang
·
2020-08-05 16:22
golang
阿里云再招5000人,会
数仓
的开发到底有多吃香?...
昨天支付宝的母公司蚂蚁金服宣布在科创板上市,估值2000亿美金,朋友圈不少蚂蚁大佬纷纷实现财务自由了!我承认我柠檬酸了,又少一个可以去实现财务自由的公司了!上个月,在2020阿里云峰会上,阿里云智能总裁张建锋明确表示,今年要再招5000人,在这5000人里,大数据研发相关岗位是绝对的重头戏~其实不止阿里,现在越来越多企业也开始关注大数据……现在企业想要做大,就离不开大数据。而企业做大数据的第一步—
欢迎关注公众号:【码农突围】
·
2020-08-05 16:55
编程语言
大数据
数据仓库
分布式存储
阿里巴巴
关于OLAP
数仓
,这大概是史上最全面的总结!(万字干货)
文|温正湖源|知乎有哪些类型的OLAP
数仓
?按数据量划分对一件事物或一个东西基于不同角度,可以进行多种分类方式。对
数仓
产品也一样。比如我们可以基于数据量来选择不同类型的数量,如下图所
肉眼品世界
·
2020-08-05 11:23
千万级数据量的插入操作(MYSQL)
前几天因为公司业务迁移需要,需要从
数仓
同步一张大表,数据总量大概三千多万,接近四千万的样子,当遇到这种数据量的时候,综合考虑之后,当前比较流行的框架都不能满足于生产需求,使用框架对性能的损耗过于严重,所以有了以下千万级数据量的插入方案
张音乐
·
2020-08-05 01:05
千万级数据量批量插入
原生
HAWQ取代传统
数仓
实践(七)——维度表技术之维度子集
有些需求不需要最细节的数据。例如更想要某个月的销售汇总,而不是某天的数据。再比如相对于全部的销售数据,可能对某些特定状态的数据更感兴趣等。此时事实数据需要关联到特定的维度,这些特定维度包含在从细节维度选择的行中,所以叫维度子集。维度子集比细节维度的数据少,因此更易使用,查询也更快。有时称细节维度为基本维度,维度子集为子维度,基本维度表与子维度表具有相同的属性或内容,称这样的维度表具有一致性。一致的
wzy0623
·
2020-08-04 22:29
BI
HAWQ取代传统
数仓
实践(八)——维度表技术之角色扮演维度
单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每个外键表示不同的日期维度视图,这样引用具有不同的含义。这些不同的维度视图具有唯一的代理键列名,被称为角色,相关维度被称为角色扮演维度。当一个事实表多次引用一个维度表时会用到角色扮演维度。例如,一个销售订单有一个是订单日期,还有一个请求交付日期,这时就需要引
wzy0623
·
2020-08-04 22:29
BI
千亿
数仓
第四章(指标计算_订单分析地域、分类维度分析业务开发)
2订单分析地域、分类维度分析业务开发总结需求1:ads数据都来源于dw,DW层数据都来源于ods。ads一张表存储了18个需求的所有数据2.1需求分析集团总公司分为很多的分公司(销售事业部)为了公司的经营需要,公司需要定期检查各个分公司的经营指标完成情况,运营部门提出数据分析需求:交易金额交易笔数微信交易笔数支付宝交易笔数维度如下:商品分类行政区域要求:最终可以根据不同大区、不同城市、
大数据666
·
2020-08-04 17:50
千亿项目
数据仓库介绍与实时
数仓
案例
1.数据仓库简介数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据
taskctl2012
·
2020-08-04 16:00
数据仓库
实时
华为云GaussDB(DWS)内存知识点,你知道吗?
此次博文主要向大家分享一些华为云
数仓
GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断。
华为云
·
2020-08-04 13:06
技术交流
华为云
GaussDB
数据库
内存
DWS
MVC + EFCore 项目实战 -
数仓
管理系统9 - 数据源管理完结篇
我们完成数据源管理的剩余部分:点击表名,预览表中数据。我们需要完成的是下图的方框部分。考虑到这块以后可能复用,我们将她独立出来,做成viewcomponent.新建viewcomponent框架因为前面多次出现过viewcomponent的使用,分三步:建立类文件(WidgetTableViewComponent.cs)、建立视图文件、调用。详细步骤不再展开。详解1、类文件WidgetTableV
我们的征途是星辰大海
·
2020-08-04 09:00
MVC + EFCore 项目实战 -
数仓
管理系统9 - 数据源管理完结篇
我们完成数据源管理的剩余部分:点击表名,预览表中数据。我们需要完成的是下图的方框部分。考虑到这块以后可能复用,我们将她独立出来,做成viewcomponent.新建viewcomponent框架因为前面多次出现过viewcomponent的使用,分三步:建立类文件(WidgetTableViewComponent.cs)、建立视图文件、调用。详细步骤不再展开。详解1、类文件WidgetTableV
MiroYuan
·
2020-08-04 09:00
数仓
理论简述
数仓
理论简述1表的分类1.1实体表实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。1.2维度表维度表,一般是指对应一些业务状态,编号的解释表。也可以称之为码表。
Lan_xuaner
·
2020-08-04 07:48
hive
笔记
数仓
分层
数据仓库和数据仓库分层1数据仓库的概念数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库,并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准备包括对数据的:清
心 若止
·
2020-08-04 07:04
数据仓库
数仓分层
pandas 日期计算(格式转换、单位相关)
背景因工作需要,从hive
数仓
里面下载了一份数据,需要计算在优惠券生命周期内用券的用户树。数据样式如下:df_coupon=pd.read_excel(r'..
Twopence
·
2020-08-04 06:12
pandas
日期计算
数仓
之基础架构
转自:http://blog.csdn.net/zyj8170/article/details/52920021数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(DecisionSupport)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的
hankl1990
·
2020-08-04 05:33
数据仓库
DB、DW、DM、ODS、OLAP、OLTP和BI的概念理解
今天特地查了一些官方解释和很多优秀的博客文章,将关于
数仓
方面的一些名词理解记了下来,先将这些简称做一个解释:1、DB(DataBase):数据库,一般指的就是OLTP数据库,在线事物数据库,用来支持生产的
大数据技术与架构
·
2020-08-04 03:38
华为云GaussDB(DWS)内存知识点,你知道吗?
此次博文主要向大家分享一些华为云
数仓
GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断。
华为云开发者社区
·
2020-08-03 22:20
华为云
数据库
内存
dwz
数据
奈学教育《大数据开发工程师》课程大纲
数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时
数仓
项目
naixuejiaoyu
·
2020-08-03 20:59
大数据
传统数据仓库与大数据平台下的数据仓库
我在之前的数据仓库基础入门中写过,数据仓库技术在大数据背景下发生了很多改变,我粗糙的把数据仓库分成传统数据仓库和大数据数据仓库,其区别主要数
数仓
数据存储的地方不同,传统
数仓
数据存储在mysql等关系型数据库上
我爱听听力
·
2020-08-03 15:36
数据仓库
华为云GaussDB(DWS)内存知识点,你知道吗?
此次博文主要向大家分享一些华为云
数仓
GaussDB(DWS)内存的基本框架以及基本视图的使用,以便遇到内存问题后可以有一个基本的判断。
华为云开发者社区
·
2020-08-03 14:00
【社招】快手_数据仓库_面试题整理
实时流和离线计算两条线
数仓
输入(客户端日志,服务端日志,数据库)传输过程(flume,kafka)
数仓
输出(报表,画像,推荐等)2你在工作中都负责哪一部分3spark提交一个程序的整体执行流程包括向yarn
波波菜鸟
·
2020-08-03 07:49
面试题整理
下一代企业级云上数据分析服务:Data Lake Analytics
0.DataWarehouseVSDataLake0.1传统
数仓
数据来源于各类云数据存储、NoSQL和关系型数据库等系统,比如OSS、TableStore、NAS、云HBase、RDS、PolarDB等
weixin_34417635
·
2020-08-03 07:15
dataocean平台用继承spark的python脚本来实现抓取es数据到hive
在大数据生态里,ES作为一个极致搜索平台,可依据json格式快速在线查询过滤以及修改数据,由于json数据是半结构化数据,所以从hive
数仓
数据交换到es很简单,但是从es交换到hive就需要对应字段切分
江楼月美人
·
2020-08-03 02:51
大数据弄潮儿
ETL
Python与算法
5个让IT开发效率提高200%的工具,最后一个很实用,你用过几个
即使在技术变化最快的互联网行业,阿里也是经历了数据库、
数仓
和数据平台的沉淀,再
Leo.yuan
·
2020-08-02 20:13
数据库
java
大数据
python
可视化
大数据项目之电商数据仓库简介
1.
数仓
分层1.1为什么要分层ODS:关系建模DWD:数据清洗,过滤脏数据(去空值,把不符合要求的数据过滤),把数据分类,给某些数据添加必要字段。
热情散尽
·
2020-08-02 16:29
大数据
hive
数仓
存在的意义价值及分层的好处
数据仓库有4个基本特征:面向主题的、集成的、相对稳定的、记录历史的,而数据仓库的价值正是基于这4个特征体现的:1、高效的数据组织和管理面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。2、时间价值数
BabyFish13
·
2020-08-02 15:16
数仓理论相关
DataWarehouse
数仓
项目总结
项目分点:集群规模:(12台物理机:128G内存,8T机械硬盘,2T固态硬盘,20核40线程,戴尔4万多一台)框架结构,画出来(日志部分:日志服务器,落盘日志,flume,kafka,hdfs,hive,mysql业务数据部分:mysql-sqoop-hdfs-hive)3.框架:(一)Flume(留了问题:flume,take出小文件怎么处理,可以根据时间10min一次,或者128M一次落盘。)
UU砖头
·
2020-08-02 15:38
大数据开发知识
数据仓库的项目的概况
我准备选择一个线上的互联网公司根据公司所产生的埋点日志数据和业务数据做
数仓
项目3.项目中主要开发哪些模块?分别有什么用途?
北京小峻
·
2020-08-02 14:50
数仓
基础概念理解
以下观点仅代表个人,有错误的地方还请指出,共同交流
数仓
概念数据仓库的定义面向主题的、集成的(数据仓库会将不同源数据库中的数据汇总到一起)、与时间相关且不可修改的数据集合。
-天翊
·
2020-08-02 14:08
应用案例 | 美团点评基于 Flink 的实时
数仓
建设实践
本文是美团技术团队分享的美团点评基于Flink的实时
数仓
建设实践,ApacheFlink社区公众号(Ververica)授权转载,文章主要从常见实时数据组件的性能特点和适用场景以及美团通过Flink构建实时数据仓库的过程分享其经验
weixin_33924312
·
2020-08-02 14:29
Hive-1
数仓
和Hive基本概念
数仓
和Hive基本概念
数仓
基础知识
数仓
基本概念
数仓
特点
数仓
和数据库的主要区别OLTP和OLAP数据仓库的分层架构数据仓库分层的目的
数仓
的三层架构
数仓
的四层架构ETLHive概念Hive和数据库的区别Hive
爱吃甜食_
·
2020-08-02 12:39
Hive
云原生HSAP系统Hologres产品价值解读
主要分享主流实时
数仓
架构以及其实践的痛点,与云原生HSAP系统创新的价值。演讲嘉宾简介:阿里云计算平台-交互式分析团队产品经理——李姗姗(花名:柔惠)以下内容根据演讲视频以及PPT
阿里云hologres
·
2020-08-01 11:10
大数据
实时计算
flink
阿里云
数据仓库
hive
数仓
建立时间维表
目录1.首先利用python中的datetime模块获取到我们想要的日期2.接着将获取到的日期加载到hdfs中1)建立存放日期的预处理表2)将数据导入预处理表中3.通过sql处理获得我们想要的维表1)新建时间维表2)sql处理并写入时间维表3)检验数据结果1.首先利用python中的datetime模块获取到我们想要的日期importdatetime#现在的时间now=datetime.datet
IT届的井柏然
·
2020-08-01 10:49
hive
数据仓库之数据质量管理思路
一、数据质量管理问题源端业务系统数据库---->数据仓库中间有可能丢数据:100条(源端)90条(
数仓
)中间有可能多数据:90条(源端)100条(
数仓
)不丢数据:200条(源端)200条(
数仓
)二、数据质量管理
吃货大米饭
·
2020-08-01 10:27
拉链表的设计-订单
数仓
之-拉链表的设计拉链表设计图:1、创建数据库createdatabaseods;createdatabasedwd;2、在ods层中创建订单表2.1、创建ods的订单表初始表(相当于是从mysql出来数据的
引领时尚S
·
2020-08-01 07:15
大数据
一套 SQL 搞定数据仓库?Flink有了新尝试
目前企业的
数仓
建设大多是离线一套,实时一套。业务要求低延时的使用实时
数仓
;业务复杂的使用离线
数仓
。架构十分复杂,需要使用很多系统和计算框架,这就要求企业储备多方面的人才,导致人才成本较高,且出了问题难
Ververica
·
2020-08-01 06:06
上一页
67
68
69
70
71
72
73
74
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他