E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
基于 Hudi 和 Kylin 构建准实时高性能数据仓库
在近期的ApacheKylin×ApacheHudiMeetup直播上,ApacheKylinPMCChair史少锋和Kyligence解决方案工程师刘永恒就Hudi+Kylin的准实时
数仓
实现进行了介绍与演示
Kyligence
·
2020-06-28 21:42
Apache
Kylin
使用技巧
年中总结之最后我们都成为了过往
—遇见做完了KingSight的交接工作,只身走向DW(
数仓
)。
weixin_38166931
·
2020-06-28 20:56
kudu操作
2.速度快,我自己的感觉使用kudu拉取数据流很快,所以kudu定位是实时
数仓
。3.数据库设
玄尺
·
2020-06-28 20:04
数据库
数据仓库介绍与实时
数仓
案例
案例与解决方案汇总页:阿里云实时计算产品案例&解决方案汇总PPT见附件1.数据仓库简介数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,
weixin_34391854
·
2020-06-28 18:18
如何为Apache Kylin快速开发新数据源?
同时,随着越来越多的企业用户期望把传统
数仓
、数据库的数据也接入ApacheKylin做分析,从ApacheKy
SimminonGarcia
·
2020-06-28 10:18
上亿条数据,如何查询分析简单又高效?
数据孤岛:电商部门的数据存在
数仓
A、门店经营收入数据存在
数仓
B,如何便捷的进行多仓联合分析?PB级数据量:多电商平台+全国线下门店每天将产生TB级数据量,年数据量高达PB级!
华为云开发者社区
·
2020-06-28 10:00
一篇万字长文讲清如何做数据治理
2019独角兽企业重金招聘Python工程师标准>>>干货:解码OneData,阿里的
数仓
之路。
weixin_34015566
·
2020-06-28 09:57
Kylin中cube优化
前言ApacheKylin在中企的使用主要在新
数仓
系统以及BI报表的数据计算工作,带来的变化有:一方面Kylin帮助我们提升了开发效率,减少了开发人员需要手动编写HQL/SQL语句去查询维度数据的状况;
weixin_33819479
·
2020-06-28 06:18
OPPO 数据中台之基石:基于 Flink SQL 构建实数据仓库
本文主要内容如下:OPPO实时
数仓
的演进思路;基于FlinkSQL的扩展工作;构建实时
数仓
的应用案例;未来工作的思考和展望。一.OPPO实时
数仓
的演进思路1.1.OPPO业务
weixin_33738555
·
2020-06-28 04:42
视频教程-Flink1.8实时
数仓
项目实战-大数据
Flink1.8实时
数仓
项目实战10年一线开发及项目管理经验,6年以上大数据项目架构、实施、开发与运维经验,骨灰级大数据玩家,对Hadoop、Storm、Spark、Flink、Kylin、Druid等大数据技术有较深研究
weixin_33422798
·
2020-06-28 03:11
kafka
离线
数仓
中也用到。
weixin_32229529
·
2020-06-28 02:24
大数据
数仓
1.1 | 概述| 集群环境搭建
宏观上;模块调用关系图复杂问题简单化;清晰数据结构;1天数据1层1.数据仓库DW数据来源:爬虫日志采集系统业务数据财务系统数据去向:报表系统、用户画像、推荐系统、机器学习、风控系统项目需求分析①数据采集平台搭建②实现用户行为数据仓库的分层搭建③实现业务数据仓库的分层搭建④针对数据仓库中的数据进行,留存、转化率、GMV(每天交易额)、复购率、活跃等报表行为;项目框架技术选型采集:方式一:log日志-
weixin_30752699
·
2020-06-28 00:03
你需要的不是实时
数仓
| 你需要的是一款强大的OLAP数据库(下)
在上一章节中,我们讲到实时
数仓
的建设,互联网大数据技术发展到今天,各个领域基本已经成熟,有各式各样的解决方案可以供我们选择。
weixin_30726161
·
2020-06-28 00:17
你需要的不是实时
数仓
| 你需要的是一款合适且强大的OLAP数据库(上)
前言今年有个现象,实时
数仓
建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库的文章和方案。但是对于实时
数仓
的狂热追求大可不必。
weixin_30726161
·
2020-06-28 00:17
电商
数仓
项目系列一:数据仓库简介
一、
数仓
定义数据仓库顾名思义就是存储数据的仓库,不同于业务数据库用作业务支撑,数据仓库是分析系统最核心的组成部分,使用这些数据为我们的报表分析(各种销售指标),广告推广(在什么地方、什么渠道投放广告),
我能想到的
·
2020-06-27 13:57
大数据
大数据离线计算:Hive 与数据仓库从入门学习到精通企业开发
我坚信这是全网最完整和最实用的Hive与
数仓
教程。内容概要:
数仓
介绍数据仓库的模型与分级;企业中数据仓库建模开发步骤;阿里京东苏宁等企业
数仓
模型剖析;企业级数据仓库建模与开发演示Hive要点
GitChat的博客
·
2020-06-27 11:03
实时
数仓
| 你需要的是一款强大的 OLAP 引擎
在开源盛世的今天,实时
数仓
的建设业界已经有了成熟的方案。技术选型上实时计算、消息队列都有最优解,唯独在OLAP领域,百家争鸣,各有所长。
GitChat的博客
·
2020-06-27 10:28
Hive建表时指定分隔符或使用多字符分隔
不知道你是否会有会这样的苦恼,就是从hdfs或者file中导入数据到Hive建
数仓
的时候,因为数据是数据流前段的小GG用特殊符号分隔的,然后导致你导入数据时一脸蒙圈?这篇教程可能会帮到你。
Agtmwgam
·
2020-06-27 06:27
Hive
Debezium:数据实时采集从Postgresql到Kafka
目的:构建基于hbase的实时
数仓
解决的问题:RDBMS到Hbase的数据实时采集方法:Postgresql----->Debezium----->Kafka------>Sparkstreaming-
TracyGao01
·
2020-06-27 04:24
Debezium
kafka
Debezium
Postgresql
Debezium:kafka 连接器配置
目的:构建基于hbase的实时
数仓
解决的问题:RDBMS到Hbase的数据实时采集方法:Postgresql----->Debezium----->Kafka------>Sparkstreaming-
TracyGao01
·
2020-06-27 04:52
Debezium
kafka
Debezium
Postgresql
spring boot中动态增加数据源并且通过sharding-jdbc做分库分表查询
最近项目中需要通过
数仓
对接数据出去,需要手动写一些查询,需要支持分库分表的场景,所以就选择了googleguava做内存缓存,通过redis做持久化缓存,通过sharding-jdbc实现跨表查询一下贴的是几个主要的类
深夜奶爸
·
2020-06-27 04:28
spring
boot
hive数据仓库中的建模方式,为什么选择这种建模方式?
要对建模深入理解,首先需要对hive
数仓
中的几种表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。
ali8088
·
2020-06-27 00:21
hive
案例:恒丰银行——大数据实时流处理平台
2016年1月完成了传统数据仓库向大数据平台数据仓库的迁移,以新的数据仓库平台为基础,结合行内的通用文件传输平台、统一调度平台,规范了源数据系统的数据报送,梳理构建了新的数据模型,大数据平台解决了传统
数仓
在批量数据处理能力的不足
mishidemudong
·
2020-06-26 21:09
分布式计算
分布式架构设计
从工作场景说说商业分析师的门槛
咨询和沟通能力1.分析师在数据的节点上,有较高的知情度,有各方(产品、运营、
数仓
)没有的视角,有时会要充当一个梳理者的角色,厘清复杂的问题。2.数据需求总是来源并依附于一个业务问题。
那弟
·
2020-06-26 20:22
数据中台与数据仓库的区别?
数据中台从某个意义来说属于
数仓
的一种,都是要把数据抽进来建立一个数据仓库。但是两者的数据来源和建立
数仓
的目标以及数据应用的方向都存在很大差异。
天地不仁以万物为刍狗
·
2020-06-26 19:58
数据中台
大数据平台与传统
数仓
的区别
基于关系数据库的传统
数仓
➢基本特点•数据源:关系数据库(如Oracle、DB2、MySQL等)•数据仓库和数据集市:关系数据库或MPP(如Teradata、Vertica、Greenplum)•数据类型
sundehui01
·
2020-06-26 15:02
大数据
多易教育项目视频大纲文档
综合项目-模块1-数据仓库-day0101.项目开发前置知识--git版本管理--gitee码云-提交-拉取-分支操作.wmv02.项目背景介绍.wmv03.项目背景介绍(2).wmv04.项目模块1-
数仓
介绍
sinat_40775402
·
2020-06-26 12:50
公司博文
[多易教育]《综合项目:模块1--
数仓
系统》视频更新到2.0版
各位企业工作学员,《综合项目模块1–
数仓
系统》视频已更新到2.0版,请点此链接https://www.bilibili.com/video/av74877995。
sinat_40775402
·
2020-06-26 12:49
公益普及
数仓
数仓建模
大数据
多易教育
广告分析
《Building the Data Warehouse》(数据仓库 第四版)拆书稿-关系模型(3NF范式建模)重要知识点
拆书稿:《BuildingtheDataWarehouse》(数据仓库第四版)最近复盘数据仓库的相关技术,在网上搜了好多关于
数仓
的帖子,看完之后就是感觉有肉无血,串不起来。
resin_404
·
2020-06-26 05:45
数据仓库理论
数据仓库入门基础-1-漫谈
数仓
从传统
数仓
到互联网
数仓
,有很多相似点也
任乌拉
·
2020-06-26 05:10
数据仓库
千亿级
数仓
项目第一章
千亿级
数仓
项目总体介绍
数仓
:数据仓库数据集市阶段一项目背景介绍阶段二准备数据(Mysql->Hive)Kettlesqoop阶段三数据仓库理论+实战阶段四编写SQL实现以下业务分析,并按照数据仓库结构存出结果基于日期的订单指标分析
大数据666
·
2020-06-26 04:16
千亿项目
数仓
数据库的事实表跟维度表FactTable:Afacttabletypicallycontainsthebusinessfactdatasuchassalesamount,salesquantity,thenumberofcustomers,andtheforeignkeystodimensiontables.DimensionTable:Dimensiontablescontaindetailed
宇下住一横
·
2020-06-26 03:26
数仓
数仓事实表和维度表
千亿级
数仓
_项目总结
文章目录项目流程技术选型数据存储数据同步计算模型结果存储kylin加速查询项目流程1、原始数据在mysql存储2、使用kettle将数据在mysql同步到数据仓库(hive),同步分为全量同步+增量同步=拉链表(目标:既能够保存历史的数据,又不会有数据冗余)3、数据存储到Hive,Hive内部结构:ODS:存储在数据源同步过来的数据DW:对ODS存储的数据进行过滤、填充,预计算,以及数据的拉宽。(
千千匿迹
·
2020-06-26 03:35
Kylin
kylin离线
数仓
开发
文章目录基于Kylin开发Ads层项目需求介绍业务开发全国、无商品分类维度的交易信息全国、一级商品分类维度交易信息基于Kylin开发Ads层项目需求介绍因为业务需要,公司运营部门,希望随时能够自己编写SQL语句,快速获取到不同维度数据的指标,故基于KylinOLAP分析平台,搭建快速OLAP分析平台。业务开发开发步骤:1、创建itcast_shop项目2、导入dw层宽表数据3、创建数据模型4、创建
千千匿迹
·
2020-06-26 03:35
Kylin
kylin_大数据
数仓
项目-点击流分析
文章目录用户行为日志1日志数据格式2数据仓库-ETL处理点击流概念点击流模型pageviews点击流模型visit3数据入库1.创建ODS层数据表1.1.原始日志数据表1.2.点击流模型1.3.点击流visit模型表用户行为日志1日志数据格式日志数据内容样例f5dd685d-6b83-4e7d-8c37-df8797812075222.68.172.190--2018-11-0114:34:57"
千千匿迹
·
2020-06-26 03:35
Kylin
Hive
数仓
相关概念总结
Hive的基本介绍1、hive产生的原因·a)方便对文件及数据的元数据进行管理,提供统一的元数据管理方式b)提供更加简单的方式来访问大规模的数据集,使用SQL语言进行数据分析2、hive是什么?TheApacheHive™datawarehousesoftwarefacilitatesreading,writing,andmanaginglargedatasetsresidingindistrib
双椒叔叔
·
2020-06-25 13:42
Hive
数据中台和大数据数据仓库的区别
看了很多数据中台的介绍,感觉和传统
数仓
有一些区别,但是和大数据数据仓库的几乎无区别。
qq_37301790
·
2020-06-25 12:11
简述hive的架构
一般做
数仓
进行脚本开发都是通过hive与beeline进行开发,当然也有spark-sql。2、hive-webui:这个本人目前没用过,但是HUE组件是可以通过WEBUI对hive进行操作。
走在路上的大神
·
2020-06-25 11:22
HIVE
葵花宝典--可视化报表Superset
由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为
数仓
的可视化工具。
张薄薄
·
2020-06-25 07:17
大数据
Flink实时
数仓
---1,Flink SQL读取kafka实操,已经遇到的问题.....持续更新吧
1,第一步很重要就是依赖的问题,因为是本地执行,所以最好有hadoop配置环境,没有的话会提示错误信息,自己百度一下,自己下载个winutils.exe,然后配置环境变量2,为了图方便直接贴上pom文件依赖(自己看哈,就是hive跟hadoop的依赖):4.0.0pijiuyaFlinkExample1.0-SNAPSHOT1.10.0org.apache.flinkflink-java${fli
黄瓜炖啤酒鸭
·
2020-06-25 05:32
Flink
实时数仓总结
大数据项目之电商
数仓
(用户行为数据仓库)
第1章
数仓
分层概念1.1为什么要分层1.2分层结构图数据分层原理1、ODS层(原始数据层)原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理。
魔法 • 革
·
2020-06-25 05:42
大数据项目之电商
数仓
(用户行为数据采集)
第1章数据仓库概念第2章项目需求2.1项目需求分析2.2项目框架2.2.1技术选型2.2.2系统架构图设计2.2.3系统数据流程设计2.2.4框架版本选型产品版本Hadoop2.7.2Flume1.7.0Kafka0.11.0.2KafkaManager1.3.3.22Hive1.2.1Sqoop1.4.6Mysql5.6.24Azkaban2.5.0Java1.8Zookeeper3.4.10注
魔法 • 革
·
2020-06-25 05:42
实时
数仓
和离线
数仓
2.
数仓
和数据库的区别3.大数据技术栈4.
数仓
的分层5.离线
数仓
架构和实时
数仓
架构离线
数仓
架构实时
数仓
架构对比6.
数仓
架构发展Lambda架构Kappa架构7.实时
数仓
建设案例8.实时
数仓
建设1.什么是大数据平台
大数据AI笔记
·
2020-06-25 04:58
大数据
MySQL数据 实时同步到Kafka --Binlog canal、Maxwell、Kafka Connect 实现MySQL增量同步
一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析,使用过程中也带来了一些问题:虽然Sqoop支持增量同步但还属于粗粒度的离线同步,无法满足下游
数仓
实时性的需求
曹雪朋
·
2020-06-25 01:05
大数据项目实战
kafka
继续排坑(一,
数仓
统一规则)
在做数据仓库的时候,最关键、最首要的工作就是导数据!导数据的时候,最关键、最首要的工作就是数据统一规则!1、空数据2、字符串中空数据3、脏数据4、字段名统一5、字段类型统一...这里要讲的是两个坑:one:第一个坑比较常见,就是第五个统一规则里面出来的,1)mysql的字段类型是tinyint(1),在用sqoop导数的时候,连接数据库就要有设置tinyInt1isBit=false,2)mysq
challengedream
·
2020-06-25 01:56
数据
sqoop
上海久耶基于 HBase 实时
数仓
探索实践
文章从六个方面介绍,首先是久耶第一代离线
数仓
以及第二代实时
数仓
。接下来介绍下公司业务场景和业务开发,基于HBase的开发流程,然后公司CDH集群调优监控,最后分享两个生产案例。
qianshanding0708
·
2020-06-24 21:10
Flink 1.10 SQL、HiveCatalog与事件时间整合示例
这两点将会为我们构建实时
数仓
提供很大的便利。添加依赖项示例采用Hive版本为1.1.0,K
LittleMagics
·
2020-06-24 16:04
记一次 蚂蚁金服 数据仓库 岗位面试经历
导读:本文将带你一起走进蚂蚁金服大数据
数仓
面试。文末加群,即有机会与作者『潇傲江湖』群内沟通,高手对决。
仙子紫霞
·
2020-06-24 14:37
面试经验
数据仓库
数据仓库(《数据仓库工具箱:纬度建模权威指南》)
===重要章节(1、2、4、18、19、20、21)1.数据治理1.1
数仓
基本概念-元数据-纬度表描述具体事物信息的记录,例如物品、人员信息、商品信息等-事实表生产、活动产生的记录信息,例如购物记录、旅行记录等
星宫社
·
2020-06-24 12:13
数据库
bigdatanode
2020-03-23
商
数仓
第1章
数仓
分层概念1.1为什么要分层1.2
数仓
分层1.3数据集市与数据仓库概念1.4
数仓
命名规范ØODS层命名为odsØDWD层命名为dwdØDWS层命名为dwsØADS层命名为adsØ临时表数据库命名为
Yp20
·
2020-06-24 12:54
笔记
上一页
73
74
75
76
77
78
79
80
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他