E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
Nexmark: 如何设计一个流计算基准测试?
背景随着数据时效性对企业的精细化运营越来越重要,“实时即未来”、“实时
数仓
”、“数据湖”成为了近几年炙手可热的
ApacheFlink
·
2020-10-09 13:13
flink
基于 Flink + Hive 构建流批一体准实时
数仓
基于Hive的离线
数仓
往往是企业大数据生产系统中不可缺少的一环。Hive
数仓
有很高的成熟度和稳定性,但由于它是离线的,延时很大。
ApacheFlink
·
2020-10-09 13:40
flink
多数据源一站式入湖
为统一的数据分析打好了基础.背景数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog增量数据、日志数据以及已有
数仓
上的存量数据等
阿里云云栖号
·
2020-10-09 13:59
bootstrap
多数据源一站式入湖
为统一的数据分析打好了基础.背景数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据,数据来源上包含数据库数据、binglog增量数据、日志数据以及已有
数仓
上的存量数据等
阿里云云栖号
·
2020-10-09 13:58
bootstrap
阿里巴巴电商搜索推荐实时
数仓
演进之路
简介:自建实时
数仓
到底难在哪里?实时
数仓
应该怎么建?
阿里云云栖号
·
2020-10-09 13:58
bootstrap
阿里巴巴电商搜索推荐实时
数仓
演进之路
简介:自建实时
数仓
到底难在哪里?实时
数仓
应该怎么建?
阿里云云栖号
·
2020-10-09 13:57
bootstrap
腾讯看点基于 Flink 的实时
数仓
及多维实时数据分析实践
当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本文将介绍信息流场景下,腾讯看点的实时数据仓库和多维实时数据分析系统的技术架构。1、可解决的痛点可以先看一下,多维实时数据分析系统可以解决哪些痛点
ApacheFlink
·
2020-10-09 13:39
flink
社区活动 | Apache Flink Meetup·深圳站,锁定 Flink 最佳实践
9月26日,来自阿里巴巴、英特尔、顺丰、腾讯的四位技术专家与你分享Flink最新企业应用实践,以及与时下热门的数据湖、
数仓
、社区生态的结合有哪些新进展。活动亮点:独
ApacheFlink
·
2020-10-09 13:43
flink
技本功|Hive优化之Spark执行引擎参数调优(二)
Hive是大数据领域常用的组件之一,主要是大数据离线
数仓
的运算,关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点,因此掌握一些Hive调优是必不可少的一项技能。
云掣科技
·
2020-10-09 12:10
大数据
hive
spark
基于 Flink + Hive 构建流批一体准实时
数仓
简介:想要搭建流式链路就必须得抛弃现有的Hive
数仓
吗?并不是,借助Flink可以实现已有的Hive离线
数仓
准实时化。
阿里云云栖号
·
2020-10-09 12:10
javascript
基于 Flink + Hive 构建流批一体准实时
数仓
简介:想要搭建流式链路就必须得抛弃现有的Hive
数仓
吗?并不是,借助Flink可以实现已有的Hive离线
数仓
准实时化。
阿里云云栖号
·
2020-10-09 11:37
我是程序员
云栖号技术分享
大数据
编程语言
hadoop
[Aliyun] 实时
数仓
Hologres Demo01实时计算实时写入数据至Hologres
部分内容直接摘抄阿里官网作为背景和概述:背景在实时数据业务场景中,最常见的链路是将实时采集的数据,通过实时计算初步清洗,实时写入数据至数据库,再对接BI工具实现数据的可视化分析。数据处理流程如下图所示。整个业务链路中,要求数据库提供高性能的计算服务,存储海量数据,同时对接多种BI分析工具。单一的数据库很难实现以上所有功能,您必须借助其他数据库的相关能力完成业务流程。在导入导出数据时会产生冗余存储,
栗子哥
·
2020-10-05 00:06
ali
aliyun
hologres
云数据库DaaS
MongoDB数据增量同步到Hive(方案一通过BSON文件映射)
一、背景随着monggo中数据量越来越大,全量同步到
数仓
,已不太现实,考虑增量同步的方式,我们在探索增量同步的过程中,方案不断在改进优化,这里记录一下我们mongo增量同步的变迁史吧二、方案一,通过BSON
杨杨_f97a
·
2020-09-30 10:33
基于Flink+ClickHouse打造轻量级点击流实时
数仓
关于两者的优点就不再赘述,本文来简单介绍笔者团队在点击流实时
数仓
方面的一点实践经验。点击流及其维度建模所谓点击流(clickstream),就是指用户访问网站、App等Web前端时
LittleMagics
·
2020-09-27 23:05
大数据
java
数据库
分布式
flink
传统
数仓
和大数据
数仓
的区别是什么?
这是我的第58篇原创一个圈里的朋友问,有很多传统
数仓
的朋友想转型大数据
数仓
,不知道该怎么办。问我能不能给讲讲课。准备一个课比较费劲,主要是得非常系统的讲。我这样日更,已经把所有的时间都占满了。
大数据架构师Evan
·
2020-09-26 20:00
数据仓库
数据库
大数据
hadoop
storm
网易严选打造
数仓
规范和评价体系实践
作者|乙峰,严选
数仓
交易域负责人原载|严选技术团队公众号数据为王的时代,数据量从最初的几十G,慢慢沉淀
NetEaseResearch
·
2020-09-25 11:59
大数据
数据仓库
数据建模
大数据
Hive SQL调优,distict去重效率竟然比group by高?union该如何优化?
这几天因为做
数仓
,写完SQL后总觉得自己写的SQL又臭又长,是不是应该好好优化下,于是还专门为此重新2本书,才看了没多少,就打破了自己原来对调优的认知。
后来X大数据
·
2020-09-18 09:42
hive
hive
大数据
分布式
hadoop
sql
网易实时
数仓
实践与展望
从智能商业的角度来讲,数据的结果代表了用户的反馈,获取结果的及时性就显得尤为重要,快速的获取数据反馈能够帮助公司更快的做出决策,更好的进行产品迭代,实时
数仓
在这一过程中起到了不可替代的作用。
qianshanding0708
·
2020-09-17 12:27
可视化
大数据
编程语言
hadoop
java
数据中台
为了解决:传统
数仓
对业务系统支持不够友好,不支持计算模块。
hzp666
·
2020-09-17 07:48
数据库
其他
PRD
数据中台
数据仓库
数据平台
linux系统下面所有命令都失效了,显示bash: xxxxx: command not found...
问题最近在给搭建
数仓
的时候,在安装一些软件,然后使用linux各种命令就都不好使了。解决思路这种情况,一般都是自己在安装软件修改环境变量的时候,环境变量写错了,导致整个系统都找不到各种命令的位置。
liwenjie001i
·
2020-09-17 05:42
笔记
linux
linux
数据中台实践手记——数据体系搭建
数据体系搭建步骤业务板块->数据域->事实表->数据同步(ELT)梳理业务
数仓
的数据流程图业务表结构梳理业务
数仓
分层规划资源准备(MaxCompute、DataWorks、RDS等)配置任务ODS(hive
Virgil_Ye
·
2020-09-17 00:49
统计业务
大数据应用
数据库
数据中台
阿里云
实时
数仓
技术
1.实时
数仓
建设
cutwind
·
2020-09-16 22:16
SQL
数据仓库
flink
kafka
实时数据
直播预告 | 乘云而上:云原生数据仓库AnalyticDB
趋势1.传统架构趋弱,云
数仓
兴起。
Enmotech
·
2020-09-16 02:39
数据仓库
数据库
大数据
编程语言
阿里云
Flink通过异步IO实现redis维表join
使用flink做实时
数仓
的公司越来越多了,浪尖这边也是很早就开发了一个flink全sql平台来实现实时
数仓
的功能。说到实时
数仓
,两个表的概念大家一定会知道的:事实表和维表。
大数据星球-浪尖
·
2020-09-15 23:33
flink实时
数仓
(九):增量同步mysql中数据
文章目录数据库中配置流表jdbc工具类枚举类CodeEnumFlowStatusEnumHBaseStorageModeEnum配置类bean对象flink状态类编程MD5加密Hbasesink模板数据库中配置流表CREATETABLE`dbus_flow`(`flowId`int(11)NOTNULLAUTO_INCREMENTCOMMENT'自增ID',`mode`int(11)NOTNULL
_尽_际
·
2020-09-15 20:56
flink实时数仓项目
Apache Doris在美团外卖
数仓
中的应用实践
本文将介绍Doris在美团外卖
数仓
的实践。序言本文侧重于以Doris引擎为“发动机”的
数仓
生产架构的改进与思考。
zl1zl2zl3
·
2020-09-15 16:57
美团
美团
数据仓库
Hive
数仓
筛选出2秒内可能重复下单的订单id列表
背景:因为弱网缘故,公司的业务系统对下单的防重处理没有完全防住,导致了可能出现重复单情况。面对海量订单人工进行全部排查十分困难且是不现实的,所以在此背景下,基于全量数据,写了一个HiveSQL来筛选出可能重复订单数据。然后再对指定订单id查询订单明细进行人工确认即可找出准确的重复单,再进行操作(可能退掉其中一单)。--同一门店、同一商品金额,下单时间相差2秒内的订单idsselectshop_id
csdn-延
·
2020-09-15 14:32
hive
大数据
sql
大数据
hive
订单
防重
hadoop
数据仓库简介-ODS、DW和DM概念区分
数仓
的数据来源一般有:日志采集系统、业务系统数据库、爬虫系统等。通过对数据仓库中的数据进行分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。举例:对于一个电商App,数据显示对于进入支付页面
AI二师兄
·
2020-09-15 06:43
数据仓库
ods
数据仓库
dw
数仓
之ods与dw的区别
背景知识:在当今这样一个信息技术发展迅速的时代,数据量也在不断的增长,面临这样的压力,总是会有大神提出一些解决方案。比如高层管理人员希望能查看整个公司的发展业绩,数据仓库(DataWarehouse,DW)正是解决该问题的主要方案,随之DW就这样产生了。可是时代在变,需求也会随着改变,比如保险公司的员工希望提高自己的业绩,拿更多的工资,那么他首先希望的就是能把更多的客户挖进来,其实这其中是有很多方
冷雨夜下的星空
·
2020-09-15 06:29
数仓
课堂笔记
实时
数仓
搭建和flink分析Day02昨日回顾了解实时
数仓
的整体背景/涉及技术/业务主线实时
数仓
的整体架构图.使用Canal采集MySQL中的数据变更信息.使用Java开发Canal客户端.ProtoBuf
weixin_45656117
·
2020-09-15 04:18
实时数仓
课堂笔记
实时
数仓
搭建和flink分析Day01共性问题HBase里面配置的zk地址后面不能有端口号node01:2181:2181HBase的zk地址不需要自己手动添加端口号,有可能是配置文件引错了.启动的时候提示
weixin_45656117
·
2020-09-15 04:18
大数据
课堂笔记
实时
数仓
Day04昨日回顾维度数据同步:离线同步维度数据到Redis.实时同步维度数据到Redis.数据过滤进行数据落地:判断MySQL中的操作:增加/修改/删除.执行的时候,不要忘记在APP主程序中调用
weixin_45656117
·
2020-09-15 03:52
实时数仓
数仓
建设过程中DB层增量到ODS层情况解析
to_date(days_sub(NOW(),1))前一天日期背景:每5个小时抽取一次oracle里面6个小时内的数据到DB层,抽完之后,将数据增量到ODS层DB层是textfile文件表,ODS层是parquet按天dt分区的表,每个dt里面存的是增量数据,总ODS层表示一份全量数据增量过程中有两种情况,能生成唯一键和没有唯一键的情况1、对于有唯一键的数据我们操作比较简单,取ods层数据和DB层
xuyingzhong
·
2020-09-15 01:36
大数据
02_
数仓
分层问题优化
上文回顾:首先来回顾一下我们
数仓
的分层结构:ods层:ods层就是将业务库的源表,经过清洗后保存起来。当然,用户的行为日志经过结构化后,也可以放在ods层。
猪猪Jedda
·
2020-09-14 23:11
数据仓库
数仓
应用工具Hive:从底层设计窥见其优化策略
Hive介绍:官网上对Hive的介绍可以简单理解为:它是一款构建在Hadoop之上的数据仓库软件,将已存储的数据结构化(将数据库中的各个文件关联起来,形成一定的结构关系),并提供了类SQL查询语句HQL(HiveQueryLanguage)对数据进行分析处理。Hive可以自动将HiveQL语句转换成一系列成MapReduce作业并执行,二不再需要程序员手动编写MR任务(SQL如何转化为MapRed
qingdsj
·
2020-09-14 21:09
大数据
人工智能
互联网
hive
大数据
大数据开发
大数据分析
大数据学习
大数据之
数仓
--DW--Hadoop
数仓
实践Case-08-退化维度
退化维度概述退化维度,该技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。有时,维度表中除了业务主键外没有其他内容。例如,在我们的销售订单示例中,订单维度表除了订单号,没有任何其他属性,而订单号是事务表的主键。我们将这种维度称为退化维度。业务系统中的主键通常是不允许修改的。销售订单只能新增,不能修改已经存在的订单号,也不会删除订单记录。因此订单维度表也不会
非科班大数据工程师
·
2020-09-14 17:09
大数据
数据仓库灵魂30问之
数仓
有哪几种建模思想?
范式建模范式建模在实际的应用中有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)在企业范式建模中,一般追求三范式,即:属性不可分割不存在部分函数依赖不存在传递函数依赖属性不可分割假设有表如下:班级物品3年E班30张桌子3年E班30张椅子很显然这个表不符合第一范式,因为列中的数据不是原子数据项,可以再分割。修改后如下:年
寒 暄
·
2020-09-14 15:28
#
---面试题
数据仓库
数据仓库灵魂30问之
数仓
基础理念理解
主题主题是一个抽象概念,是在较高层次上将数据综合、归类并进行分析利用的抽象。每一个主题都对应一个宏观的分析领域,在实际上,每一个主题对应这个分析领域的所有的分析对象。比如销售主题对应所有和销售这个领域有关的数据。主题域主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域。比如销售主题的主题域就是这个领域有关的数据的集合。血缘关系血缘关系是指某个字段从哪个
寒 暄
·
2020-09-14 15:28
#
---面试题
数据仓库
数据质量概述及通用脚本
数据一致性
数仓
各层数据应与上一层数据一致,
数仓
指标与数据源保持一致。数据唯一性每一个事实应当只
寒 暄
·
2020-09-14 15:27
---数据质量
数据质量
数仓
理论知识之什么是度量,什么是粒度,什么是事实,什么是维度
度量度量是业务流程节点上的一个数值。比如销量,价格,成本等等。粒度粒度就是业务流程中对度量的单位,比如商品是按件记录度量,还是按批记录度量。事实在《数据仓库工具箱》一书中对事实的定义是:事实涉及来自业务过程的度量,基本都以数量值表示。一个事实表行与粒度存在一对一关系。比如上班时长表(上班时间,加班时间),上班时间可以拆分成签到时间,签退时间形成一个维度表,加班时间就是一个数值,加了几个小时的班是一
寒 暄
·
2020-09-14 15:27
#
---数仓理论知识
数据仓库
Flink SQL之维表join-----实时
数仓
https://blog.csdn.net/jmx_bigdata/article/details/107872332写的还不错~~~~~
专注于大数据技术栈
·
2020-09-14 15:36
Flink
实时数仓
维表join
SQL的规范
SQL的规范合理定义表名,
数仓
中不同层要以不同的层的名字作为开头,一般表名开头为字母注释,单行注释,多行注释,方便以后阅读--单行注释--从SomeTable中查询col_1SELECTcol_1FROMSomeTable
keepHungery
·
2020-09-14 14:50
sql
数仓
ods分区总结
表概念1.全量表:用来记录当前所有事物的最新信息,包括变化的和没有变化的.2.增量表:用来记录事务的有变化的量。只记录有变化的没有变化的不需要记录.3.快照表:快照表是有时间分区的,每个分区里面的数据都是分区时间对应的前一天的所有全量数据.4.拉链表:记录一个事物从开始,一直到当前状态的所有变化的信息.不分区保留历史数据方式以及计算影响ods层新增数据插入到原表中,这样原表中会保存所有有过变化的历
数据游戏
·
2020-09-14 09:31
大数据
hive
数仓
大数据
hive
hadoop
数仓
常用建模方法
实体建模法:根据业务与业务之间的联系建模,一般多用在业务建模和领域建模阶段,当然在没有现成可参考的建模方法我们可以采用此方法。维度建模法:紧紧围绕着业务进行多个维度的分析,大量的维度预处理帮助我们提高开发效率,减少重复开发,但是缺点也就很明显,字段冗余,且在更改业务的情况下需要重新定义维度的预处理,一般应用在逻辑建模阶段,我们主要在这里进行逻辑开发范式建模法:由inmon提出的,一般主要应用在关系
Alwaysdazz
·
2020-09-14 05:03
数仓
入门基础-5-
数仓
建模
个人博客:https://renwula.github.io/,本系列基于互联网公司
数仓
,使用hive搭建
数仓
从业中,
数仓
建模是一个
数仓
工程师需要的必备的能力,优秀的分层设计能够让整个数据体系更易理解和使用
任乌拉
·
2020-09-14 04:52
hive作为
数仓
,各个层次的存储格式
hive作为
数仓
,分为1、业务数据的
数仓
,来源于mysql2、用户行为
数仓
(日志),来源于采集系hive:ods层:用sqoop将mysql的数据导入到hdfs创建Snappy压缩格式的Parquet结构的表
qq_37301790
·
2020-09-14 04:36
数据仓库
聊聊
数仓
建模方法论
本文将通过如下几点阐述
数仓
建模方法论一什么是数据模型?二
数仓
建模历程.三为什么要数据仓库模型?四数据模型的建设能够给我们解决哪些问题?
无崖子318
·
2020-09-14 04:04
hadoop
hive
大数据
数据仓库
数仓
建模的四种方法
大数据的
数仓
建模是通过建模的方法更好的组织、存储数据,以便在性能、成本、效率和数据质量之间找到最佳平衡点。
清平の乐
·
2020-09-14 03:38
数仓设计和数据处理
浅谈
数仓
建模及其方法论
认识数据仓库1.
数仓
的定义:2.数据仓库和数据库的区别:
数仓
的发展1.简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需要的汇总数据
Sunshine_Bloom
·
2020-09-14 03:54
谈笑间学会
数仓
—全量表&&增量表
全量表全量表增量表数据包含到前一天的全量数据前一天的增量数据分区不分区(ymd为当前日期)(但是也有按天全量设计的,也叫全量表)按照每一天分区保存每天所有的最新状态的数据。(1)全量表,有无变化,都要报(2)每次上报的数据都是所有的数据(变化的+没有变化的)一般导入数据时,不进行任何操作导入的数据就是全量表。例如:平时使用sqoop直接导入,或者load加载,不需要任何特殊的操作,全表覆盖或者先删
MrZhangBaby
·
2020-09-14 03:34
谈笑间学会数据仓库
谈笑间学会大数据
Hive
大数据
hive
上一页
61
62
63
64
65
66
67
68
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他