E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
TiDB 在实时分析应用场景下的探索
作者:周跃跃,苏丹近年来,随着数据规模越来越大,以及由此衍生出数据实时化的诉求激增,产生了一系列大数据相关的业务场景,场景复杂性高以及业务多维度是明显的两个特点,因此出现许多了实时
数仓
架构来满足业务需求
·
2021-03-10 21:50
数据库
美团优选大数据开发岗面试真题-附答案详细解析
以下为面试过程中提问,岗位为大数据开发,根据提问内容看出,主要偏
数仓
方向自我介绍到北京工作的意
五分钟学大数据
·
2021-03-10 12:49
大数据
大数据面试
数仓
大数据
面试
数据仓库
TiDB 在实时分析应用场景下的探索
作者:周跃跃,苏丹近年来,随着数据规模越来越大,以及由此衍生出数据实时化的诉求激增,产生了一系列大数据相关的业务场景,场景复杂性高以及业务多维度是明显的两个特点,因此出现许多了实时
数仓
架构来满足业务需求
·
2021-03-10 04:23
数据库
Delta Lake在Soul的应用实践
简介:传统离线
数仓
模式下,日志入库前首要阶段便是ETL,我们面临如下问题:天级ETL任务耗时久,影响下游依赖的产出时间;凌晨占用资源庞大,任务高峰期抢占大量集群资源;ETL任务稳定性不佳且出错需凌晨解决
·
2021-03-09 22:43
TiDB 在实时分析应用场景下的探索
作者:周跃跃,苏丹近年来,随着数据规模越来越大,以及由此衍生出数据实时化的诉求激增,产生了一系列大数据相关的业务场景,场景复杂性高以及业务多维度是明显的两个特点,因此出现许多了实时
数仓
架构来满足业务需求
TiDB_PingCAP
·
2021-03-09 14:57
TiDB
User
Group
创作集
数据库
分布式
一文带你了解GaussDB(DWS) 的Roach逻辑备份实现原理
一、简介在大数据时代,数据的完整和可靠性成为一个
数仓
最核心的能力之一。GaussDB(DWS)以其出众的分布式计算和存储能力广受用户青睐的同时,也特别着眼于数据备份容灾领域的创新和打磨。
·
2021-02-26 09:00
备份
数据产品经理有必要了解的Hive
hive是基于Hadoop的一个数据仓库工具(不是数据仓库,也不是数据库),用来进行数据提取、转化、加载(即用于
数仓
的ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
顺子哥66的
·
2021-02-24 20:38
hive建模分析
建模分析基于访客系统的案例来进行讨论建模分析目的分析出整个
数仓
需要哪些层次,哪些表,哪些字段ODS层:源数据层对接源数据,保持和源数据相同粒度DWD任务:1.清洗。
·
2021-02-24 02:52
hadoophive
hive建模分析
建模分析基于访客系统的案例来进行讨论建模分析目的分析出整个
数仓
需要哪些层次,哪些表,哪些字段ODS层:源数据层对接源数据,保持和源数据相同粒度DWD任务:1.清洗。
·
2021-02-24 01:42
hadoophive
Flink on Hive构建流批一体
数仓
-flink1.12
这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时
数仓
的应用和流批一体的落地实践奠定了坚实的基础。
javastart
·
2021-02-23 18:34
flink
Docker一键部署大数据平台开发环境
比较主流的大数据平台架构如图所示,主要采用Flume或Beats进行数据采集,Kafka做数据采集消息队列,不仅可以消峰,也可以直接与ELKB配合进行数据采集;数据存储则采用主流的HDFS做为原始数据存储,Hive做
数仓
谷迈科技
·
2021-02-23 17:29
基于Impala的网易有数BI查询优化总结
《效能提升30%、埋点线下bug率下降50%,网易云音乐
数仓
建设之路》一文提到了Impala性能优化工作对于音乐
数仓
建设的重要性,本文总结Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路
NetEaseResearch
·
2021-02-22 17:56
大数据
大数据
Impala
数据仓库
数仓治理
数仓
的元数据管理系统(数据治理系统)-Apach Atlas
数仓
的元数据管理系统(数据治理系统)-ApachAtlas一.如果公司没有这样的管理系统,如何去管理你的这些数据资产?
小涛手记
·
2021-02-21 18:46
Atlas
大数据
数据库的两个好帮手:pagehack和pg_xlogdump
随着技术的演进,数据也发生了巨大的变化,数据规模越来愈大、数据种类呈现多样性,数据处理的时效性要求也越来越高,GaussDB(DWS)实时
数仓
当前面临着巨大的机遇,也面临着巨大的挑战。
·
2021-02-20 12:26
数据库故障
数据库的两个好帮手:pagehack和pg_xlogdump
随着技术的演进,数据也发生了巨大的变化,数据规模越来愈大、数据种类呈现多样性,数据处理的时效性要求也越来越高,GaussDB(DWS)实时
数仓
当前面临着巨大的机遇,也面临着巨大的挑战。
·
2021-02-20 12:26
数据库故障
效能提升30%、埋点线下bug率下降50%,网易云音乐
数仓
建设之路
回顾团队过去一整年的工作,我们主要聚焦于两件事:数据交付提效数据质量提升交付提效我于2019年加入云音乐,当时
数仓
团队给
NetEaseResearch
·
2021-02-20 10:59
大数据
数据仓库
Impala
数据治理
埋点
数据库的两个好帮手:pagehack和pg_xlogdump
随着技术的演进,数据也发生了巨大的变化,数据规模越来愈大、数据种类呈现多样性,数据处理的时效性要求也越来越高,GaussDB(DWS)实时
数仓
当前面临着巨大的机遇,也面临着巨大的挑战。
华为云
·
2021-02-20 09:59
程序员
gaussdb
数据库
故障
pagehack
pg_xlogdump
数据仓库面试问题汇总
最近三年到了互联网公司,转到做
数仓
相关的项目,其实主要是用hivesql在做数据处理,就是被鄙视的sqlboy。
Ryan_Fn
·
2021-02-18 10:30
数据仓库项目(第六节)电商业务
数仓
指标分析实例、拉链表的创建和使用
目录电商业务
数仓
分析实例GMV什么是GMV转化率什么是转化率ADS层之新增用户占日活跃用户比率ADS层之用户行为漏斗分析品牌复购率什么是品牌复购率DWS层——用户购买商品明细表(宽表)ADS层——品牌复购率结果表品牌复购率结果输出到
hwq317622817
·
2021-02-13 19:49
数据仓库
hive
大数据
咖啡汪日志——遇见
数仓
,理想与现实的碰撞,前景与难点的对接
作为不是在戏精,就是在戏精的路上的二哈本汪最近又搞到了新玩意儿做
数仓
,主要用于支撑大数据分析和架构层决策前言通过这篇文章,我们能学到什么:1、了解
数仓
的前景。2、了解到
数仓
前期ETL所面临的问题。
咖啡汪
·
2021-02-12 07:19
技术前沿(中台战略
区块链等)
电商
数仓
项目-上篇
下一篇:电商
数仓
项目-下篇文章目录第1章
数仓
分层1.1为什么要分层1.2数据集市与数据仓库概念1.3
数仓
命名规范1.3.1表命名1.3.2脚本命名1.3.3表字段类型第2章
数仓
理论2.1范式理论2.1.1
桃桃的大哥
·
2021-02-04 09:36
离线数仓
数据仓库
大数据
hive
2021大数据学习路线(基于自身技术栈)
数仓
和spark分析这块,最好结合这业务来,多加联系加深影响。
steve涛
·
2021-02-03 17:19
Hadoop
HashData外部表的实现与应用
背景外部表是数据仓库非常重要的一个功能特性,包括AWSRedshift、AzureSynapse、GoogleBigQuery和Snowflake等云
数仓
产品都有着完善的支持。
·
2021-02-02 18:41
数据库
Flink + Iceberg 全场景实时
数仓
的建设实践
整理|路培杰(Flink社区志愿者)摘要:ApacheFlink是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以Iceberg、Hudi、Delta为代表的解决方案应运而生,Iceberg目前支持Flink通过DataStreamAPI/TableAPI将数据写入Iceberg的表,并提供对ApacheFlink1.11.x的集成支持。本文由腾讯数据平台部
·
2021-02-01 11:57
Flink
机器学习-KNN算法原理 && Spark实现
不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线
数仓
>ETL工程师>BI工程师(不喜勿喷哈
·
2021-01-31 15:38
大数据
机器学习-KMeans算法原理 && Spark实现
不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线
数仓
>ETL工程师>BI工程师(不喜勿喷哈
·
2021-01-31 15:07
大数据
Flink 助力美团
数仓
增量生产
简介:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍Flink助力美团
数仓
增量生产的应用实践。内容包括:1、
数仓
增量生产;2、流式数据集成;3、流式数据处理;4、流式OLAP应用;5、未来规划。
·
2021-01-28 10:47
Flink 助力美团
数仓
增量生产
简介:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍Flink助力美团
数仓
增量生产的应用实践。内容包括:1、
数仓
增量生产;2、流式数据集成;3、流式数据处理;4、流式OLAP应用;5、未来规划。
·
2021-01-28 10:22
Flink 助力美团
数仓
增量生产
简介:本文由美团研究员、实时计算负责人鞠大升分享,主要介绍Flink助力美团
数仓
增量生产的应用实践。内容包括:1、
数仓
增量生产;2、流式数据集成;3、流式数据处理;4、流式OLAP应用;5、未来规划。
阿里云云栖号
·
2021-01-28 10:23
云栖号技术分享
Flink 助力美团
数仓
增量生产
本文由美团研究员、实时计算负责人鞠大升分享,主要介绍Flink助力美团
数仓
增量生产的应用实践。
·
2021-01-26 19:27
flink
Flink 助力美团
数仓
增量生产
本文由美团研究员、实时计算负责人鞠大升分享,主要介绍Flink助力美团
数仓
增量生产的应用实践。
·
2021-01-26 19:56
flink
机器学习-KMeans算法原理 && Spark实现
不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线
数仓
>ETL工程师>BI工程师(不喜勿喷哈
·
2021-01-25 14:38
大数据
机器学习-KNN算法原理 && Spark实现
不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线
数仓
>ETL工程师>BI工程师(不喜勿喷哈
·
2021-01-25 14:38
大数据
2020大数据面试题真题总结(附答案)
https://my.oschina.net/u/4631230/blog/4533362版本更新时间更新内容v1.02020-07-01新建v1.12020-06-13朋友面试大数据工程师提供的关于架构及
数仓
方面的题目
吃鱼的羊
·
2021-01-24 20:45
数仓理论
Hadoop
Apache Hudi使用简介
数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的
数仓
·
2021-01-24 16:39
大数据
Hive SQL的
数仓
迁移成Spark SQL,之前的UDF函数怎么办?
前言离线
数仓
之前的主力工具是hive,有一些处理需要写udf实现,当hivesql迁移成sparksql时。之前的udf函数该怎么办呢,本文为自测并总结。
俩只猴
·
2021-01-24 14:38
数据仓库
hive
大数据
数据仓库
spark
Flink实战(八十三):flink-sql使用(十)维表join(五)Flink SQL之维表join之Temporal Table Join
《2021年最新版大数据面试题全面开启更新》维表是
数仓
中的一个概念,维表中的维度属性是观察数据的角度,在建设离线
数仓
的时候,通常是将维表与事实表进行关联构建星型模型。
王知无-大数据技术与架构
·
2021-01-23 15:25
Flink
电商
数仓
1数据仓库的概念数据仓库(DataWarehouse)可简写为DW或DWH。数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备。这些准备包括对数据的清洗、转义、分类、重组、合并、拆分、统计等等。2项目需求1、实时采集埋点的用户行为数据2、实现
仙姝
·
2021-01-23 13:41
项目
数据仓库
大数据
Mysql中自定义开窗函数,row_number,dense_rank.
在
数仓
开发中或者数据分析中,我们经常用到开窗函数。但是在Mysql中没有我们该怎么办呢?
zhangyupeng0528
·
2021-01-22 14:47
大数据
spark
mysql
sql
数据库
数禾云上数据湖最佳实践
但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时
数仓
需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个ClouderaHadoop集群的能力
·
2021-01-21 16:35
数禾云上数据湖最佳实践
但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时
数仓
需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个ClouderaHadoop集群的能力
·
2021-01-21 15:04
数禾云上数据湖最佳实践
但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时
数仓
需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个ClouderaHadoop集群的能力
阿里云云栖号
·
2021-01-21 14:40
云栖号技术分享
企业级大数据项目【2】
数仓
-流量域ODS-DWD开发篇
1
数仓
整体说明什么
数仓
:一个面向分析的,反映历史变化的数据仓库;
数仓
的技术手段:1)传统
数仓
一般都是采用关系型数据库软件;2)大数据领域中则尚无一站式解决方案,通常需要用到很多技术组件来实现不同环节:使用
江湖人称涛哥
·
2021-01-21 10:48
数据仓库
大数据
spark
hive
用户画像
Nebula Exchange 工具 Hive 数据导入的踩坑之旅
摘要:本文由社区用户xrfinbj贡献,主要介绍Exchange工具从Hive
数仓
导入数据到NebulaGraph的流程及相关的注意事项。
NebulaGraph
·
2021-01-20 12:08
hive
数据库
图数据库
nebula
高途课堂 -大数据开发工程师 面筋
详细聊具体项目3,
数仓
建模理论
数仓
分层好处及坏处一、模型分层缓冲数据模型BDM源业务系统数据的快照,保存细节数据,按天分区,会保持最近一段时间数据。
Cold丶kl
·
2021-01-19 14:10
面筋哥
面试
大数据
数据仓库
基于SSD的Kafka应用层缓存架构设计与实现
如下图所示,业务日志、接入层Nginx日志或线上DB数据通过数据采集层发送到Kafka,后续数据被用户的实时作业消费、计算,或经过
数仓
的ODS层用作
数仓
生产,还有一部分则会
美团技术团队
·
2021-01-17 21:21
架构
后台
大数据
ssd
基于SSD的Kafka应用层缓存架构设计与实现
如下图所示,业务日志、接入层Nginx日志或线上DB数据通过数据采集层发送到Kafka,后续数据被用户的实时作业消费、计算,或经过
数仓
的ODS层用作
数仓
生产,还有一部分则会
美团技术团队
·
2021-01-17 20:11
架构
后台
大数据
ssd
Hashcopy与Hashexport工具的使用
在
数仓
产生的新数据中,相当一部分是需要从
数仓
卸载出来,供其它业务系统使用的。
HashData
·
2021-01-15 19:25
数据库
数仓
实时化改造:Hudi on Flink 在顺丰的实践应用
作者|蔡适择(顺丰大数据平台负责人)整理|赵阳(Flink社区志愿者)本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分:●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台,中间的基础部分是大数据平台,这块是顺丰结合开源组件自行搭建的。与
ApacheFlink
·
2021-01-15 19:41
flink
流计算
最新
数仓
面试题_知行教育
数仓
项目
5、项目是如何分层的6、
数仓
一般怎么做分层处理呢?7、
数仓
分层的作用是什么?8、项目中有做按照主题分
ChinaManor
·
2021-01-15 08:48
#
知行教育数仓
上一页
57
58
59
60
61
62
63
64
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他