E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
大数据笔试真题集锦---第七章:
数仓
面试题
第七章目录第七章
数仓
数仓
是一个面向主题的、集成的、稳定的、时变的,存储历史数据的仓库。
千锋教育官方博客
·
2020-08-18 10:29
hive相关知识(一)
hive是
数仓
工具,可以抽取,转换,加载数据(ETL),Hive不适用于毫秒级的响应,因为其底层是调用MR程序在Yarn上运行操作hdfs上的结构化静态数据来实现处理数据的功能,但Hive将sql跟MR
StudyEverydayForward
·
2020-08-18 10:50
hive
实时
数仓
|基于Flink1.11的SQL构建实时
数仓
探索实践
实时
数仓
主要是为了解决传统
数仓
数据时效性低的问题,实时
数仓
通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。
西贝木土
·
2020-08-18 04:21
flink
数据仓库
实时
数仓
|基于Flink1.11的SQL构建实时
数仓
探索实践
实时
数仓
主要是为了解决传统
数仓
数据时效性低的问题,实时
数仓
通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。
西贝木土
·
2020-08-16 23:16
实时数仓
Flink1.11
Flink
PyFlink 在聚美优品的应用实践
在来到聚美之前,我主要做离线
数仓
开发和数据开发,来到刷宝之后,部门也并没有现成的实时框架,需要自行搭建。所以,当实时的需求来到我面前的时候,内心是忐忑的。下面我将
Ververica
·
2020-08-16 16:33
数仓
数据预处理整体流程
数仓
数据预处理整体流程整体点的思路:(精简版)一.创建spark环境二.加载当日的app埋点数据三.解析json为rdd[AppLogBesn],1.解析json数据,解析成扁平格式化2.抽取有用字段3
北京小峻
·
2020-08-16 11:17
大数据
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
本文主要内容如下:-OPPO实时
数仓
的演进思路;-基于FlinkSQL的扩展工作;-构建实时
数仓
的应用案例;-未来工作的思考和展望。
fuyipingwml1976124
·
2020-08-16 06:12
云MSP技本功|基于OGG 实现Oracle到Kafka增量数据实时同步
传统的
数仓
通过批量数据同步的方式,定期从OLTP系统中抽取数据。背景在大数据时代,存在大量基于数据的业务。数据需要在不同的系统之间流动、整合。
云掣科技
·
2020-08-15 03:29
数据库
运维
云服务
技术
oracle
datax从mysql导入数据到mysql
DataX是阿里开源数据同步工具,实现异构数据源的数据同步,Github地址:https://github.com/alibaba/DataX,企业存储离线数据到
数仓
,但是没办法对接业务,本次实践主要是运用
JasonLee'blog
·
2020-08-14 22:37
mysql
datax
大数据面试题之shell
文本处理工具sed:利用脚本来处理文本文件,是一款流编辑工具,用来对文本进行过滤和替换操作cut:选取工具,就是将一段数据经过分析,取出我们想要的数据sort:排序工具2、用shell写脚本1)集群启动脚本2)
数仓
与
2401号行者
·
2020-08-14 21:31
大数据笔试题
面试题
大数据
datax(1):安装部署并且检测
一、datax实现功能可以实现关系型数据库、阿里云
数仓
、nosql数据库、无结构化数据以及时间序列数据库之间的互相导入,如下图,功能十分强大,所以不觉想要研究一下二、环境1.Centos6.42.Datax
RayBreslin
·
2020-08-14 20:42
datax
DataX实战应用
目录前言系统架构关键实现系统目前使用现状DataX使用心得前言DataX是阿里开源数据同步工具,实现异构数据源的数据同步,Github地址:https://github.com/alibaba/DataX,企业存储离线数据到
数仓
我是康小小
·
2020-08-14 20:33
hive
大数据
阿里云
数仓
总架构师:企业大数据平台仓库架构建设思路
随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库.总体思路随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据
jiedaodezhuti
·
2020-08-14 17:34
数据仓库
数据仓库
事实表的分类:事务事实表,周期快照事实表,累计快照事实表
维度建模
数仓
领域中的事实表大致分以下三种:事务事实表,周期快照事实表,累计事实表。事务事实表与周期快照事实表、累积快照事实表虽然使用相同的一致性维度,但是它们在内容构成以及业务描述上还是有很大的区别。
泽米
·
2020-08-14 16:35
数据建模
flink实时
数仓
(二):mysql主备以及binglog
文章目录mysql主备复制实现MySQLBinaryLogSTATMENT模式基于行的复制(row-basedreplication,RBR):混合模式复制(mixed-basedreplication,MBR):mysql主备复制实现1.master将改变记录到二进制日志(binarylog)中(这些记录叫做二进制日志事件,binarylogevents,可以通过showbinlogevents
_张不帅
·
2020-08-14 12:50
flink实时数仓项目
解析mysql binlog
目前有个功能需要将mysql中的数据同步到
数仓
(hdfs,kudu或者其他存储)中去,如果离线的方式可以考虑sqoop,spark,缺点就是延时比较高,可能一个小时,或者一天;数据一致性很难得到保证,mysql
woloqun
·
2020-08-14 12:08
mysql
【Flink】(六)ProcessFunction API(底层 API)
如果你也对数据中台、数据建模、数据分析以及Flink/Spark/Hadoop/
数仓
开发感兴趣,可以关注我的动态https://blog.csdn.net/BeiisBei,让我们一起挖掘
云 祁
·
2020-08-14 06:21
#
----
Flink
(从电商项目认识
数仓
体系四)行为
数仓
加载数据
1ODS数据加载判断表是否存在,如果存在,需要先将表删除:DROPTABLEIFEXISTSods_start_log;创建一张外部表,一个json串,就作为一条记录,所以该表只有一个字段:CREATEEXTERNALTABLEods_start_log(lineSTRING);按日期进行分区:PARTITIONEDBY(`dt`STRING)LZO压缩格式处理:STOREDASINPUTFORM
哒哒达
·
2020-08-14 04:01
ODS& DWD& DWS& ADS
数仓
分层
数仓
分层ODS:OperationDataStore原始数据DWD(数据清洗/DWI)datawarehousedetail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为
GOD_WAR
·
2020-08-14 04:22
数据仓库
数仓
笔记 一
好久没写博客了,最近一直在忙
数仓
迁移的事,从SqlServer迁移到impala+kudu上,没使用hive。建立一套大数据的
数仓
,数据接入用的streamSets。
新手路上的程序员
·
2020-08-14 04:45
数仓笔记
数仓
1.2 分层| ODS& DWD& DWS& ADS| 行为
数仓
数仓
分层ODS:OperationDataStore原始数据DWD(数据清洗/DWI)datawarehousedetail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为
weixin_30699463
·
2020-08-14 03:29
数仓
dwd层事件日志dwd_base_event_log解析生成若干表
需要创建的表dwd_display_log商品点击表dwd_newsdetail_log商品详情页表dwd_loading_log商品列表页表dwd_ad_log广告表dwd_notification_log消息通知表dwd_active_background_log用户后台活跃表dwd_comment_log评论表dwd_favorites_log收藏表dwd_praise_log点赞表dwd_
programmer_trip
·
2020-08-14 02:54
数仓
大数据
实时计算 Flink 版 最佳实践
解决方案金融行业的实时
数仓
建设实践IoT行业行业背景物联网(Internet
阿里云云栖号
·
2020-08-14 00:20
jquery
记一次蚂蚁金服面试经历
导读:本文将带你一起走进蚂蚁金服大数据
数仓
面试。蚂蚁金服大数据
数仓
岗位的面试经历一、前言本人一直在外企做传统
数仓
也差不多十年了,技术栈都是以关系型数据库和商业工具为主。
run_bigdata
·
2020-08-13 18:06
云MSP技本功|基于OGG 实现Oracle到Kafka增量数据实时同步
传统的
数仓
通过批量数据同步的方式,定期从OLTP系统中抽取数据。背景在大数据时代,存在大量基于数据的业务。数据需要在不同的系统之间流动、整合。
云掣YUNCHE
·
2020-08-13 15:18
分布式大数据迁移工具 (一)
二、需求与设计:基于之上的历史原因,公司要求创建一个
数仓
,专门用来进行数据分析和智能报表研发。为此需要作出一款
风中的大葱
·
2020-08-13 15:43
数据同步
数据分析
flink实时
数仓
(三):cannel
文章目录产生背景工作原理Canal的架构产生背景早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此开启了一段新纪元。ps.目前内部版本已经支持mysql和oracle部分版
_张不帅
·
2020-08-12 14:06
flink实时数仓项目
Hive分区表的基本操作及结构
在Hive
数仓
中也有分区分桶的概念,在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的子目录中,目录名=“分区键=键值”。其中需要注意的是分区键的值
冲!程序员
·
2020-08-12 11:19
Hive
hive
sql
分区表
实时
数仓
-Druid简介
Druid是什么?ApacheDruid是一个实时分析数据库,为时间驱动的数据分析而生,广泛应用于OLAP。此Druid,非阿里的那个数据连接池druid。Druid核心架构整合了数据仓库、时序数据库、日志搜索系统的思想。主要有以下特点:列式存储可扩展分布式系统并行处理实时或离线摄入数据自容错、自平衡、容易操作云化、容错架构不丢失数据基于时间的分区快速过滤的索引应用很多近似算法摄入数据时即时预聚合
.Mr Zhang
·
2020-08-12 00:53
Druid
StreamingFileSink压缩与合并小文件
,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Flinkcheckpoint提供的hook来实现的两阶段提交模式来保证的,主要应用在实时
数仓
赶路人儿
·
2020-08-11 21:35
#
flink
大数据实时推荐系统的思考
昨晚思考了实时
数仓
的问题,对下列案例进行了如下思考.
Applied Sciences
·
2020-08-11 21:07
Hadoop
从传统
数仓
到互联网大数据开发,不走弯路很重要
1.自我介绍二本学校毕业5年,在某已倒闭手机厂商做安卓开发3年,到银行外包写SQL1年,现在在某大厂做大数据开发工作即将一年,月处理数据量PB级别。2.为什么要转型转型有两个原因,一个是技术相关的,刚毕业心态没调整好,没有把心思放在技术上,然后做的工作技术要求也不高,就这么混了几年;一个是工资相关的,工资真尼玛低,都快混不下去了。3.转型的心态和行动16年公司内部培训的时候了解到大数据,那时候还没
大数据肌肉猿
·
2020-08-11 20:53
大数据转型经历
面试经验
学习经历
hadoop
spark
大数据
面试
经验分享
直播沙龙报名 | ClickHouse 在实时场景的应用和优化
本期主题:ClickHouse在实时场景的应用和优化时间:2020年8月14日19:00-20:00早期ClickHouse仅应用于字节跳动离线
数仓
的场景,随着字节跳动ClickHouse团队基于社区KafkaEngine
字节跳动技术团队
·
2020-08-11 12:31
字节跳动
编程语言
人工智能
xhtml
sms
杠上Spark、Flink?Kafka为何转型流数据平台?
它通常作为一个数据管道,链接了各种业务前台和数据后台(比如
数仓
等)。
LinkTime_Cloud
·
2020-08-11 11:36
数据中台
大数据
杠上Spark、Flink?Kafka为何转型流数据平台?
它通常作为一个数据管道,链接了各种业务前台和数据后台(比如
数仓
等)。
LinkTime_Cloud
·
2020-08-11 11:36
大数据
分布式
人工智能
编程语言
java
DataX实现:从Hive到MySQL数据抽取(含完整json配置)
1.需求从离线Hive
数仓
ads层抽取数据到Mysql2.参考DataX官方Github实例DataX官网从hive读数据{"job":{"setting":{"speed":{"channel":3}
海若[MATRIX]
·
2020-08-11 05:44
DataX
藏不住了,Flink 未来发展的最新方向在这里!
之前我们详细介绍了围绕ApacheFlink及其核心技术开设的五大专场,包括:企业实践、Apache核心技术专场、开源大数据生态、实时
数仓
、人工智能五大专题详细内容。
Ververica
·
2020-08-11 00:52
数据开发interview
数仓
分层的原理、架构、用途rf模型细节,模型搭建抛开现有的大数据平台(猛犸)如何部署模型大数据为什么会有数据倾斜,如何优化?
zx8167107
·
2020-08-10 08:58
多人协作的敏捷数据库建模
无论数据中台还是传统
数仓
的数据库建模都是最关键的部分.传统数据建模以个人单兵做战为主.一个开发团队由一两个人主要负责数据库设计.随着系统越来越多,
数仓
越来越复杂.企业的数据库模型设计需要跨系统跨团队,由更多人来参与
datablau国产数据库建模工具
·
2020-08-10 03:32
一年经验大数据开发网易游戏社招面经(已拿offer)
话不多说,网易面试一共两轮技术面+一轮HR面:一面(技术面:1个小时)自我介绍
数仓
整条链路具体负责哪块团队多少人Flume具体配置Flume到Kafka的一次性Kaf
极伪
·
2020-08-09 17:28
网易
面试
大数据
java
数仓
开发需要了解的BI数据分析方法
数仓
开发经常需要与数据表打交道,那么
数仓
表开发完成之后就万事大吉了吗?显然不是,还需要思考一下如何分析数据以及如何呈现数据,因为这是发挥数据价值很重要的一个方面。
西贝木土
·
2020-08-09 13:30
数据仓库
hive
数仓
|Hive性能调优指北
在企业中使用Hive构建离线
数仓
是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。
西贝木土
·
2020-08-09 13:29
hive
实时
数仓
|Flink SQL之维表join
维表是
数仓
中的一个概念,维表中的维度属性是观察数据的角度,在建设离线
数仓
的时候,通常是将维表与事实表进行关联构建星型模型。
西贝木土
·
2020-08-09 13:29
flink
透过窗口看无限数据流——Flink的Window全面解析
欢迎关注我的公众号:大数据技术与
数仓
免费领取百G大数据资料窗口是流式计算中非常常用的算子之一,通过窗口可以将无限流切分成有限流,然后在每个窗口之上使用计算函数,可以实现非常灵活的操作。
西贝木土
·
2020-08-09 13:57
flink
基于Canal与Flink实现数据实时增量同步(二)
本文主要从Binlog实时采集和离线处理Binlog还原业务数据两个方面,来介绍如何实现DB数据准确、高效地进入Hive
数仓
。
西贝木土
·
2020-08-09 13:23
flink
Hive Storage Handler入门和实战
另外,Hive作为
数仓
的核心组件,借助StorageHandler,数据导入导出可以统一以SQL实现,减少了大数据开发维护的技
chncaesar
·
2020-08-09 07:07
Hive
OPPO数据中台之基石:基于Flink SQL构建实数据仓库
本文主要内容如下:OPPO实时
数仓
的演进思路;基于FlinkSQL的扩展工作;构建实时
数仓
的应用案例;未来工作的思考和展望。
Arisono
·
2020-08-09 05:24
【建站知识】
数据仓库维度表与事实表
数据仓库维度表与事实表数据仓库目前主要作用还是商业智能决策,而维度建模是
数仓
数据分析最常用的建模方法,建模当中维度表和事实表是不可或缺的重要组成部分,维度表是记录实体属性的表,是数据分析的主要对象,事实表记录事实数据
松子-招财猫
·
2020-08-09 01:10
维度建模
数据仓库
hive SQL语句执行过程
hiveSQL语句执行过程背景了解:hive
数仓
数据存储于Hadoop大数据框架的HDFS文件系统中,以文件的方式存储,hive是建立在Hadoop之上的
数仓
工具,hive将文件数据映射成结构性数据-表
松子-招财猫
·
2020-08-09 01:09
hive
hive
大数据
数仓
开发应避免的10个陷阱
这样才可以不被数据仓库设计的陷阱所困扰,避免这10个常见的陷阱可以在构建
数仓
的过程少走些弯路。陷阱10:过于迷恋技术和数据,而没有将重点放在业务需求和目标上。
数仓
归根结
西贝木土
·
2020-08-08 15:45
数据仓库
数据仓库
上一页
66
67
68
69
70
71
72
73
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他