E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
Hive进阶—抽样的各种玩法
抽样抽样在Hive中也是比较常用的一种手段,主要用在下面的几个场景中一些机器学习的场景中,
数仓
作为数据的提供方提供样本数据数据的计算结果异常或者是指标异常,这个时候如果我们往往需要确认数据源的数据是否本身就有异常
大数据技术派
·
2021-01-13 22:19
实时
数仓
|以upsert的方式读写Kafka数据——以Flink1.12为例
在某些场景中,比如GROUPBY聚合之后的结果,需要去更新之前的结果值。这个时候,需要将Kafka消息记录的key当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中,可以通过flink-cdc-connectors项目提供的changelog-jsonformat来实现该功能。关于该功能的使用,见之前的分享Flink1.11中的CDCConnectors操
大数据技术与数仓
·
2021-01-13 20:00
sql
kafka
flink
九个最容易出错的 Hive sql 详解及使用注意事项
文章首发于公众号:五分钟学大数据前言在进行
数仓
搭建和数据分析时最常用的就是sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括hive,spark,flink等,所以
My-sunmy
·
2021-01-12 21:57
大数据
hive
sql
九个最容易出错的 Hive sql 详解及使用注意事项
文章首发于公众号:五分钟学大数据前言在进行
数仓
搭建和数据分析时最常用的就是sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括hive,spark,flink等,所以
My-sunmy
·
2021-01-12 21:28
大数据
hive
sql
Sqoop-学习笔记
主要用于
数仓
(Hive)与数据库之间的数据传输。本菜鸟QQ:
LeiKe_
·
2021-01-12 09:06
数据库
数据采集
数仓
sqoop
数仓
建设中最常用模型--Kimball维度建模详解
数仓
建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。
My-sunmy
·
2021-01-11 23:09
大数据
数据仓库
数仓
面试高频考点--解决hive小文件过多问题
本文首发于公众号:五分钟学大数据小文件产生原因hive中的小文件肯定是向hive表中导入数据时产生,所以先看下向hive中导入数据的几种方式直接向表中插入数据insertintotableAvalues(1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本没有使用的通过load
My-sunmy
·
2021-01-11 23:26
面试
hive
大数据
数据仓库
数仓
建设中最常用模型--Kimball维度建模详解
数仓
建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。
My-sunmy
·
2021-01-11 22:44
大数据
数据仓库
Nebula Exchange 工具 Hive 数据导入的踩坑之旅
摘要:本文由社区用户xrfinbj贡献,主要介绍Exchange工具从Hive
数仓
导入数据到NebulaGraph的流程及相关的注意事项。
NebulaGraph
·
2021-01-11 17:26
hive
数据库
图数据库
nebula
数仓
建设中最常用模型--Kimball维度建模详解
数仓
建模首推书籍《数据仓库工具箱:维度建模权威指南》,本篇文章参考此书而作。
五分钟学大数据
·
2021-01-11 15:52
大数据
数仓
数据仓库
大数据
美团外卖实时
数仓
建设实践
转载链接:https://www.jianshu.com/p/a1749c1526d7导读:本文主要介绍一种通用的实时
数仓
构建的方法与实践。
严国华
·
2021-01-11 11:40
Flink1.12集成Hive打造自己的批流一体
数仓
简介小编在去年之前分享过参与的实时数据平台的建设,关于实时
数仓
也进行过分享。
王知无(import_bigdata)
·
2021-01-10 19:05
大数据
数据库
java
hive
mysql
仅4步,就可通过SQL进行分布式死锁的检测与消除
分布式
数仓
应用场景中,我们经常遇到数据库系统hang住的问题,所谓hang是指虽然数据库系统还在运行,但部分或全部业务无法正常执行。
法规和规范化股份
·
2021-01-10 14:32
数据库
数仓
面试高频考点--解决hive小文件过多问题
本文首发于公众号:五分钟学大数据小文件产生原因hive中的小文件肯定是向hive表中导入数据时产生,所以先看下向hive中导入数据的几种方式直接向表中插入数据insertintotableAvalues(1,'zhangsan',88),(2,'lisi',61);这种方式每次插入时都会产生一个文件,多次插入少量数据就会出现多个小文件,但是这种方式生产环境很少使用,可以说基本没有使用的通过load
My-sunmy
·
2021-01-10 14:50
面试
hive
大数据
数据仓库
仅4步,就可通过SQL进行分布式死锁的检测与消除
分布式
数仓
应用场景中,我们经常遇到数据库系统hang住的问题,所谓hang是指虽然数据库系统还在运行,但部分或全部业务无法正常执行。
法规和规范化股份
·
2021-01-10 14:35
数据库
数仓
工具—Hive语法之窗口函数练习和总结(15)
窗口函数练习窗口函数其实日常中用的是比较多的,加上之前我们分别介绍了各个窗口函数,今天我们就练习和总结一下题目题目一:每个用户截止到每月为止的最大交易金额和该月的累积总交易金额数据源格式如下表名表注释字段字段注释ods_sales_orders订单明细表sales_order_key订单主键一个订单表示销售一个产品ods_sales_orders订单明细表create_date订单日期ods_sa
不二人生
·
2021-01-09 12:16
数据仓库
Hive
hive
大数据
数据仓库
面试
有道精品课实时数据中台建设实践
本文以我们在实时
数仓
选型的经验为切入点,进一步着重分享使用Doris过程中遇到的问题,以及我们针对这些问题所做出的调整和优化。1背景概述1.1业务场景
有道技术团队
·
2021-01-08 18:02
apache
数据
Hive-学习笔记
Hive数据类型7.DDL数据定义8.DML数据操作9.查询10.函数11.压缩12.存储13.优化14.练习Demo总结前言(Hive1.2.1)本文分享本菜鸟的Hive学习笔记Hive广泛应用于大数据
数仓
项目
LeiKe_
·
2021-01-08 16:59
大数据
数仓
hive
大数据
数据仓库
基于Flink构建实时
数仓
实践
与此同时产品及运营对实时数据需求逐渐增多,帮助他们更快的做出决策,更好的进行产品迭代,实时
数仓
的建设变得越发重要起来。本文主要介绍用户增长业务基于Flink构建实时
数仓
的实践之路。
·
2021-01-06 23:00
数仓
实时化改造:Hudi on Flink 在顺丰的实践应用
作者|蔡适择(顺丰大数据平台负责人)整理|赵阳(Flink社区志愿者)本文主要介绍顺丰在数据仓库的数据实时化、数据库CDC、HudionFlink上的实践应用及产品化经验。文章主要分为以下几部分:●顺丰业务介绍●HudionFlink●产品化支持●后续计划1、顺丰业务1.1顺丰大数据的应用先来看一下顺丰大数据业务的全景图。大数据平台,中间的基础部分是大数据平台,这块是顺丰结合开源组件自行搭建的。与
ApacheFlink
·
2021-01-06 19:14
flink
流计算
Flink on Hive构建流批一体
数仓
这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时
数仓
的应用和流批一体的落地实践奠定了坚实的基础。
大数据技术与数仓
·
2021-01-06 02:22
flink
hive
数据仓库
Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12
什么是HiveCatalog如何使用HiveCatalog什么是HiveDialect如何使用HiveDialect公众号『大数据技术与
数仓
』
大数据技术与数仓
·
2021-01-06 02:44
flink
Flink on Hive构建流批一体
数仓
这就意味着Flink既可以作为Hive的一个批处理引擎,也可以通过流处理的方式来读写Hive中的表,从而为实时
数仓
的应用和流批一体的落地实践奠定了坚实的基础。
大数据技术与数仓
·
2021-01-06 01:21
flink
hive
数据仓库
Flink SQL实时
数仓
开源UI平台
一、简介flink-streaming-platform-web系统是基于flink封装的一个可视化的web系统,用户只需在web界面进行sql配置就能完成流计算任务,主要功能包含任务配置、启/停任务、告警、日志等功能。目的是减少开发,完全实现flink-sql流计算任务,flink任务支持单流、双流、单流与维表等,支持本地模式、yarn-per模式、STANDALONE模式。支持udf、自定义连
☞空白页
·
2021-01-05 10:20
Flink
数仓
相关
数仓
小思考1.为什么使用关系型存储用户业务数据RDMS(关系型数据库)是基于OLTP(onlinetransactionprocess在线事务处理)设计,重事务和在线处理2.用户行为数据和用户业务数据的区别用户行为数据侧重于记录事件
大数据面壁者
·
2021-01-04 20:52
数仓
大数据
数据仓库
仅4步,就可通过SQL进行分布式死锁的检测与消除
分布式
数仓
应用场景中,我们经常遇到数据库系统hang住的问题,所谓hang是指虽然数据库系统还在运行,但部分或全部业务无法正常执行。
华为云开发者社区
·
2021-01-04 16:07
sql
数据库
死锁
数仓
工具—Hive语法之map join、reduce join、smb join(8)
常见的join实现方式开始之前我们先说一下join的定义,然后我们后面在说不同的join,有时候我们需要同时获取两张表或三张表或更多表的信息,我们需要把不同的表关联起来,然后获取数据,这个就是join,关联的过程就是join的过程笼统的说,Hive中的Join可分为CommonJoin(Reduce阶段完成join)和MapJoin(Map阶段完成join),以及SortMergeBucketJo
不二人生
·
2021-01-03 10:56
数据仓库
Hive
大数据
数据仓库
hive
面试
数仓
工具—Hive语法之cube和rollup(6)
cube和rollup我们知道groupingsets可以按照我们定义的维度(groupingsets的参数)进行分组统计,就像下面我们定义的维度就是(school,grade),school,grade,(),也就是说我们定义的什么维度就是什么维度,例如我们这里定义了四个就是四个,定义了一个就是一个selectgrouping__id,nvl(school,'全年级'),nvl(grade,'全
不二人生
·
2021-01-01 21:15
数据仓库
Hive
数据仓库
hive
大数据
面试
数仓
工具—Hive语法之with as和from (4)
withas和fromwithas在我们介绍hive的时候我们说到了hive不止实现了标准的SQL语法,还扩展了很多其特有的语法,还允许用户自定义函数,今天我们就来学习一个hive的一个扩展语法,with…as也叫做子查询部分,语句允许hive定义一个sql片段,供整个sql使用,这里的使用不仅仅指的是像视图一样简化你的SQL书写,而且还会将这个片段产生的结果集保存在内存中,后续的sql均可以访问
不二人生
·
2021-01-01 08:58
数据仓库
Hive
大数据
hive
数据仓库
面试
大数据-
数仓
学习总结与分享
学习大数据的契机原因 在学习之前的是一直在干java开发的,但是手头上有个比较大的项目,本来是到9月底的样子就应该结束的,但后面需求变更,导致系统需要大改,之前的那批人也都走的差不多了(几个团队一起开发),所以到后面系统的整体架构的任务就交到我手上来了。 刚开始还好,慢慢改整体逻辑架构,其中从其他人代码中也学到了很多东西,可是过了一个来月的开发周期,11月的时候,也开发的差不多了,后面很多都是
itman_cx
·
2021-01-01 03:58
大数据
linux
笔记
数据湖VS数据仓库?湖仓一体了解一下
有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云
数仓
产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么,是技
王知无(import_bigdata)
·
2020-12-31 23:17
数据仓库
数据库
大数据
编程语言
hadoop
仅4步,就可通过SQL进行分布式死锁的检测与消除
分布式
数仓
应用场景中,我们经常遇到数据库系统hang住的问题,所谓hang是指虽然数据库系统还在运行,但部分或全部业务无法正常执行。
华为云开发者社区
·
2020-12-31 21:51
sql
数据库
死锁
一篇文章搞懂数据仓库:元数据分类、元数据管理
标准指标:类似于BI中的语义层、
数仓
中的一致性事实;将分析中的指标进行规范化。标准维度:同标准指标,对分析的各维度定义实现规范化、标准化。不断的进行维护且与业务方进行沟通确认。
明月十四桥
·
2020-12-31 15:39
数据仓库
技术元数据
业务元数据
有道精品课实时数据中台建设实践
本文以我们在实时
数仓
选型的经验为切入点,进一步着重分享使用Doris过程中遇到的问题,以及我们针对这些问题所做出的调整和优化。1背景概述1.1业务场景
有道技术团队
·
2020-12-31 15:57
apache
数据
大数据面试3分钟自我介绍_大数据开发工程师面试主要面试内容
另外大数据开发看是否偏向
数仓
诗和远方越远越脏
·
2020-12-31 12:27
大数据面试3分钟自我介绍
数据仓库—stg层_数据仓库之Hive快速入门 - 离线&实时
数仓
架构
数据仓库VS数据库数据仓库的定义:数据仓库是将多个数据源的数据经过ETL(Extract(抽取)、Transform(转换)、Load(加载))理之后,按照一定的主题集成起来提供决策支持和联机分析应用的结构化数据环境数据仓库VS数据库:数据库是面向事务的设计,数据仓库是面向主题设计的数据库一般存储在线交易数据,数据仓库存储的一般是历史数据数据库设计是避免冗余,采用三范式的规则来设计,数据仓库在设计
weixin_39611413
·
2020-12-29 16:18
数据仓库—stg层
电商
数仓
描述_笔记-尚硅谷大数据项目数据仓库-电商
数仓
V1.2新版
架构项目框架
数仓
架构存储压缩Snappy与LZOLZO安装:读取LZO文件时,需要先创建索引,才可以进行切片。框架版本选型Apache:运维麻烦,需要自己调研兼容性。
VC-Sawa
·
2020-12-29 02:23
电商数仓描述
The Data Warehouse Toolkit 阅读笔记
前言#这篇笔记的主要内容来至于TheDataWarehouseToolkit,该书可以称为
数仓
建模的圣经什么是星型模型#以一个业务事实为主表。比如一笔订单就是一个业务事实。
skaljdakdjw
·
2020-12-28 23:50
Apache Hudi使用简介
数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、SparkStreaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时,处理也不及时的场景则是我们的
数仓
西北偏北
·
2020-12-28 00:47
大数据
大数据运维存档(8)
数仓
构建与Hive实现常识整理、生产中调优
目录一、
数仓
基础1、
数仓
基本介绍1.1、
数仓
基本概念1.2、
数仓
的定义1.2.1、面向主题1.2.2、集成性1.2.3、稳定性1.2.4、时变性1.3、数据仓库与数据库的区别1.4、构建
数仓
常用手段1.5
pub.ryan
·
2020-12-27 13:52
大数据运维系列
hive insert into 慢_基于 Flink + Hive 构建流批一体准实时
数仓
基于Hive的离线
数仓
往往是企业大数据生产系统中不可缺少的一环。Hive
数仓
有很高的成熟度和稳定性,但由于它是离线的,延时很大。
weixin_39616477
·
2020-12-27 12:56
hive
insert
into
慢
数据仓库及维度建模的初步了解
之前只是在工作涉及
数仓
这块的一些业务,理论上有一定的缺失,所以最近准备刷一刷《数据仓库工具箱》这本书,顺便就将读完的一些理解和知识点在简书这边记录下来,算是对自己未来学习计划的一个鼓励和督促。
俩只猴
·
2020-12-25 10:09
数据仓库
数据仓库
数仓
架构发展史
时间就是一把尺子,它能衡量奋斗者前进的进程;时间就是一架天平,它能衡量奋斗者成果的重量;时间就是一架穿梭机,它能带我们遨游历史长河,今天我们看一下
数仓
不负此生
·
2020-12-24 23:55
数据仓库
大数据
数仓
建模分层理论
数仓
的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM内存区域的划分,JV
不负此生
·
2020-12-24 23:25
数据仓库
大数据
数仓
建模分层理论
数仓
的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM内存区域的划分,JV
不负此生
·
2020-12-24 22:32
数据仓库
大数据
数仓
架构发展史
时间就是一把尺子,它能衡量奋斗者前进的进程;时间就是一架天平,它能衡量奋斗者成果的重量;时间就是一架穿梭机,它能带我们遨游历史长河,今天我们看一下
数仓
不负此生
·
2020-12-24 22:31
数据仓库
大数据
大数据面试题带答案
版本更新时间更新内容v1.02020-07-01新建v1.12020-07-18朋友面试大数据工程师提供的关于架构及
数仓
方面的题目(智云健康)v1.22020-08-08朋友面试数据专家提供的数据驱动,
小蜗牛666
·
2020-12-23 17:58
大数据
面试
ClickHouse 八(TTL 时效性)
当然
数仓
的数据是不会删除的,不过会部分业务不需要旧数据,比如用户的画像数据,用户画像是按天按小时更新甚至实时更新,比较旧画像数据继续保存着没价值则
高并发
·
2020-12-22 20:04
clickhouse
大数据
kudu大量数据更新_数据高效处理的秘诀——Kudu实战
我们的OnlineReport采用都HDFS/ParquetonImpala的架构,数据每隔一小时通过MapReduce从生产db增量同步到HDFS,再通过HIVE/MAPREDUCE增量MERGE到
数仓
中
weixin_39929687
·
2020-12-22 20:40
kudu大量数据更新
Flink集成Hive之Hive Catalog与Hive Dialect--以Flink1.12
什么是HiveCatalog如何使用HiveCatalog什么是HiveDialect如何使用HiveDialect公众号『大数据技术与
数仓
』
大数据技术与数仓
·
2020-12-22 11:28
flink
上一页
58
59
60
61
62
63
64
65
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他