E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
数仓(
flink sql 知其所以然(十八):在 flink 中还能使用 hive udf?附源码
废话不多说,咱们先直接上本文的目录和结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你能了解到,其实很多场景下实时
数仓
的建设都是随着离线
数仓
而建设的(相同的逻辑在实时
数仓
中重新实现一遍
大数据羊说
·
2022-12-10 13:52
Apache
Flink
实时计算
Flink
SQL
hive
flink
sql
秒级加速质变,Apache Doris与360数科的“化学反应”
值得一提的是,不同于市面上应用最为广泛的实时
数仓
场景,360数科独创的Do
CSDN云计算
·
2022-12-09 23:57
资讯
大数据
spark
数据库
基于 Impala 的高性能
数仓
实践之物化视图服务
接上篇讲到了虚拟
数仓
,它们是让一个SQL又快又好地执行的关键。
Java那点事儿
·
2022-12-08 09:44
sql
数据库
mysql
[选型] 实时
数仓
之技术选型
数仓
技术路线选型对于已有的hive数据仓,怎样改造成实时
数仓
的要求呢?
fct2001140269
·
2022-12-08 08:45
数据仓库
大数据技术
大数据
hadoop
数据仓库
【概念】数据仓库和
数仓
建模
数据仓库
数仓
主要特征面向主题:每个需求和表都属于一个主题,可以用主题来对
数仓
的表分门别类集成性:将异构数据源,比如MySQL和服务器埋点日志,统一转换成结构化的hive表数据存储到ODS层非易失性:对历史的所有数据的存储需要稳定性
Kazi_1024
·
2022-12-07 10:47
Hive
数据仓库
数据库
hive
Hive企业实战ORC表数据翻倍,颠覆你认知的Cluster by作用?
比如数据的复杂多样性,面对复杂业务场景如何管理数据,
数仓
架构,数据建
涤生大数据
·
2022-12-06 14:26
hive
大数据
Flink实时
数仓
项目—业务数据采集
Flink实时
数仓
项目—业务数据采集前言一、采集工具选型二、Flink-CDC学习三、MySQL数据准备1.binlog的配置2.模拟生成数据四、业务数据采集模块1.配置文件2.代码实现前言前面完成了日志数据的采集
自学大数据的菜鸡
·
2022-12-05 13:23
大数据项目
实时数仓
大数据
数据仓库
flink
大数据项目之Flink实时
数仓
(数据可视化接口实现)
设计思路之前数据分层处理,最后把轻度聚合的结果保存到ClickHouse中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展现,一种是为专业的数据分析人员的BI工具,一种是面向非专业人员的更加直观的数据大屏。以下主要是面向百度的sugar的数据大屏服务的接口开发最终效果图分析各个可视化模块在可视化大屏中每个组件都需要一个单独的接口,图中一共涉及8个组件。组件名称|组
Keven He
·
2022-12-05 13:19
#
Flink
big
data
flink
大数据
hadoop
数据仓库
【Flink实时
数仓
】数据仓库项目实战 《三》 维表数据写入到HBase【DIM】
这里写自定义目录标题【Flink实时
数仓
】数据仓库项目实战《三》维表数据写入到HBase【DIM】1.配置表设计**主流程流程图**:**主流数据和广播流数据处理流程图**:**写入HBase(Phoenix
一阵暖风
·
2022-12-05 13:07
hbase
flink
数据仓库
【Flink实时
数仓
】数据仓库项目实战 《Clickhouse》问题记录
文章目录《Clickhouse》问题记录1.clickhouse-client-m报错《Clickhouse》问题记录1.clickhouse-client-m报错原因:无密码时连接,忘记设置过默认密码clickhouse安装好之后,系统默认的登录账号密码是/etc/clickhouse-server/users.d/default-password.xml文件中配置的。报错信息:Code:516
一阵暖风
·
2022-12-05 13:36
数据仓库
flink
clickhouse
实时
数仓
大数据 Hadoop flink kafka
⼀、实时
数仓
建设背景实时需求⽇趋迫切⽬前各⼤公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时
数仓
的能⼒来赋能。
送你秋天的第一杯奶茶
·
2022-12-05 13:01
大数据
大数据
python
java
spring
sql
【Flink实时
数仓
】数据仓库项目实战 《一》 准备工作
文章目录【Flink实时
数仓
】实时数据仓库项目实战配置选择数据采集工具选择用户行为数据采集模块(Flume、Kafka)业务数据采集模块(MySQL、Maxwell、Kafka)实时数据仓库工具选择**
一阵暖风
·
2022-12-05 13:30
flink
数据仓库
hbase
数仓
中的数据对象及相关关系的解读
为实现不同的功能,GaussDB(DWS)提供了不同的数据对象类型,包括索引、行存表、列存表及其辅助表等。这些数据对象在特定的条件下实现不同的功能,为数据库的快速高效提供了保证,本文对部分数据对象进行介绍。1.索引(index)索引是关系型数据库中对某一列或者多个列的值进行预排序的数据结构。如果数据库的记录非常多,通过建立索引可以获得非常快的查询速度,当对某一列建立索引之后,通过该列进行相关查询时
自橙一派
·
2022-12-04 22:43
数据库
(上)史上最全 Flink SQL 成神之路(全文 18 万字、138 个案例、42 张图)
让小伙伴萌能直观明白博主的心思博主会以实际的应用场景和案例入手,不只是知识点的简单堆砌博主会把重要的知识点的原理进行剖析,让小伙伴萌做到深入浅出gzh:大数据羊说与大家一起学习大数据开发、面试、框架、实时离线计算、
数仓
保障
大数据羊说
·
2022-12-04 19:36
Apache
Flink
实战技巧
实时计算
flink
sql
big
data
新一代 FlinkSQL 平台,重新定义 Apache Flink 开发
现状FlinkForwardAsia2021刚刚结束,从ApacheFlink中文社区发起人、阿里巴巴开源大数据平台负责人王峰(花名莫问)老师得知ApacheFlink将不止于计算,
数仓
架构或兴起一轮变革
文末丶
·
2022-12-02 20:27
Dlink
apache
flink
big
data
跨境支付平台 XTransfer 的实时
数仓
之路:深度参与开源才能不被淘汰
近两年新冠肺炎疫情对各行各业造成重大冲击,但对于跨境电商行业来说则是机大于危,跨境支付赛道也因此备受关注。其中,受疫情影响,大量B2B外贸交易转到线上,相比起B2C,B2B跨境交易支付场景更为复杂,因为其业务场景也往往更为复杂、周期长、贸易参与角色众多。另一方面,支付业务天然地对风险识别的及时性和准确性要求非常高,因此数据的采集、加工、计算就需要前置在每个业务节点、前瞻性地做好数据资产的维护工作。
XTransfer技术
·
2022-12-02 13:26
big
data
人工智能
区块链
大厂实时
数仓
建设项目实例
一、实时
数仓
建设背景1.实时需求日趋迫切目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时
数仓
的能力来赋能。
公众号:肉眼品世界
·
2022-12-01 20:51
powerdesigner
大数据
数据仓库
hashtable
控制器
跨越速运如何构建实时统一的运单分析
海量运单数据涌来,统一OLAP引擎、建设实时
数仓
、将极速数据分析能力应用到多个场景,成为了跨越速运大数据部门的核心工作目标。
StarRocks_labs
·
2022-12-01 19:05
java
开发语言
数据库
基于 Impala 的高性能
数仓
实践之物化视图服务
接上篇,前两篇分别讲了执行引擎和虚拟
数仓
,它们是让一个SQL又快又好地执行的关键。
·
2022-12-01 13:23
大数据
Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践
孙方彬中国移动云能力中心软件开发工程师编辑整理:HohXil出品平台:DataFunTalk导读:在云原生+大数据的时代,随着业务数据量的爆炸式增长以及对高时效性的要求,云原生大数据分析技术,经历了从传统
数仓
到数据湖
·
2022-12-01 13:51
大数据
【Flink实时
数仓
】数据仓库项目实战 《二》 数据采集到kafka【ODS】
文章目录【Flink实时
数仓
】数据仓库项目实战《二》数据采集到Kafka【ODS】模拟数据采集模块:-------------------------1.用户行为数据采集模块--------------
一阵暖风
·
2022-12-01 08:04
kafka
flink
数据仓库
AB测试平台的那些事?
最近一段时间在负责公司AB测试平台的建设过程中,调研了很多竞品的通用做法,其中涉及到的数据整体解决方案,包括AB测试数据采集与
数仓
模型、AB测试指标建设、AB测试可视化方案等,借此机会我把自己总结下来的经验分享给大家
数据分析v
·
2022-12-01 07:55
大数据
python
人工智能
数据分析
java
Superset的安装(亲测三遍,有效)
在学习
数仓
项目的时候,按照教程安装Superset反复重复多次都没能成狗,最后稍微修改之后得以成功安装,现记录下安装过程安装Miniconda下载Miniconda下载地址:https://repo.anaconda.com
健鑫.
·
2022-11-30 22:16
python
linux
数据仓库
大数据
数据仓库和数据集市
数仓
分层一些定义ETL将数据从来源经过抽取、转换、加载的过程宽表将业务主体相关的指标、维度、属性等关联到一起的表,存在一定的数据冗余好处:查询性能得到提高坏处:不满足三范式,数据存在大量冗余宽表的设计广泛应用于数据挖掘前的数据准备
健鑫.
·
2022-11-30 22:00
数据仓库
数据库
大数据
数仓
建设 - 缓慢变化维的10种处理方式
顾名思义,缓慢变化维(SlowlyChangingDimension)就是变化相对缓慢(相对与快速变化的事实表来说)的维度。在维度建模理论中,有8种处理方式,包括基础的5种以及混合的3种。再加上大数据时代的2种极限型,共10种,具体如下:1、基础型1.1、方法0:保留原始值维度属性值不做更改,保留原始值。此方式什么也不做,所以称之为方式0。比如商品上架售卖时间:一个商品上架售卖后可能由于缺货下架,
雾岛与鲸
·
2022-11-30 19:35
数据仓库
hadoop
hdfs
大数据
数据仓库
解决缓慢变化维问题
Hive
数仓
缓慢变化维问题什么是缓慢变化维(SCD)1缓慢变化维简介**2举例说明**SCD问题的几种解决方案SCD解决方案-保留原始值SCD解决方案-改写属性值SCD解决方案-增加维度新行SCD解决方案
我不会爪哇
·
2022-11-30 19:05
笔记
大数据
数据仓库
数据库
mysql
数据仓库实践杂谈(十六)——渐变维
整体数据分层第三章:整体实现框架第四章:元数据第五章:ETL第六章:数据校验第七章:数据标准化第八章:去重第九章:增量/全量第十章:拉链处理第十一章:分布式处理增量第十二章:列式存储第十三章:逻辑数据模型(
数仓
模型
老程序员一叶知秋
·
2022-11-30 19:32
数据仓库实践
数据仓库
数据挖掘
大数据
数据分析
伴鱼DQC数据质量平台实践
DQC数据质量平台实践日常工作中,数据开发、
数仓
开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的BUG导致产出的数据结果不可信。
☞空白页
·
2022-11-30 18:26
数据质量
基于MaxCompute的
数仓
数据质量管理
随着业务的增加,数据的应用越来越多,企业在创建的
数仓
过程中对数据的管理也提出了更高的要求,而数据质量也是
数仓
建设过程不容忽视的环节。本文针对MaxCompute
数仓
建设过程中如何
阿里云技术
·
2022-11-30 18:25
数据仓库
MaxCompute
数据质量管理
伴鱼数据质量平台实践
(博客官网:https://tech.ipalfish.com/blog/)日常工作中,数据开发、
数仓
开发工程师开发上线完一个任务后并不是就可以高枕无忧了,时常会因为上游链路数据异常或者自身处理逻辑的BUG
DolphinScheduler社区
·
2022-11-30 18:41
java
大数据
数据可视化
数据仓库
编程语言
企业
数仓
DQC数据质量管理实践篇
一.数据质量管理背景以大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台、数据仓库的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。现在数据仓库层面的工作越来越多,开发人员也越来越多,如何保障数据准确性是一项非常重要的工作,数据仓库的很多应用数据直接呈现给用户或者支撑企业分析决策的,容不得数据出现错误。随着开展的业
涤生大数据
·
2022-11-30 18:09
数仓建模/数据架构/数据治理
数据仓库
大数据
数据挖掘
跨越速运如何构建实时统一的运单分析
海量运单数据涌来,统一OLAP引擎、建设实时
数仓
、将极速数据分析能力应用到多个场景,成为了跨越速运大数据部门的核心工作目标。
·
2022-11-30 14:25
数据库
数据仓库(7)
数仓
规范设计
规范设计在这里取《大数据之路:阿里巴巴大数据实践》中的定义,这里记录一下本人对这一块自己的理解。规范定义指以维度建模作为理论基础构建总线矩阵,划分和定义数据域、业务过程、维度、度量原子指标、修饰类型、修饰词、时间周期、派生指标。所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分类,以及对应相关的属性,比如生产日期,某个原料的含量等,我们可以把相近或者相同货物,按照一定的规律,放在一起,
张飞的猪大数据
·
2022-11-30 10:29
数据仓库的学习笔记
数据仓库
数仓
ETL
大数据
规范设计
数据仓库设计规范文档
#数据仓库设计规范文档版本更新内容备注v1.0创建文档2020-08-11v1.1新增词根相关2020-08-31一.
数仓
建设1.1.数据模型架构规范分层是为了解决ETL任务及工作流的组织、数据的流向、
qq_38369653
·
2022-11-30 10:27
数据仓库
数据仓库
数据仓库规范
——《孟子·离娄章句上》文章目录前言一、
数仓
规范总览二、
数仓
规范各细则(一)设计规范1.数据模型规范2.命名规范3.代码编写规范4.指标体系建设5.词根库(二)流程规范1.需求提交流程2.模型设计流程3
张六十zhangliushi
·
2022-11-30 10:49
数据仓库
数据仓库
hive
大数据
学习笔记-大数据之路-数据模型篇-数据整合及管理体系-模型实施
9.4,模型实施9.4.1,业界常用的模型Kimball和Inmon模型9.4.2,OneData实施过程指导方针
数仓
建设时,需要充分进行业务调研(自下而上)和需求分析(自上而下)。
dyson不只是吹风机
·
2022-11-29 19:16
大数据之路
学习
big
data
数据仓库
数仓
架构流程一
第一章
数仓
架构之业务调研文章目录第一章
数仓
架构之业务调研
数仓
架构之调研业务调研1、调研的方向1.1公司组织架构梳理1.2公司业务梳理1.2.1调研目的1.2.2调研产出1.2.3反复总结归纳打磨1.2.2
环球小猪
·
2022-11-29 19:42
数据仓库
数仓
架构流程二
第二章
数仓
分层与规范定义文章目录第二章
数仓
分层与规范定义
数仓
分层与规范定义一、
数仓
分层二、设计规范1公共规范1.1数据划分及命名空间约定1.2公共字段定义规范2设计规范ods层dim层dwd层dws层
数仓
分层与规范定义一
环球小猪
·
2022-11-29 19:42
数据仓库
Hive
数仓
查询相关操作大全
文章目录***Hive查询一基本查询(Select…From)1.1全表和特定列查询创建部门表创建员工表导入数据1.全表查询2.选择特定列查询注意:1.2列别名1.3算术运算符表6-3案例实操1.4常用函数1.5Limit语句二Where语句2.1比较运算符(Between/In/IsNull)表6-42)案例实操2.2Like和RLike1)使用LIKE运算选择类似的值2)选择条件可以包含字符或
yidianyidei
·
2022-11-29 17:35
从零开始学大数据-Hive
大数据
hive
Spark学习(6)-Spark SQL
离线开发
数仓
搭建科学计算数据分析特点:2SparkSQL概述2.1SparkSQL和Hive的异
-------江湖-------
·
2022-11-29 17:32
大数据
spark
学习
Flink 高频面试题
6大主题,36个Flink高频面试题:⭐状态原理⭐时间窗口⭐编程技巧⭐实战经验⭐实时
数仓
⭐前沿探索1.状态原理1.1.状态、状态后端、Checkpoint三者之间的区别及关系?
phial03
·
2022-11-29 15:43
flink
flink
kafka
big
data
数仓
开发之DWS层(二)
目录五:用户域用户注册各窗口汇总表5.1主要任务5.2思路分析5.3图解5.4ClickHouse建表语句六:交易域加购各窗口汇总表6.1主要任务6.2思路分析6.3图解6.4ClickHouse建表语句七:交易域支付各窗口汇总表7.1主要任务7.2思路分析7.3图解7.4ClickHouse建表语句八:交易域下单各窗口汇总表8.1主要任务8.2思路分析8.3图解8.4ClickHouse建表语句
大数据阿嘉
·
2022-11-29 08:26
kafka
分布式
flink
大数据
java
多云加速云原生
数仓
生态,华为与 HashData 联合打造方案
多云的兴起,源于用户应用对于基础设施、云服务功能、安全性等的差异化需求,用户希望根据需求将应用、数据因“云”制宜,实现业务的高度灵活性和高效性。这也直接驱动着云原生数据仓库等一批云原生应用的流行,以及存储等基础设施加速走向变革。《迈向智能世界——数据存储》白皮书指出,如何最大化实现跨云和跨数据中心的资源共享、数据统一管理,从而获益于各云厂商最优组合,推进数字化转型与发展,是未来一段时间内行业将持续
大数据在线
·
2022-11-28 23:39
数据库
云原生
数据仓库
HashData
云原生数据仓库
华为数据存储
sakila
数仓
实战案例
重新安装程序可能会解决此问题三、
数仓
理论知识1、维度建模2、处理维度表缓慢变化维类型1、类型一对源系统的更新,也会直接更新目标维度表。维度表总是保存当前最
程序一笑
·
2022-11-28 13:22
kettle
数据仓库
谈数据:微服务环境下,数据如何治理?
我这哥们儿有过多年的
数仓
架构经验,并参考了业界主流的数据中台架构,很快就“照猫画虎”的搞了一个数据中台架构图出来。当他拿走自己的“得意之作”,找老板汇报的时候,
谈数据
·
2022-11-28 12:07
数据治理
数字化转型
浅尝辄止:数据库--
数仓
&大数据平台--数据中台
数仓
&大数据平台;随着数据量暴增,业务复杂度增高,以及烟囱式开发的弊端(导致了数据不互通、重复造轮子、研发效率低的问题,相似的数据产品也有非常多,占用了大量的存储和计算资源,数据口径也无法对齐,内部沟通和管理成本变得
Mr.梧桐
·
2022-11-27 21:13
大数据
数据库
数据平台的4个阶段:从数据库到
数仓
再到中台,超详细的架构全解
在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。目
Leo.yuan
·
2022-11-27 15:17
数据仓库
数据库
大数据
hadoop
数据可视化
关于
数仓
建设及数据治理的超全概括
目录第一节是
数仓
建设
数仓
为什么要分层?
数仓
分几层最好?如何搭建一个好的
数仓
?
浊酒南街
·
2022-11-27 14:12
数仓建设
数据仓库
数据挖掘
大数据
数据仓库系列文章一:浅谈
数仓
设计
数仓
设计指对数据仓库的各项组成进行规划,在正式建设
数仓
之前形成指导性建设方案。
数仓
设计主要分为两部分:数据仓库同操作型业务系统的数据接口设计和
数仓
自身建设设计。
feijinz
·
2022-11-27 14:41
Data
Warehouse
数据仓库
数仓
建模 项目_数据仓库知识与实战——电信运营商
数仓
建模
原标题:数据仓库知识与实战——电信运营商
数仓
建模作者:网舟科技——王超什么是数据仓库数据仓库是为企业提供聚合,存储,投递,以及提供决策支持能提,数据仓库包含广泛数据并按照主题进行存储并且是在数据仓库流程过程中的一个部分
weixin_39865204
·
2022-11-27 14:41
数仓建模
项目
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他