实时计算（数仓）第6页

【DolphinScheduler】datax读取hive分区表时，空分区、分区无数据任务报错问题解决

问题背景：最近在使用海豚调度DolphinScheduler的Datax组件时，遇到这么一个问题：之前给客户使用海豚做的离线数仓的分层搭建，一直都运行好好的，过了个元旦，这几天突然在数仓做任务时报错，具体报错信息如下

Alex_81D·2024-01-12 08:49

【大数据面试】常见数仓建模面试题附答案

数仓架构为什么要分层？事实表的类型？维度建模步骤？维度建模的三种模式？数仓架构进化？数据仓库如何保证数据质量？开发流程/你们是怎么测试的？维度建模过程？维度建模的三种模式？事实表都有哪几种？

话数Science·2024-01-12 07:28

Hive解析json数组

在使用Hive搭建数据仓库，处理数据时，同传统数仓的结构化数据不同，我们经常会遇到一些非结构化的数据，json格式的字符串就是常见的一种类型。

风筝flying·2024-01-12 03:47

数据治理实践：元数据管理架构的演变

我们开始意识到，虽然我们构建了高度可扩展的数据存储，实时计算等等能力，但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。也就是我们缺乏对数据资产的管理。

大数据流动·2024-01-11 21:11

数据治理实践：元数据管理架构的演变（从1.0-4.0)

我们开始意识到，虽然我们构建了高度可扩展的数据存储，实时计算等等能力，但是我们的团队仍然在浪费时间寻找合适的数据集来进行分析。也就是我们缺乏对数据资产的管理。

智慧化智能化数字化方案·2024-01-11 21:39

雷达水位监测系统是监测什么的？

其内置软件当中有特质的算法，实时计算输出断面流量及累计流量，可用于防汛、污染勘察、环境保护勘察、

thhj123·2024-01-11 20:21

【Databend】数据类型

文章目录数据类型列表转换数据类型数据类型扩展整数类型布尔类型浮点数类型字符串类型日期时间类型其它数据类型总结数据类型列表Databend作为一款开源、弹性、低成本，基于对象存储也可以做实时分析的新式数仓

有请小发菜·2024-01-11 17:08

Apache Flink 和 Paimon 在自如数据集成场景中的使用

业务背景自如目前线上有基于Hive的离线数仓和基于Flink、Kafka的实时数仓，随着业务发展，我们也在探索引入湖仓一体的架构更好的支持业务，我们对比了Iceberg、Hudi、Paimon后，最终选择

Apache Flink·2024-01-11 13:09

阿里云实时计算企业级状态存储引擎 Gemini 技术解读

本文整理自阿里云Flink存储引擎团队李晋忠，兰兆千，梅源关于阿里云实时计算企业级状态存储引擎Gemini的研究，内容主要分为以下五部分：流计算状态访问的痛点企业级状态存储引擎GeminiGemini性能评测

Apache Flink·2024-01-11 13:36

亚信安慧AntDB团队引领数据库创新浪潮

该数据库经过多次迭代，形成了完整的“超融合流式实时数仓”体系，为通信运营商和各行业提供卓越的服务

亚信安慧AntDB数据库·2024-01-11 12:48

基于Hologres+Flink的曹操出行实时数仓建设作者：林震｜曹操出行实时计算负责人

作者：林震｜曹操出行实时计算负责人曹操出行业务背景介绍曹操出行创立于2015年5月21日，是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务，以“科技重塑绿色共享出行”为使命，将全球领先的互联网、

阿里云大数据AI技术·2024-01-11 09:40

刚性配准与非刚性配准

前言“配准”这个词其实应用的场景很多，例如在AR设备上进行定位需要用到的图像配准，需要提前存储图像的特征信息，然后用AR设备的摄像头实时计算图像特征并进行匹配，配准成功后进行跟踪。

瓴龍·2024-01-11 04:37

离线数仓构建案例一

数据采集日志数据（文件）到Kafka自己写个程序模拟一些用户的行为数据，这些数据存在一个文件夹中。接着使用flume监控采集这些文件，然后发送给kafka中待消费。1、flume采集配置文件监控文件将数据发给kafka的flume配置文件：#定义组件a1.sources=r1a1.channels=c1#配置sourcea1.sources.r1.type=TAILDIRa1.sources.r1

躺着听Jay·2024-01-10 22:06

数仓规范

目录：一、数据模型架构原则数仓分层原则主题域划分原则数据

听雪10·2024-01-10 15:37

骑砍战团MOD开发(34)-光照系统

一.Direct3D光照类型Direct3D将光源分为3种类型,点光源,方向光源,聚光灯源.Direct3D内部会根据光源类型进行2D渲染管线实时计算.Direct3D将光照参数封装在D3DLight9

霸王•吕布·2024-01-09 20:22

hive基础知识大全

一、Hive基本概念1.1hive是什么hive是基于hadoop的一个数仓分析工具，hive可以将hdfs上存储的结构化的数据，映射成一张表，然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567

不爱吃鱼的馋猫·2024-01-09 13:23

阿里云大数据ACA及ACP复习题（81~100)

（B）A:大数据计算服务MaxComputeB:QuickBI数据可视化分析平台C:实时计算Flink版D:云原生数据仓库（分析型数据库）AnalyticDB**解析**：阿里云实时计算Flink版（AlibabaCloudRealtimeComputeforApacheFlink

周周的奇妙编程·2024-01-09 08:20

数仓分层结构

--图片来源尚硅谷ODS层：数据存储格式：JSON/TSV+gzip压缩（默认）OperateDataStore--存储从mysql业务数据库和日志服务器的日志文件中采集到的数据--日志数据--格式:JSON--业务数据--历史数据--格式:--全量--Datax:TSV--增量--Maxwell:JSON--汇总数据--希望用最少的资源存储最多的数据--压缩：--gzip：Hadoop默认支持的

Young_IT·2024-01-09 06:40

某大厂大数据开发-外包面试

4.spark用过吗，用到的开发工具5.数据量多少，服务器台数6.数仓每层做了什么事，为什么这样做？

劝学-大数据·2024-01-09 06:42

流式湖仓增强，Hologres + Flink 构建企业级实时数仓

流式湖仓增强，Hologres+Flink构建企业级实时数仓一、Hologres+Flink，阿里云上众多客户实时数仓的首选随着大数据从规模化走向实时化，实时数据的需求覆盖互联网、交通、传媒、金融、政府等各个领域

Elivis Hu·2024-01-08 22:52

数仓建设学习路线（二）模型建设(1)

OLTPVSOLAPOLTP概念全称OnLineTransactionProcessing，中文名联机事务处理系统，主要是执行基本日常的事务处理，比如数据库记录的增删查改,例如mysql、oracle。OLAP概念全称OnLineAnalyticalProcessing，中文名联机分析处理系统，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果,例如、ClickHouse、Doris、K

语兴数据·2024-01-08 18:58

数仓建设学习路线（一）

前言数仓建设实践路线是语兴发布在B站的系列课程，搜索语兴呀即可学习完整的数仓建设理论。大数据相关岗位大数据常见的岗位主要包括实时开发、数据治理、数据安全、数据资产等。

语兴数据·2024-01-08 18:57

数仓建设学习路线（二）模型建设(2)

写在最前面本节内容主要讲解模型的具体设计过程，也是我们平常数仓工作中的重中之重。更多精彩课程关注B站语兴呀，或关注gzh：语数，获取全部课件资料。

语兴数据·2024-01-08 18:52

大数据技术架构

整表同步数据量大，一般是数仓T+1方式同步，保证数据一条不丢；还

乘风踏羽·2024-01-08 17:47

服务器内存不足怎么办？会有什么影响？

它是服务器上的超高速存储介质，可以快速读取和写入数据，提供给CPU进行实时计算和操作。服务器内存通常安装在主板上的DIMM（双列直插式内存模块）模块中，也称为RAM棒。

德迅云安全-甲锵·2024-01-08 05:51

基于DataWorks+MaxCompute的公共电影票房数据预处理实践

实验内容：对MaxCompute数仓公共数据进行预处理，主要对maxcompute_public_data.dwd_product_movie_basic_info(电影基本信息，包含影片名、导演、编剧

周周的奇妙编程·2024-01-08 00:43

Hive元数据迁移及升级方案

Hive的架构和工作原理简介Hive是基于Hadoop之上的数仓，便于用户可以基于SQL（HiveQL）进行数据分析，其架构图如下:从上图可知，Hive主要用来将建立结构化数据库和后端分布式结构化文件的映射

云原生大数据·2024-01-07 22:49

物流实时数仓：数仓搭建（DWS）二

系列文章目录物流实时数仓：采集通道搭建物流实时数仓：数仓搭建物流实时数仓：数仓搭建（DIM）物流实时数仓：数仓搭建（DWD）一物流实时数仓：数仓搭建（DWD）二物流实时数仓：数仓搭建（DWS）一物流实时数仓

超哥--·2024-01-07 17:28

数仓知识点总结（面试常问）

目录1数仓1.1定义1.2特点1.3架构1.4数仓的分层架构1.5常见术语1.5.1实体1.5.2维度1.5.3度量1.5.4粒度1.5.5口径

南潇如梦·2024-01-07 15:52

数仓工具—Hive进阶之常见的StorageHandler(24)

这里我们介绍一下常见的StorageHandler，但是由于目前StorageHandler的种类还是比较多的，主要包括官方的和非官方的，我们使用的时候需要注意的是版本的兼容性。常见的StorageHandlerApacheHive提供了多个存储处理程序（StorageHandler），允许用户集成Hive查询和分析引擎与不同的底层存储系统。以下是一些常见的存储处理程序：HDFSStorageHa

不二人生·2024-01-07 15:07

Chunjun纯钧(Flinkx)同步任务开发通用配置参数详解

Chunjun纯钧(Flinkx)是一款稳定、易用、高效、批流一体的数据集成框架，目前基于实时计算引擎Flink实现多种异构数据源之间的数据同步与计算，支持JSON模版配置任务，兼容FlinkSQL语法

张飞的猪大数据·2024-01-07 12:13

数仓工具—Hive内部表和外部表(5)

内部表和外部表未被external修饰的是内部表（managedtable），被external修饰的为外部表（externaltable）；因为默认情况下我们不加external关键字修饰，所以默认情况下是内部表区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehous

不二人生·2024-01-07 07:42

数仓工具—Hive进阶之StorageHandler(23)

另外，Hive作为数仓的核心组件，借助Stora

不二人生·2024-01-07 07:39

Spark大数据分析与实战笔记（第二章 Spark基础-05）

前言在大数据处理和分析领域，Spark被广泛应用于解决海量数据处理和实时计算的挑战。作为一个快速、可扩展且易于使用的分布式计算框架，Spark为开发人员提供了丰富的API和工具来处理和分析大规

想你依然心痛·2024-01-07 06:33

实时数仓模型

为了计算一些实时指标，就在原来离线数仓的基础上增加了一个实时计算的链路，并对数据源做流式改造（即把数据发送到消息队列），实时计算去订阅消息队列，直接完成指标增量的计算，推送到下游的数据服务中去，由数据服务层完成离线

jero_lei·2024-01-06 23:48

Doris 的概述及使用场景

基于此，ApacheDoris能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景，用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户

一座野山·2024-01-06 16:16

湖仓架构的演进

1.数据仓库架构的历史演进起初，业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库，通过ETL的方式加载到DataWarehouse中，再在前端接入一些报表或者BI的工具去展示。

土豆马铃薯·2024-01-06 16:09

Databend使用入门

Databend官网：专注于打造全球最强云数仓，弹性、简单、低成本，支持mysql、clickhouse有线连接协议（白话就是可以直接用它们的客户端连接Databend服务）。

_hys·2024-01-06 14:48

利用 Addax 异构迁移数据到 Databend

这也有了异构数据库的数据同步需求，今天重点给大家介绍两个利器：异构数据迁移：Addax结合云原生数仓Databend实现异构数据库数据合

Databend·2024-01-06 14:17

Migrate your data into databend with DataX

这也有了异构数据库的数据同步需求，今天重点给大家介绍两个利器：异构数据迁移：DataX结合云原生数仓Databend实现异构数据库数据合并及分析。

Databend·2024-01-06 14:17

2022年第十三届中国数据库技术大会（DTCC2022）-核心PPT资料下载

一、峰会简介本届大会以“数据智能价值创新”为主题，设置2大主会场，20+技术专场，邀请超百位行业专家，重点围绕时序数据库、图数据技术、实时数仓技术与应用实践、云原生数据库、大数据平台与数据安全等内容展开分享和探讨

百家峰会·2024-01-05 14:25

python requests elasticsearch auth reindex alias 通过requests用户名密码验证实现es异步重建并指定别名

在使用elasticsearch7.x的过程中,发现elasticsearch默认的副本数和分片数都为1,随着数据量不断增多，一个分片导致写入索引的效率越来越低，之后决定对业务层和数仓的索引进行重建#-

Cocktail_py·2024-01-05 08:02

Flink实时电商数仓之旁路缓存

撤回流的处理撤回流是指流式处理过程中，两表join过程中的数据是一条一条跑过来的，即原本可以join到一起的数据在刚开始可能并没有join上。撤回流的格式：解决方案定时器：使用定时器定时10s（数据最大的时间差值），定时器触发时将状态中的数据发送过来如果重复计算这些数据，如何保持结果正确即可；通过每次度量值修改为当次度量值-上次度量值即可异步IO减少等待的时间，充分利用已有的资源使用异步IO时，必

十七✧ᐦ̤·2024-01-05 07:47

Databend 开源周报第 125 期

Databend是一款现代云数仓。专为弹性和高效设计，为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务：https://app.databend.cn。

Databend·2024-01-05 05:25

Databend 开源周报第 126 期